“打造一套端到端的推荐系统”

利用Transformer嵌入和向量数据库加速推论

介绍

我非常有兴趣的一个机器学习领域是：通过推荐产品或服务来个性化用户体验。为了追求这个激情，我决定从网络爬虫开始，构建一个推荐引擎，最后进行模型部署和监控。

问题陈述

想象一下，你在观看电影的前30分钟之前，需要决定是否喜欢这部电影，或者是否应该尝试另一部电影的前30分钟，以此类推…或者你需要依赖你朋友糟糕的电影品味！！！这绝对不是一个愉快的体验，对吧？别担心，我来帮你。顺便，如果你更喜欢视频而非文字，下面有个视频你可以看。

这个项目的目标是根据你之前喜欢的一部电影，精确地向你推荐一系列电影。

步骤概述

请随意跳转到你感兴趣的任何部分。

数据收集和网络爬虫

该项目的大部分数据集来自Kaggle。它包含约5000部电影（截至2016年）及其各种特征，如导演姓名和演员姓名等。为了增加数据量，还从维基百科上爬取了2017年至2023年的电影及其特征。此外，使用IMDB API，获取更多相关特征，如电影类别、海报URL和电影概述等…