利用Transformer嵌入和向量数据库加速推论
介绍
我非常有兴趣的一个机器学习领域是:通过推荐产品或服务来个性化用户体验。为了追求这个激情,我决定从网络爬虫开始,构建一个推荐引擎,最后进行模型部署和监控。
问题陈述
想象一下,你在观看电影的前30分钟之前,需要决定是否喜欢这部电影,或者是否应该尝试另一部电影的前30分钟,以此类推…或者你需要依赖你朋友糟糕的电影品味!!!这绝对不是一个愉快的体验,对吧?别担心,我来帮你。顺便,如果你更喜欢视频而非文字,下面有个视频你可以看。
这个项目的目标是根据你之前喜欢的一部电影,精确地向你推荐一系列电影。
步骤概述

请随意跳转到你感兴趣的任何部分。
- 数据收集和网络爬虫
- 数据清理和特征提取
- API开发
- API部署
- UI/UX设计和实施
数据收集和网络爬虫
该项目的大部分数据集来自Kaggle。它包含约5000部电影(截至2016年)及其各种特征,如导演姓名和演员姓名等。为了增加数据量,还从维基百科上爬取了2017年至2023年的电影及其特征。此外,使用IMDB API,获取更多相关特征,如电影类别、海报URL和电影概述等…