Word2Vec – 四海吧

介绍几个月前，当我刚开始在Office People工作时，我对语言模型，尤其是Word2Vec产生了兴趣。作为一个使用Python的本地用户，我自然而然地专注于Gensim的Word2Vec实现，并在网上寻找论文和教程。我直接应用并复制了来自多个来源的代码片段，就像任何一个优秀的数据科学家所做的那样。我进一步深入，试图理解我的方法出了什么问题，阅读了Stackoverflow的讨论、Gensim的Google Groups和该库的文档。然而，我一直认为创建Word2Vec模型的最重要的方面之一被忽略了。在我的实验过程中，我发现对句子进行词形还原或查找词组/二元组对结果和模型性能有很大的影响。尽管预处理的影响因数据集和应用而异，但我决定在本文中包含数据准备步骤，并与之配合使用绝妙的spaCy库。其中一些问题让我很烦恼，所以我决定写一篇自己的文章。我不能保证它是完美的或者是实现Word2Vec的最佳方法，但至少比很多其他文章好。学习目标了解词嵌入及其在捕捉语义关系中的作用。使用流行的库如Gensim或TensorFlow实现Word2Vec模型。使用Word2Vec嵌入度量词语相似度和计算距离。探索Word2Vec捕捉到的词语类比和语义关系。在情感分析和机器翻译等各种NLP任务中应用Word2Vec。学习微调Word2Vec模型以适应特定任务或领域的技巧。使用子词信息或预训练的嵌入来处理词汇表外的单词。了解Word2Vec的限制和权衡，如词义消歧和句子级语义。深入研究诸如子词嵌入和通过Word2Vec进行模型优化等高级主题。本文作为Data Science Blogathon的一部分发布。 Word2Vec简介谷歌的一个研究团队在2013年9月和10月之间发表了两篇关于Word2Vec的论文。研究人员还在论文中发布了他们的C实现。Gensim在第一篇论文发表后不久完成了Python实现。 Word2Vec的基本假设是具有相似上下文的两个词具有相似的含义，因此模型中的向量表示也是相似的。例如，”狗”、”小狗”和”幼犬”经常在相似的上下文中使用，周围的词语也相似，比如”好”、”蓬松”或”可爱”，因此根据Word2Vec，它们具有相似的向量表示。基于这个假设，Word2Vec可以用于发现数据集中词语之间的关系，计算它们的相似性，或者将这些词语的向量表示作为其他应用（如文本分类或聚类）的输入。 Word2Vec的实现 Word2Vec的思想非常简单。我们假设通过其周围的词语可以推断出一个词的含义。这类似于谚语”告诉我你的朋友，我会告诉你是谁”。下面是Word2Vec的一个实现。…

Tag: Word2Vec

使用Gensim逐步指南Word2Vec