如何手动计算 TFIDF 值以及使用 sklearn 库
TFIDF 是一种将文本转换为数字形式供机器学习或 AI 模型使用的方法。换句话说,TFIDF 是一种从文本中提取特征的方法。这是一种比我在上一篇文章讨论的 CountVectorizer() 方法更复杂的方法。
TFIDF 方法为每个单词提供一个分数,表示该单词的有用性或相关性。它衡量了该单词与文档中其他单词的使用情况。
本文将手动计算 TFIDF 分数,以便您清楚地理解 TFIDF 的概念。最后,我们将看到如何使用 sklearn 库中的 TFIDF 向量化器。
它包含两个部分:TF 和 IDF。让我们看看每个部分如何工作。
TF
TF 的全称是“词频(Term Frequency)”。TF 的计算公式如下:
TF = 一个单词在文档中出现的次数
或者
TF =(一个单词在文档中出现的次数)/(文档中的总词数)
我们来看一个例子。我们将为此文档中的每个单词计算 TF 值:
我的名字是Lilly
我们来看看每个公式的例子。
TF = 一个单词在文档中出现的次数
如果我们采用第一个公式,即一个单词在文档中出现的次数,单词“我的”在文档中只出现一次,所以它的 TF 值为 1。
同样地,单词
‘名字’ = 1,‘是’ = 1,‘Lilly’ = 1
现在,我们来使用第二个公式。
TF =(一个单词在文档中出现的次数)/(文档中的总词数)
如果我们采用第二个公式,公式的第一部分(一个单词在文档中出现的次数)为 1,第二部分(文档中的总词数)为 4。
因此,单词‘我的’的 TF 值为 1/4 或 0.25。
同样地,单词的 TF 值为