课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
一个根本的分词筛选办法便是筛掉词数过少的词语,这些词语对大多需求而言更可能是停用词,不论对人工分析还是机器学习都没有意义。该办法可用于对大量的分词结果进行初筛。
tf-idf该办法源于page-rank,page-rank是谷歌提出的对网页按照影响力进行排序的算法。相同的,text-rank认为文档或语句中相邻的词语重要性是相互影响的,所以text-rank引入了词语的顺序信息。
上式中,Vi表明当时要计算权重的词,S(Vi)表明该词的权重,d表明阻尼系数,In(Vi)表明与Vi在同一个窗口的词调集,Out(Vj)表明与Vj在同一个窗口的词调集,|Out(Vj)|表明这个词调集的元素个数。text-rank筛选出的top关键词调集最能反应整个文档或语句,与tf-idf不同的是,代表整个文档的词调集并不一定是该文档所独有的,所以如果说要找一个办法进行特征抽取的话,tf-idf显然更加适合。