关键词作为一篇文档或一个语句的特征笼统,方便了文档或语句的分析作业,尤其对于一篇长文档,抽取出契合需求的关键词调集,能使分析人员更快的找到特征和定位问题。本文就不同的需求列举了几种关键词提取办法。
词数
一个根本的分词筛选办法便是筛掉词数过少的词语,这些词语对大多需求而言更可能是停用词,不论对人工分析还是机器学习都没有意义。该办法可用于对大量的分词结果进行初筛。
tf-idf
tf-idf是常用的对文档或语句中的词语进行打分的办法。某个词的tf-idf取值取决于两个因素:词频以及该词的稀有程度。因而,tf-idf描绘了一个词语在所属文档或语句的独有程度。正因为如此,当我根据tf-idf取top词语构成了关键词调集,它反映的是文档或语句独有的特点,或者说亮点。
tf-idf代表的是一起涉及到词频以及该词稀有度的计算模式,有多钟计算公式,词频最常见的计算办法是改词的出现次数/总词数,词稀有度常见计算办法是对文档总数/含有改词的文档数取对数。可根据需求和实践数据的不同调整词频或词稀有度所占权重。
tf-idf还可用于比较文本类似度,作为文本的特征抽取手段进一步做机器学习。
text-rank
该办法源于page-rank,page-rank是谷歌提出的对网页按照影响力进行排序的算法。相同的,text-rank认为文档或语句中相邻的词语重要性是相互影响的,所以text-rank引入了词语的顺序信息。
上式中,Vi表明当时要计算权重的词,S(Vi)表明该词的权重,d表明阻尼系数,In(Vi)表明与Vi在同一个窗口的词调集,Out(Vj)表明与Vj在同一个窗口的词调集,|Out(Vj)|表明这个词调集的元素个数。
text-rank算法首先对每个词语的权重进行初始化,然后根据上述公式对每个词语的权重进行更新直至收敛,受em算法理论支撑。
text-rank筛选出的top关键词调集最能反应整个文档或语句,与tf-idf不同的是,代表整个文档的词调集并不一定是该文档所独有的,所以如果说要找一个办法进行特征抽取的话,tf-idf显然更加适合。
以上就是济南达内给大家做的内容详解,更多关于IT知识的学习,请继续关注济南达内