【技术实现步骤摘要】
一种基于改进TopicRank算法的文本关键词抽取方法
本专利技术属于文本处理
,更具体地,涉及一种基于改进TopicRank算法的文本关键词抽取方法。
技术介绍
文本关键词代表了文本的主要概念和关键性内容,是理解文本内容最简洁和最快速的方法。文本关键词抽取,也称关键词提取或关键词标注,是从文本中把与该文本所要表达的意义最相关的一些词或短语抽取出来的一种自动化技术。关键词抽取在图书馆学、情报学、自然语言处理等领域有重要的实际应用价值。现有的关键词抽取方法可以分为两类:有监督机器学习方法和无监督机器学习方法。基于有监督学习的关键词抽取方法的一般步骤是:首先,建立一个包含大量文本和人工标注的对应关键词的训练数据集;然后,利用建立好的训练数据集对构造的关键词抽取算法进行训练得到一个模型;最后,应用训练好的模型对新文本进行关键词抽取。有监督机器学习的关键词抽取算法常借助决策树(DT)、朴素贝叶斯(NB)、支持向量机(SVM)、最大熵模型(ME)、隐Markov模型(HMM)、条件随机场(CRF)等机器学习模型。 ...
【技术保护点】
1.一种基于改进TopicRank算法的文本关键词抽取方法,其特征在于,包括步骤:/n对输入计算机的文本进行预处理,从预处理后的文本中抽取候选关键词,并对候选关键词进行向量化,对向量化后的候选关键词进行聚类生成主题;/n构建图模型,利用图模型获取每个主题的分值,其中,图模型的顶点代表主题,图模型的边代表构成边的两个顶点所表示主题间的语义关系,两个主题间的语义关系决定两个主题间的分值权重,将边的两个顶点代表的主题记为t
【技术特征摘要】
1.一种基于改进TopicRank算法的文本关键词抽取方法,其特征在于,包括步骤:
对输入计算机的文本进行预处理,从预处理后的文本中抽取候选关键词,并对候选关键词进行向量化,对向量化后的候选关键词进行聚类生成主题;
构建图模型,利用图模型获取每个主题的分值,其中,图模型的顶点代表主题,图模型的边代表构成边的两个顶点所表示主题间的语义关系,两个主题间的语义关系决定两个主题间的分值权重,将边的两个顶点代表的主题记为ti、tj,则主题ti、tj构成的边的分值权重wi,j由主题ti、tj包含的候选关键词的相对位置,主题ti、tj包含的候选关键词的绝对位置和主题ti、tj包含的候选关键词的长度确定;
根据分值对主题进行排序,从高到低选取分值最高的n个主题,n为预先定义的正整数,从选取的n个主题包含的候选关键词中选取最终文本关键词。
2.如权利要求1所述的一种基于改进TopicRank算法的文本关键词抽取方法,其特征在于,所述主题ti、tj构成的边的分值权重wi,j确定时,若主题ti、tj包含的候选关键词越长,则分值权重wi,j越大;若主题ti、tj包含的候选关键词的绝对位置越靠近文本的开头,则分值权重wi,j越大。
3.如权利要求2所述的一种基于改进TopicRank算法的文本关键词抽取方法,其特征在于,所述主题ti、tj之间的分值权重wi,j按照如下方式定义:
len(ck,cl)的计算方式为:
len(ck,cl)=len(ck)+len(cl)
或者,
len(ck,cl)=(len(ck)+len(cl))2
pos(ck,cl)的计算方式为:
或者,
其中,len(ck)、len(cl)代表主题ti、tj中候选关键词ck和cl的长度,pos(ck,cl)代表ck和cl的正序位置信息,px、py是ck和cl在文中出现的位置,dist(ck,cl)表示主题ti、tj中候选关键词ck...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。