一种基于语义相似性的关键词抽取方法及系统技术方案

技术编号:30908163 阅读:33 留言:0更新日期:2021-11-22 23:54
本发明专利技术公开了一种基于语义相似性的关键词抽取方法和系统,所述方法包括:将文本进行分句,根据领域分词字典对每个句子进行分词;将进行所述分词后的词语和词语所在句子进行向量化;计算向量化后的词语和词语所在句子的相似性,提取出候选关键词;利用聚类算法将所述候选关键词进行聚类,获取所述候选关键词主题模型;对每个主题模型中的候选关键词进行排序,获取最终关键词结果。采用本方法可以使分词更准确,使提取到的文章关键词能够更好的反应文章的主题。应文章的主题。应文章的主题。

【技术实现步骤摘要】
一种基于语义相似性的关键词抽取方法及系统


[0001]本专利技术涉及人工智能自然语言处理
,尤其是涉及一种基于语义相似性的关键词抽取方法及系统。

技术介绍

[0002]在自然语言处理领域,处理海量的文本文件最关键的是要把用户最关心的问题提取出来,而无论是对于长文本还是短文本,往往可以通过一些关键词窥探整个文本的主题思想。与此同时,不管是基于文本的推荐还是基于文本的搜索,对于文本关键词的依赖也很大,关键词提取的准确程度直接关系到推荐系统或者搜索系统的最终效果。因此,关键词提取在文本挖掘领域是一个很重要的部分。
[0003]目前的关键词抽取方法有监督的抽取算法和无监督的抽取算法:
[0004]有监督的关键词抽取算法需要提供已经标注好的训练语料,利用训练语料训练关键词提取模型,根据模型对需要抽取关键词的文档进行关键词抽取,但是人工标注成本高昂;
[0005]无监督关键词抽取算法可以分为三大类,基于统计特征的关键词抽取、基于词图模型的关键词抽取和基于主题模型的关键词抽取:基于于统计特征的关键词抽取算法的思想是利用文档中词语本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于语义相似性的关键词抽取方法,其特征在于,包括:S1.将文本进行分句,根据领域分词字典对每个句子进行分词;S2.将进行所述分词后的词语和词语所在句子进行向量化;S3.计算向量化后的词语和词语所在句子的相似性,提取出候选关键词;S4.利用聚类算法将所述候选关键词进行聚类,获取所述候选关键词主题模型;S5.对每个主题模型中的候选关键词进行排序,获取最终关键词结果。2.根据权利要求1所述的方法,其特征在于,步骤S2所述将进行所述分词后的词语和词语所在句子进行向量化的具体方法为:首先将整个句子进行分字后使用bert模型进行编码,输出每个字对应的向量;将词语中每个字的向量相加后求平均值,得到所述词语的向量;句子向量采用CLS向量。3.根据权利要求1所述的方法,其特征在于,步骤S3所述计算向量化后的词语和词语所在句子的相似性,提取出候选关键词的具体方法为:利用余弦相似性计算向量化表示后的词语和所述词语所在句子的相似性,设置相似性阈值,保留词语和所述词语所在句子的相似性大于所述相似性阈值的词语作为候选关键词。4.根据权利要求1所述的方法,其特征在于,步骤S5所述对每个主题模型中的候选关键词进行排序,获取最终关键词结果的具体方法为:计算每个主题模型中的词向量的平均词向量,然后计算每个候选关键词和所在主题模型平均词向量的相似性,将计算出的所述相似性由大到小进行排序,保留每个主题模型的前n个作为文本关键词,n的值根据实际情况进行自定义设置。5.一种基于语义相似性的关键词抽取系统,其特征在于,包括:分词模块:用于将文本进行分句,并根据领域分词字典对每个句子进行分词;向量化模块...

【专利技术属性】
技术研发人员:史晓凌刘弦弦唐先明柳晶晶李立琴高艳
申请(专利权)人:北京智通云联科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1