【技术实现步骤摘要】
基于远程学习的关键词提取方法、系统、设备及存储介质
本申请涉及自然语言处理
,尤其是涉及一种基于远程学习的关键词提取方法、系统、设备及存储介质。
技术介绍
目前,互联网信息存量丰富,比如文本、图片以及录像等数据数量日益增长,其中文本形式仍然是大部分信息的表现形式,文本信息内容丰富,如何准确高效地提取出对用户有用的信息成为亟需要解决的问题。目前主要是通过文本聚类、关键词提取、自动文摘及信息搜索等自然语言技术对文本信息进行处理,再将其直观地呈现给用户。就处理算法而言,主要有基于机器学习的算法和基于统计学的算法,基于机器学习方法的算法,需要大量的训练语料,要耗费大量的人力进行标注;基于统计学的算法虽然不似机器学习需要大量人工标注工序,但基于统计学的算法主要是考虑的理想状态下的模型,在实际操作中关键词提取的结果并不理想,因此,本专利技术人认为现有基于统计学算法的文本关键词提取,在其提取精度上还存在一定问题。
技术实现思路
为了克服现有统计学算法提取文本关键词时存在提取精度不高的问题,本申请提供一种基 ...
【技术保护点】
1.一种基于远程学习的关键词提取方法,其特征在于:所述方法包括:/n基于预设的主题生成模型对初始文本进行聚类,以得到所述初始文本的词典文件;/n对所述词典文件中的词语进行去噪预处理,并将所述去噪预处理后的词典文件作为目标文件;/n对目标文件进行关键词提取,得到目标集;/n将所述目标集中的目标关键词在预设的知识库中进行搜索,得到搜索结果,基于所述目标关键词的字符串长度计算所述搜索结果的匹配度,并将所述匹配度满足预设阈值的目标关键词确定为有效词,从所述目标集中筛选出所有有效词。/n
【技术特征摘要】
1.一种基于远程学习的关键词提取方法,其特征在于:所述方法包括:
基于预设的主题生成模型对初始文本进行聚类,以得到所述初始文本的词典文件;
对所述词典文件中的词语进行去噪预处理,并将所述去噪预处理后的词典文件作为目标文件;
对目标文件进行关键词提取,得到目标集;
将所述目标集中的目标关键词在预设的知识库中进行搜索,得到搜索结果,基于所述目标关键词的字符串长度计算所述搜索结果的匹配度,并将所述匹配度满足预设阈值的目标关键词确定为有效词,从所述目标集中筛选出所有有效词。
2.根据权利要求1所述的基于远程学习的关键词提取方法,其特征在于:所述主题生成模型采用LDA算法,将所述LDA算法应用于所述初始文本,所述基于预设的主题生成模型对初始文本进行聚类,以得到所述初始文本的词典文件,包括:
从狄利克雷α超参数分布中提取所述初始文本的主题分布向量,从基于多项分布的所述主题分布向量中提取生成所述初始文本中每个词语对应的主题,形成文本-主题矩阵;
从狄利克雷β超参数分布中提取每个主题对应的词语分布向量;从基于多项分布的所述词语分布向量中提取生成词语,形成主题-词语矩阵,并将所述主题-词语矩阵中词语的集合作为词典文件。
3.根据权利要求1所述的基于远程学习的关键词提取方法,其特征在于:对所述词典文件中的词语进行去噪预处理,并将所述去噪预处理后的词典文件作为目标文件,包括:
将所述词典文件中的预设停用词删除,并采用中文分词算法对所述词典文件进行数据清洗。
4.根据权利要求1所述的基于远程学习的关键词提取方法,其特征在于:对目标文件进行关键词提取,得到目标集,包括:
将所述目标文件存储至事务数据库,采用FP-growth算法对目标文件进行关键词提取,将提取得到的关键词集合作为目标集。
5.根据权利要求1所述的基于远程学习的关键词提取方法,其特征在于:将所述目标集中的目标关键词在预设的知识库中进行搜索,得到搜索结果,包括:
将目标关键词通过预设的搜索算法在知识库中进行搜索;
根据搜索,获取知识库搜索页面的词条数据,并将所述词条数据作为搜索结果。
6.根据权利要求1所述的基于远程学习的关键词提取方法,其特征在于:所述基于所述目标关键词的字符串长度计算搜索结果的匹配度,计算公式如下:...
【专利技术属性】
技术研发人员:曹聪慧,王志铭,齐卉,贾茜,黄爱蓉,
申请(专利权)人:江汉大学,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。