文本话题的抽取方法、装置及计算机设备制造方法及图纸

技术编号:26342560 阅读:28 留言:0更新日期:2020-11-13 20:35
本申请公开了一种文本话题的抽取方法、装置及计算机设备,涉及数据处理领域,可以解决目前在进行文本话题抽取时,抽取效率低,且准确度不高的问题。其中方法包括:对文本集合中各个待进行话题抽取的输入文本进行预处理,得到所述输入文本对应的词序列;依据所述词序列计算各个所述输入文本的词频向量以及词权重向量;基于所述词频向量确定所述文本集合的第一话题抽取结果;根据所述词权重向量以及所述第一话题抽取结果输出所述文本集合的第二话题抽取结果,所述第二话题抽取结果包括预设数量个目标话题以及所述目标话题下的第一文本集合,所述第一文本集合中至少包含一个所述输入文本。本申请适用于对文本话题的抽取。

Text topic extraction method, device and computer equipment

【技术实现步骤摘要】
文本话题的抽取方法、装置及计算机设备
本申请涉及数据处理领域,尤其涉及到一种文本话题的抽取方法、装置及计算机设备。
技术介绍
随着信息时代的发展,业务数据日渐增多甚至泛滥,话题的抽取与检测技术逐步应用到诸多数据处理的过程之中,机器自动从业务数据中抽取话题、组织话题帮助使用者提高工作效率意义重大。基于图理论和概率统计学的主题模型在机器学习领域中得到越来越多的应用。目前在对文本中的话题进行抽取时,通常可采用两种方法:一种是仅能在话题已知的情况下进行抽取,通过将文本与预设话题匹配,获取话题抽取结果;第二种是在话题未知的情况下,直接将文本中出现频率最高的话题确定为文本对应的话题抽取结果。然而上述两种话题抽取方法往往会导致一个文本对应多个话题识别结果,均不能在话题未知的情况下,准确快速地抽取出文本所对应的话题。
技术实现思路
有鉴于此,本申请提供了一种文本话题的抽取方法、装置及计算机设备,主要解决目前在进行文本话题抽取时,抽取效率低,且准确度不高的问题。根据本申请的一个方面,提供了一种文本话题的抽取方法,该方法本文档来自技高网...

【技术保护点】
1.一种文本话题的抽取方法,其特征在于,包括:/n对文本集合中各个待进行话题抽取的输入文本进行预处理,得到所述输入文本对应的词序列;/n依据所述词序列计算各个所述输入文本的词频向量以及词权重向量;/n基于所述词频向量确定所述文本集合的第一话题抽取结果;/n根据所述词权重向量以及所述第一话题抽取结果输出所述文本集合的第二话题抽取结果,所述第二话题抽取结果包括预设数量个目标话题以及所述目标话题下的第一文本集合,所述第一文本集合中至少包含一个所述输入文本。/n

【技术特征摘要】
1.一种文本话题的抽取方法,其特征在于,包括:
对文本集合中各个待进行话题抽取的输入文本进行预处理,得到所述输入文本对应的词序列;
依据所述词序列计算各个所述输入文本的词频向量以及词权重向量;
基于所述词频向量确定所述文本集合的第一话题抽取结果;
根据所述词权重向量以及所述第一话题抽取结果输出所述文本集合的第二话题抽取结果,所述第二话题抽取结果包括预设数量个目标话题以及所述目标话题下的第一文本集合,所述第一文本集合中至少包含一个所述输入文本。


2.根据权利要求1所述的方法,其特征在于,所述对文本集合中各个待进行话题抽取的输入文本进行预处理,得到所述输入文本对应的词序列,具体包括:
基于分词技术分别将各个输入文本切分为第一词语,并得到第一词序列;
基于所述第一词语的目标词性确定与预设停用词性匹配的第二词语,以便从所述第一词序列中剔除所述第二词语,得到第二词序列。


3.根据权利要求2所述的方法,其特征在于,所述依据所述词序列计算各个所述输入文本的词频向量以及词权重向量,具体包括:
基于TF-IDF算法计算所述第二词序列中各个所述第一词语对应所述输入文本的词频以及权重值;
利用所述第二词序列以及所述词频构建关于所述输入文本的词频向量;
根据所述第二词序列以及所述词权重构建关于所述输入文本的词权重向量。


4.根据权利要求3所述的方法,其特征在于,所述TF-IDF算法包括:第一计算公式和第二计算公式,所述基于TF-IDF算法计算所述第二词序列中各个所述第一词语对应所述输入文本的词频以及权重值,包括:
根据所述第一计算公式计算所述输入文本中所述第一词语的词频;
根据所述第二计算公式计算所述输入文本中所述第一词语的逆向文件频率;
将所述所述词频与所述逆向文件频率的乘积,确定为所述第一词语对应所述输入文本的权重值。


5.根据权利要求4所述的方法,其特征在于,所述基于所述词频向量确定所述文本集合的第一话题抽取结果,具体包括:
利用文本词典集合训练确定LDA预测模型的最优配置参数;
将所述LDA预测模型的配置参数调整为所述最优配置参数,并将各个所述输入文本的词频向量输入参数调整后的LDA预测模型中,获取得到第一话题抽取结果,所述第一话题抽取结果包括预设数量个...

【专利技术属性】
技术研发人员:朱鑫
申请(专利权)人:北京新联财通咨询有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1