文本主题确定方法及装置制造方法及图纸

技术编号:17878829 阅读:48 留言:0更新日期:2018-05-06 00:40
本发明专利技术实施例提供文本主题确定方法及装置,涉及计算机应用技术领域。其中,第一种文本主题确定方法包括:获取待处理文本;针对各个候选主题,获取主题词在文本中的词频,以及,获取主题词与文本词之间的语义相似度;根据词频和语义相似度,确定文本分别与各个候选主题之间的相关度;根据相关度,确定文本的主题。本发明专利技术实施例提供的技术方案,不仅考虑文本和主题的语义信息,实现从语义角度进行主题的关联,还考虑主题词在文本中的词频信息,使得体现出主题词对于文本的重要程度;因此,可以有效提高主题准确性。

Text topic determination methods, devices, and electronic devices

The embodiment of the invention provides a text topic determination method, a device and an electronic device, and relates to the field of computer application technology. Among them, the first method of text topic determination includes: obtaining the pending text, obtaining the word frequency of the subject words in the text for each candidate subject, and obtaining the semantic similarity between the subject word and the text word, and determining the correlation between the text and the candidate topics according to the word frequency and the semantic similarity; Determine the theme of the text according to the degree of relevance. The technical scheme provided by the embodiment of the invention not only takes into account the semantic information of text and theme, but also realizes the relevance of the theme from the semantic point of view. It also considers the word frequency information of the subject words in the text, which makes the subject words important to the text; therefore, it can effectively improve the accuracy of the subject.

【技术实现步骤摘要】
文本主题确定方法、装置及电子设备
本申请涉及计算机
,具体涉及两种文本主题确定方法、装置及电子设备。
技术介绍
对于对话系统来说,一个重要的任务就是对用户的对话话语进行语言理解和意图的预测,从而根据用户的意图做出相应的回复和反馈。用户意图的发现,可以看作是从用户的对话文本中提取关键词或关联到某一个主题,所以意图发现问题可以对应到用户对话文本的主题关联或主题发现问题。目前,一种常用的文本主题确定方法是基于LDA(LatentDirichletAllocation,潜在狄利克雷分配模型)主题模型的方法。然而,在实现本专利技术过程中,专利技术人发现该技术方案至少存在如下问题:1、LDA主题模型是以词袋法为基础,只考虑文档中词语的词频信息,忽略了词语本身的语义信息及和其他词语间的语义关联。所谓词袋法,是指使用0-1向量表征文本,0或1表征词表词汇在文本中的出现与否,例如,词表为:{我,你,昨天,今天,生病,吃药,了,的},共8个词,而句子A分词后的序列为:{我,今天,生病,了},则句子A可以用向量[10011010]来表示,1代表句子A中的词在词表中对应位置出现了。2、LDA主题模型在本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/55/201711236613.html" title="文本主题确定方法及装置原文来自X技术">文本主题确定方法及装置</a>

【技术保护点】
一种文本主题确定方法,其特征在于,包括:获取待处理文本;针对各个候选主题,获取主题词在所述文本中的词频,以及,获取所述主题词与文本词之间的语义相似度,其中,所述主题词是指所述候选主题包含的词,所述文本词是指所述文本包含的词;根据所述词频和所述语义相似度,确定所述文本分别与各个所述候选主题之间的相关度;根据所述相关度,确定所述文本的主题。

【技术特征摘要】
1.一种文本主题确定方法,其特征在于,包括:获取待处理文本;针对各个候选主题,获取主题词在所述文本中的词频,以及,获取所述主题词与文本词之间的语义相似度,其中,所述主题词是指所述候选主题包含的词,所述文本词是指所述文本包含的词;根据所述词频和所述语义相似度,确定所述文本分别与各个所述候选主题之间的相关度;根据所述相关度,确定所述文本的主题。2.根据权利要求1所述的方法,其特征在于,所述相关度采用如下公式确定:其中,Si_q表示所述文本与第i个所述候选主题之间的所述相关度,fj表示所述第i个所述候选主题包括的第j个主题词在所述文本中的词频,Sj_max表示所述第j个主题词分别与所述文本包括的各个文本词之间的所述语义相似度的最大值,count(I)表示所述第i个所述候选主题包括的主题词的数量。3.根据权利要求1-2任一项所述的方法,其特征在于,所述方法还包括:根据词与具有语义信息的词向量之间的对应关系集,确定所述各个候选主题的主题向量;根据所述主题向量和所述词向量,获取所述各个候选主题分别与所述对应关系集内各个词之间的语义相似度;根据所述语义相似度,确定与所述候选主题相关的词;将所述相关的词作为新增的候选主题。4.根据权利要求1-2任一项所述的方法,其特征在于,所述根据所述相关度,并确定所述文本的主题,包括:若存在所述相关度大于或者等于相关度阈值的所述候选主题,则从所述相关度大于或者等于所述相关度阈值的至少一个所述候选主题中确定所述文本的主题。5.根据权利要求4所述的方法,其特征在于,所述根据所述相关度,并确定所述文本的主题,还包括:若不存在所述相关度大于或者等于所述相关度阈值的所述候选主题,则通过聚类算法,对包括所述文本和预设的文本集的多个文本进行聚类,并确定所述文本所属类簇对应的主题,作为所述文本的主题。6.根据权利要求...

【专利技术属性】
技术研发人员:蒋宏飞王萌萌晋耀红杨凯程
申请(专利权)人:北京神州泰岳软件股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1