一种文本信息筛选方法、装置及设备制造方法及图纸

技术编号:24091430 阅读:44 留言:0更新日期:2020-05-09 08:15
本申请实施例公开了一种文本信息筛选方法、装置及设备,该方法包括:获取目标问题文本对应的相关问题文本,并将该相关问题文本的答案文本组成候选答案文本;对该候选答案文本进行分词获得分词结果,并根据该分词结果中各分词之间的关联关系,计算分词转移概率;根据各个候选答案文本包括的分词以及该分词转移概率,计算各个该候选答案文本的概率值,并将概率值最大的候选答案文本确定为目标问题文本的目标答案文本。其中,因基于分词转移概率计算得到的各个候选答案文本的概率值准确地表征各个候选答案文本能够准确地答复目标问题的可能性大小,使得后续能够基于该概率值准确地筛选出准确的目标答案,如此提高了目标答案的筛选准确性。

A method, device and equipment for text information screening

【技术实现步骤摘要】
一种文本信息筛选方法、装置及设备
本申请涉及数据处理
,具体涉及一种文本信息筛选方法、装置及设备。
技术介绍
问答系统是一种常用的信息检索系统。问答系统能用自然语言回答用户用自然语言提出的问题,且该答复过程具体为:在用户提出问题之后,问答系统可以利用问答数据库中所记录的问答对来检索该问题对应的答案,以便利用检索到的答案答复用户问题。其中,问答对是指具有对应关系的问题和答案。然而,因问答数据库中包括大量的问答对,使得问答系统无法从这些大量的问答对中准确地检索到用户问题所对应的准确答案,如此降低了问答系统针对用户问题的回复答案的准确性。
技术实现思路
有鉴于此,本申请实施例提供一种文本信息筛选方法、装置及设备,能够准确地检索到用户问题所对应的准确答案,提高了问答系统针对用户问题的回复答案的准确性。为解决上述问题,本申请实施例提供的技术方案如下:一种文本信息筛选方法,所述方法包括:获取目标问题文本对应的相关问题文本;将所述相关问题文本的答案文本组成候选答案文本;对所述候选答案文本进行分词,获得分词结果;根据所述分词结果中各分词之间的关联关系,计算分词转移概率;根据各个所述候选答案文本包括的分词以及所述分词转移概率,计算各个所述候选答案文本的概率值;将所述概率值最大的候选答案文本确定为所述目标问题文本的目标答案文本。在一种可能的实现方式中,所述方法还包括:对问题文本集合中的问题文本进行聚类,得到问题文本聚类,每个所述问题文本聚类中包括至少一个问题文本;所述获取目标问题文本对应的相关问题文本,包括:确定目标问题文本所属的问题文本聚类;将所述目标问题文本所属的问题文本聚类中的问题文本确定为候选相关问题文本;提取所述目标问题文本的关键词以及所述候选相关问题文本的关键词;将与所述目标问题文本存在相同关键词的候选相关问题文本确定为所述目标问题文本对应的相关问题文本。在一种可能的实现方式中,所述对问题文本集合中的问题文本进行聚类,得到问题文本聚类,包括:将问题文本集合中的问题文本转换为特征向量;根据所述问题文本集合中的问题文本的特征向量在向量空间中的分布,对所述问题文本集合中的问题文本进行聚类,得到问题文本聚类。在一种可能的实现方式中,所述确定目标问题文本所属的问题文本聚类,包括:将目标问题文本转换为特征向量;根据所述问题文本聚类中包括的多个问题文本的特征向量在向量空间中的分布,确定各个所述问题文本聚类的聚类中心;计算在所述向量空间中所述目标问题文本的特征向量与各个所述聚类中心的距离,将所述距离最小的聚类中心对应的问题文本聚类确定为所述目标问题文本所属的问题文本聚类。在一种可能的实现方式中,所述对所述候选答案文本进行分词,获得分词结果,包括:对所述相关问题文本以及所述候选答案文本进行分词,获得分词结果。在一种可能的实现方式中,所述根据所述分词结果中各分词之间的关联关系,计算分词转移概率,包括:根据所述分词结果中目标两分词组合的出现频次以及全部两分词组合的出现频次总数,计算所述目标两分词组合的初始概率,所述目标两分词组合分别为所述分词结果中连续两个分词的组合;根据所述分词结果中目标三分词组合的出现频次以及全部三分词组合的出现频次总数,计算所述目标三分词组合的初始概率,所述目标三分词组合分别为所述分词结果中连续三个分词的组合;根据所述目标两分词组合的初始概率以及所述目标两分词组合对应的目标三分词组合的初始概率,计算从所述目标两分词组合转移到第一目标分词的转移概率作为分词转移概率,所述目标两分词组合对应的目标三分词组合中的前两个分词为所述目标两分词组合,所述第一目标分词为所述目标两分词组合对应的目标三分词组合中的第三个分词。在一种可能的实现方式中,所述根据各个所述候选答案文本包括的分词以及所述分词转移概率,计算各个所述候选答案文本的概率值,包括:从所述目标两分词组合的初始概率中获取所述候选答案文本包括的第一分词组合的初始概率,所述第一分词组合为所述候选答案文本中的前两个分词的组合;从所述分词转移概率中获取所述候选答案文本包括的各个第二分词组合转移到第二目标分词的转移概率,所述第二分词组合为所述候选答案文本中除最后一个分词之外的连续两个分词的组合,所述第二目标分词为所述第二分词组合之后的一个分词;将所述候选答案文本包括的第一分词组合的初始概率与所述候选答案文本包括的各个第二分词组合转移到第二目标分词的转移概率相乘,得到所述候选答案文本的概率值。一种文本信息筛选装置,所述装置包括:相关答案获取单元,用于获取目标问题文本对应的相关问题文本;候选答案获取单元,用于将所述相关问题文本的答案文本组成候选答案文本;候选答案分词单元,用于对所述候选答案文本进行分词,获得分词结果;转移概率计算单元,用于根据所述分词结果中各分词之间的关联关系,计算分词转移概率;答案概率计算单元,用于根据各个所述候选答案文本包括的分词以及所述分词转移概率,计算各个所述候选答案文本的概率值;目标答案确定单元,用于将所述概率值最大的候选答案文本确定为所述目标问题文本的目标答案文本。一种文本信息筛选设备,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现所述的文本信息筛选方法。一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行所述的文本信息筛选方法。由此可见,本申请实施例具有如下有益效果:本申请实施例提供的文本信息筛选方法中,首先,获取目标问题文本对应的相关问题文本,并将该相关问题文本的答案文本组成候选答案文本;然后,对该候选答案文本进行分词获得分词结果,并根据该分词结果中各分词之间的关联关系,计算分词转移概率;最后,根据各个候选答案文本包括的分词以及该分词转移概率,计算各个该候选答案文本的概率值,并将概率值最大的候选答案文本确定为目标问题文本的目标答案文本。其中,因分词转移概率能够表征出在回答目标问题时由当前分词转移至下一个分词的可能性大小,使得基于该分词转移概率计算得到的各个候选答案文本的概率值能够准确地表征各个候选答案文本能够准确地答复目标问题的可能性大小,从而使得后续能够基于各个候选答案文本的概率值准确地筛选出在答复目标问题时准确的目标答案,如此提高了目标答案的筛选准确性。另外,在将该文本信息筛选方法应用于问答系统时,该问答系统能够准确地检索到用户问题所对应的准确答案,提高了问答系统针对用户问题回复的答案的准确性。附图说明图1为本申请实施例提供的一种文本信息筛选方法的流程图;图2为本申请实施例提供的另一种文本信息筛选方法的流程图;图3为本申请实施例提供的一种文本信息筛选本文档来自技高网...

【技术保护点】
1.一种文本信息筛选方法,其特征在于,所述方法包括:/n获取目标问题文本对应的相关问题文本;/n将所述相关问题文本的答案文本组成候选答案文本;/n对所述候选答案文本进行分词,获得分词结果;/n根据所述分词结果中各分词之间的关联关系,计算分词转移概率;/n根据各个所述候选答案文本包括的分词以及所述分词转移概率,计算各个所述候选答案文本的概率值;/n将所述概率值最大的候选答案文本确定为所述目标问题文本的目标答案文本。/n

【技术特征摘要】
1.一种文本信息筛选方法,其特征在于,所述方法包括:
获取目标问题文本对应的相关问题文本;
将所述相关问题文本的答案文本组成候选答案文本;
对所述候选答案文本进行分词,获得分词结果;
根据所述分词结果中各分词之间的关联关系,计算分词转移概率;
根据各个所述候选答案文本包括的分词以及所述分词转移概率,计算各个所述候选答案文本的概率值;
将所述概率值最大的候选答案文本确定为所述目标问题文本的目标答案文本。


2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对问题文本集合中的问题文本进行聚类,得到问题文本聚类,每个所述问题文本聚类中包括至少一个问题文本;
所述获取目标问题文本对应的相关问题文本,包括:
确定目标问题文本所属的问题文本聚类;
将所述目标问题文本所属的问题文本聚类中的问题文本确定为候选相关问题文本;
提取所述目标问题文本的关键词以及所述候选相关问题文本的关键词;
将与所述目标问题文本存在相同关键词的候选相关问题文本确定为所述目标问题文本对应的相关问题文本。


3.根据权利要求2所述的方法,其特征在于,所述对问题文本集合中的问题文本进行聚类,得到问题文本聚类,包括:
将问题文本集合中的问题文本转换为特征向量;
根据所述问题文本集合中的问题文本的特征向量在向量空间中的分布,对所述问题文本集合中的问题文本进行聚类,得到问题文本聚类。


4.根据权利要求3所述的方法,其特征在于,所述确定目标问题文本所属的问题文本聚类,包括:
将目标问题文本转换为特征向量;
根据所述问题文本聚类中包括的多个问题文本的特征向量在向量空间中的分布,确定各个所述问题文本聚类的聚类中心;
计算在所述向量空间中所述目标问题文本的特征向量与各个所述聚类中心的距离,将所述距离最小的聚类中心对应的问题文本聚类确定为所述目标问题文本所属的问题文本聚类。


5.根据权利要求1所述的方法,其特征在于,所述对所述候选答案文本进行分词,获得分词结果,包括:
对所述相关问题文本以及所述候选答案文本进行分词,获得分词结果。


6.根据权利要求1或5所述的方法,其特征在于,所述根据所述分词结果中各分词之间的关联关系,计算分词转移概率,包括:
根据所述分词结果中目标两分词组合的出现频次以及全部两分词组合的出现频次总数,计算所述目标两分词组合的初始概率,所述目标两分词组合分别为所述分词结果中连续两个分...

【专利技术属性】
技术研发人员:贾弼然崔朝辉赵立军张霞
申请(专利权)人:东软集团股份有限公司
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1