一种文本信息筛选方法、装置及设备制造方法及图纸

技术编号:24091430 阅读:57 留言:0更新日期:2020-05-09 08:15
本申请实施例公开了一种文本信息筛选方法、装置及设备,该方法包括:获取目标问题文本对应的相关问题文本,并将该相关问题文本的答案文本组成候选答案文本;对该候选答案文本进行分词获得分词结果,并根据该分词结果中各分词之间的关联关系,计算分词转移概率;根据各个候选答案文本包括的分词以及该分词转移概率,计算各个该候选答案文本的概率值,并将概率值最大的候选答案文本确定为目标问题文本的目标答案文本。其中,因基于分词转移概率计算得到的各个候选答案文本的概率值准确地表征各个候选答案文本能够准确地答复目标问题的可能性大小,使得后续能够基于该概率值准确地筛选出准确的目标答案,如此提高了目标答案的筛选准确性。

A method, device and equipment for text information screening

【技术实现步骤摘要】
一种文本信息筛选方法、装置及设备
本申请涉及数据处理
,具体涉及一种文本信息筛选方法、装置及设备。
技术介绍
问答系统是一种常用的信息检索系统。问答系统能用自然语言回答用户用自然语言提出的问题,且该答复过程具体为:在用户提出问题之后,问答系统可以利用问答数据库中所记录的问答对来检索该问题对应的答案,以便利用检索到的答案答复用户问题。其中,问答对是指具有对应关系的问题和答案。然而,因问答数据库中包括大量的问答对,使得问答系统无法从这些大量的问答对中准确地检索到用户问题所对应的准确答案,如此降低了问答系统针对用户问题的回复答案的准确性。
技术实现思路
有鉴于此,本申请实施例提供一种文本信息筛选方法、装置及设备,能够准确地检索到用户问题所对应的准确答案,提高了问答系统针对用户问题的回复答案的准确性。为解决上述问题,本申请实施例提供的技术方案如下:一种文本信息筛选方法,所述方法包括:获取目标问题文本对应的相关问题文本;将所述相关问题文本的答案文本组成候选答案文本;r>对所述候选答案文本文档来自技高网...

【技术保护点】
1.一种文本信息筛选方法,其特征在于,所述方法包括:/n获取目标问题文本对应的相关问题文本;/n将所述相关问题文本的答案文本组成候选答案文本;/n对所述候选答案文本进行分词,获得分词结果;/n根据所述分词结果中各分词之间的关联关系,计算分词转移概率;/n根据各个所述候选答案文本包括的分词以及所述分词转移概率,计算各个所述候选答案文本的概率值;/n将所述概率值最大的候选答案文本确定为所述目标问题文本的目标答案文本。/n

【技术特征摘要】
1.一种文本信息筛选方法,其特征在于,所述方法包括:
获取目标问题文本对应的相关问题文本;
将所述相关问题文本的答案文本组成候选答案文本;
对所述候选答案文本进行分词,获得分词结果;
根据所述分词结果中各分词之间的关联关系,计算分词转移概率;
根据各个所述候选答案文本包括的分词以及所述分词转移概率,计算各个所述候选答案文本的概率值;
将所述概率值最大的候选答案文本确定为所述目标问题文本的目标答案文本。


2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对问题文本集合中的问题文本进行聚类,得到问题文本聚类,每个所述问题文本聚类中包括至少一个问题文本;
所述获取目标问题文本对应的相关问题文本,包括:
确定目标问题文本所属的问题文本聚类;
将所述目标问题文本所属的问题文本聚类中的问题文本确定为候选相关问题文本;
提取所述目标问题文本的关键词以及所述候选相关问题文本的关键词;
将与所述目标问题文本存在相同关键词的候选相关问题文本确定为所述目标问题文本对应的相关问题文本。


3.根据权利要求2所述的方法,其特征在于,所述对问题文本集合中的问题文本进行聚类,得到问题文本聚类,包括:
将问题文本集合中的问题文本转换为特征向量;
根据所述问题文本集合中的问题文本的特征向量在向量空间中的分布,对所述问题文本集合中的问题文本进行聚类,得到问题文本聚类。


4.根据权利要求3所述的方法,其特征在于,所述确定目标问题文本所属的问题文本聚类,包括:
将目标问题文本转换为特征向量;
根据所述问题文本聚类中包括的多个问题文本的特征向量在向量空间中的分布,确定各个所述问题文本聚类的聚类中心;
计算在所述向量空间中所述目标问题文本的特征向量与各个所述聚类中心的距离,将所述距离最小的聚类中心对应的问题文本聚类确定为所述目标问题文本所属的问题文本聚类。


5.根据权利要求1所述的方法,其特征在于,所述对所述候选答案文本进行分词,获得分词结果,包括:
对所述相关问题文本以及所述候选答案文本进行分词,获得分词结果。


6.根据权利要求1或5所述的方法,其特征在于,所述根据所述分词结果中各分词之间的关联关系,计算分词转移概率,包括:
根据所述分词结果中目标两分词组合的出现频次以及全部两分词组合的出现频次总数,计算所述目标两分词组合的初始概率,所述目标两分词组合分别为所述分词结果中连续两个分...

【专利技术属性】
技术研发人员:贾弼然崔朝辉赵立军张霞
申请(专利权)人:东软集团股份有限公司
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1