交互信息处理方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:24251994 阅读:14 留言:0更新日期:2020-05-22 23:48
本申请涉及一种基于自然语言处理的交互信息处理方法,该方法包括:获取用户终端发送的交互信息,提取交互信息对应的文本信息;对文本信息进行文本分割得到多个文本句;通过文本分析模型识别并提取出多个文本对应的待标准化文本;提取待标准化文本的领域语义特征,计算待标准化文本与领域词库中多个标准文本的互信息值;提取互信息值达到互信息阈值的标准文本生成候选集;提取待标准化文本与候选集中多个标准文本的相似度达到相似度阈值的标准文本并输出;将标准文本与知识图谱数据进行匹配,获取相匹配的目标知识信息并推送至用户终端。采用本方法能够准确有效地识别交互信息的领域关键词,以提高交互信息的处理效率和信息推送的准确性。

Interactive information processing methods, devices, computer equipment and storage media

【技术实现步骤摘要】
交互信息处理方法、装置、计算机设备和存储介质
本申请涉及计算机
,特别是涉及一种交互信息处理方法、装置、计算机设备和存储介质。
技术介绍
随着计算机技术的发展,如自动问答等人机交互系统在生活中的应用越来越广泛,也为人们的生活带来了许多便利。对于用户输入的信息需要进行准确识别和挖掘,才能够有效地获取用户咨询信息对应知识信息,从而解决用户的疑问和需求。用户的输入问题信息通常属于短文本且用词多样、随意、不规范,机器学习很难提取到问题中丰富的语义特征。目前出现了一些利用SVD、LDA、PCA等基于矩阵分解实现降维或采用机器学习的方式来构建分类器对问题进行分类,以识别用户信息中的关键词和语义特征等。但由于大矩阵分解的效率较低,降维需要耗费大量的时间,对于特定领域的信息无法准确有效地识别,进而导致特定领域的信息获取的准确性不高。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够准确有效地识别交互信息的领域关键词,以提高交互信息的处理效率和信息推送的准确性的交互信息处理方法、装置、计算机设备和存储介质。一种本文档来自技高网...

【技术保护点】
1.一种交互信息处理方法,所述方法包括:/n获取用户终端发送的交互信息,提取所述交互信息对应的文本信息;/n对所述文本信息进行文本分割,得到多个文本句;/n将所述多个文本句输入至文本分析模型,识别文本句的语义特征并对所述文本句进行分词得到多个文本,提取出所述多个文本对应的待标准化文本;/n提取所述待标准化文本对应目标领域的领域语义特征,根据所述领域语义特征计算所述待标准化文本与领域词库中多个标准文本的互信息值;/n检测所述互信息值是否达到阈值,当达到互信息阈值时,提取所述互信息值对应的标准文本生成候选集;/n计算所述待标准化文本与所述候选集中多个标准文本之间的相似度,当所述相似度达到相似度阈值...

【技术特征摘要】
1.一种交互信息处理方法,所述方法包括:
获取用户终端发送的交互信息,提取所述交互信息对应的文本信息;
对所述文本信息进行文本分割,得到多个文本句;
将所述多个文本句输入至文本分析模型,识别文本句的语义特征并对所述文本句进行分词得到多个文本,提取出所述多个文本对应的待标准化文本;
提取所述待标准化文本对应目标领域的领域语义特征,根据所述领域语义特征计算所述待标准化文本与领域词库中多个标准文本的互信息值;
检测所述互信息值是否达到阈值,当达到互信息阈值时,提取所述互信息值对应的标准文本生成候选集;
计算所述待标准化文本与所述候选集中多个标准文本之间的相似度,当所述相似度达到相似度阈值时,提取所述相似度对应的标准文本并输出;
将所述标准文本与目标领域的知识图谱数据进行匹配,获取与所述标准文本相匹配的目标知识信息,将所述目标知识信息推送至所述用户终端。


2.根据权利要求1所述的方法,其特征在于,所述提取出多个文本对应的待标准化文本的步骤包括:
通过文本分析模型计算多个文本句的文本序列,并对文本句添加对应的序列标签;
根据文本句的序列标签计算所述文本句的语义特征,根据所述语义特征对文本句进行分词,得到多个文本;
根据所述序列标签和语义特征计算多个文本的词性标签;
根据所述语义特征和词性标签计算多个文本的规范因子;
提取所述规范因子满足预设阈值的文本,将所述文本作为待标准化文本。


3.根据权利要求1所述的方法,其特征在于,所述提取所述互信息值达到阈值的标准文本的步骤包括:
根据所述领域语义特征获取所述目标领域对应的多个标准文本;
计算所述多个待标准化文本与所述多个标准文本之间的点互相关性;
计算所述多个待标准化文本的左边界熵和右边界熵,根据所述左边界熵和右边界熵得到所述待标准化文本的信息熵;
根据所述点互相关性和信息熵计算待标准化文本与多个标准文本之间的互信息值,提取所述互信息值满足预设阈值的多个标准文本。


4.根据权利要求1至3任意一项所述的方法,其特征在于,所述方法还包括:
计算所述多个待标准化文本与所述候选集中多个标准文本之间的相似度;
根据所述互信息值和相似度计算所述待标准化文本与多个标准文本的互相关性;
计算待标准化文本与非领域词典中多个词汇的负相关性;
计算所述多个待标准化文本对应标准领域词典中标准文本的概率值;
根据所述互相关性和负相关性以及概率值得到目标相关性;
从所述候选集中提取出所述目标相关性达到阈值的标准文本。


5.根据权利要求1所述的方法,其特征在于,所述获取与所述标准...

【专利技术属性】
技术研发人员:雷志林
申请(专利权)人:平安医疗健康管理股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1