【技术实现步骤摘要】
基于人工智能的问答数据处理方法、装置及电子设备
本专利技术涉及人工智能技术,尤其涉及一种基于人工智能的问答数据处理方法、装置、电子设备及存储介质。
技术介绍
人工智能(AI,ArtificialIntelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。基于人机交互的智能问答是人工智能的重要应用方向,广泛应用在各个领域的咨询场景中,随着互联网技术的发展,在越来越多的场景下需要根据问题搜索答案,以得到用于答案问题的答案,例如,在医疗场景中,用户可以向线上的机器人咨询医疗问题,机器人在问答数据(包括问题和答案)搜索合适的答案以回应患者。依靠人工建立问答数据难以满足实际应用中数据量大、数据快速更新的需求。而依靠自动化手段建立的问答数据中答非所问的类型占据了相当大的比例,又影响了智能问答的准确性。
技术实现思路
本专利技术实施例提供一种基于人工智能的问答数据处理方法、装置、电子设备及存储介质,能够准确识别答非所问的问答数据。本专利技术实施例的技术方案是这样实现的:本专利技术实施例提供一种基于人工智能的问答数据处理方法,包括:获取问答数据的语义特征;对所述问答数据的语义特征进行解耦处理,得到所述问答数据的实体特征以及所述问答数据的意图特征;基于所述实体特征确定所述问答数据对应实体维度匹配的实体匹配分数,并基于所述意图特征确定所述问答数据对应意图维度匹配的意图匹配分数; ...
【技术保护点】
1.一种基于人工智能的问答数据处理方法,其特征在于,所述方法包括:/n获取问答数据的语义特征;/n对所述问答数据的语义特征进行解耦处理,得到所述问答数据的实体特征以及所述问答数据的意图特征;/n基于所述实体特征确定所述问答数据对应实体维度匹配的实体匹配分数,并基于所述意图特征确定所述问答数据对应意图维度匹配的意图匹配分数;/n当所述实体匹配分数以及所述意图匹配分数中的至少一个满足对应的答非所问条件时,确定所述问答数据属于答非所问的类型。/n
【技术特征摘要】
1.一种基于人工智能的问答数据处理方法,其特征在于,所述方法包括:
获取问答数据的语义特征;
对所述问答数据的语义特征进行解耦处理,得到所述问答数据的实体特征以及所述问答数据的意图特征;
基于所述实体特征确定所述问答数据对应实体维度匹配的实体匹配分数,并基于所述意图特征确定所述问答数据对应意图维度匹配的意图匹配分数;
当所述实体匹配分数以及所述意图匹配分数中的至少一个满足对应的答非所问条件时,确定所述问答数据属于答非所问的类型。
2.根据权利要求1所述的方法,其特征在于,获取问答数据的语义特征之前,所述方法还包括:
当用于答复问题的文本的长度超过文本长度阈值时,提取所述文本的摘要以作为所述问题的答案,并结合所述问题组成问答数据;
当用于答复问题的文本长度不超过文本长度阈值时,将所述文本作为所述问题的答案,并结合所述问题组成问答数据。
3.根据权利要求1所述的方法,其特征在于,所述获取问答数据的语义特征,包括:
通过语义特征提取网络的各特征提取层,分别提取表征所述问答数据中问题与答案之间的语义关系的子语义特征;
结合对应各特征提取层中的权重,对所述各特征提取层所提取的子语义特征进行加权处理,得到表征所述问答数据中问题与答案之间的语义关系的语义特征;
其中,所述语义关系包括所述问题与所述答案在实体维度的匹配关系、以及所述问题与所述答案在意图维度的匹配关系。
4.根据权利要求1所述的方法,其特征在于,所述对所述问答数据的语义特征进行解耦处理,得到所述问答数据的实体特征以及所述问答数据的意图特征,包括:
通过问答匹配模型中的实体全连接层,将所述问答数据的语义特征,从语义特征空间映射到实体特征空间,以得到用于表征实体维度匹配信息的实体特征;
通过问答匹配模型中的意图全连接层,将所述问答数据的语义特征,从语义特征空间映射到意图特征空间,以得到用于表征意图维度匹配信息的意图特征;
其中,所述实体全连接层和所述意图全连接层是基于对抗训练得到的。
5.根据权利要求1所述的方法,其特征在于,
所述基于所述实体特征确定所述问答数据对应实体维度匹配的实体匹配分数,包括:
通过问答匹配模型中的实体匹配层,并结合对应所述问答数据的实体特征对所述问答数据进行分类,得到所述问答数据为基于实体维度匹配的问答数据的第一概率,以作为所述实体匹配分数;
所述基于所述意图特征确定所述问答数据对应意图维度匹配的意图匹配分数,包括:
通过问答匹配模型中的意图匹配层,并结合对应所述问答数据的意图特征对所述问答数据进行分类,得到所述问答数据为基于意图维度匹配的问答数据的第二概率,以作为所述意图匹配分数。
6.根据权利要求1所述的方法,其特征在于,所述当所述实体匹配分数以及所述意图匹配分数中的至少一个满足对应的答非所问条件时,确定所述问答数据属于答非所问的类型,包括:
当满足以下条件至少之一时,确定所述问答数据属于答非所问的类型:
所述实体匹配分数小于所述实体匹配分数阈值;
所述意图匹配分数小于所述意图匹配分数。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对经过人工标注的标准问答数据样本进行数据增强处理,以构建训练样本集合;
其中,所述经过人工标注的标准问答数据样本由相互匹配的问题样本和答案样本组成;
构建用于识别出答非所问的类型的问答匹配模型;
基于所述训练样本集合,对所述问答匹配模型进行训练。
8.根据权利要求7所述的方法,其特征在于,所述对经过人工标注的标准问答数据样本进行数据增强处理,以构建训练样本集合,包括:
随机替换所述标准问答数据样本中的答案样本的实体词,以使所述标准问答数据样本中的答案样本的实体词与问题样本的实体词不匹配,并将经过替换的标准问答数据样本确定为实体不匹配且意图匹配的第一问答数据样本;
随机打乱所述标准问答数据样本中的问题样本和答案样本,以生成实体不匹配且意图不匹配的第二问答数据样本;
随机替换所述第二问答数据样本中的答案样本的实体词,以使所述第二问答数据样本中的答案样本的实体词与问题样本的实体词匹配,并将经过替换的第二问答数据样本确定为实体匹配且意图不匹配的第三问答数据样本;
将所述标准问答数据样本、所述第一问答数据样本、所述第二问答数据样本以及所述第三问答数据样本中的至少之一,组合成所述训练样本集合。
9.根据权利要求8所述的方法,其特征在于,
所述基于所述训练样本集合,对所述问答匹配模型进行训练,包括:
初始化所述问答匹配模型,并初始化包括输入样本以及对应所述输入样本的问答数据匹配结果的损失函数;
在所述问答匹配模型每次迭代训练过程中执行以下处理...
【专利技术属性】
技术研发人员:司鹏达,邓强,钟滨,徐进,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。