【技术实现步骤摘要】
语料处理及问答交互方法、装置、计算机设备及存储介质
本专利技术涉及计算机处理
,尤其涉及一种语料处理及问答交互方法、装置、计算机设备及存储介质。
技术介绍
众所周知,在消费、服务等行业中客服人员能够回答用户提出的各种相关咨询。往往拥有越多用户的企业所需要的客服人员便越多,为了解放人力、降低运营成本,智能问答系统应运而生,针对不同业务场景,对话系统构建方式有所不同。基于信息检索(Informationretrieval,IR)方式的对话系统可以根据用户问题在大量高质量问答对(question-answer-pair,QA-pairs)中搜索到最相似的已知问题(question,Q),并将对应的答案(answer,A)作为结果输出给用户,因此,从语料中获取高质量的QA-pairs是实现高质量对话系统的基础条件。目前,挖掘QA-pair时,一方面,将相邻Q和A默认构成QA-pair,即认为相邻的Q和A就构成一个正确的问答对;另一方面,以关键词共现的相似性度量方式筛选问答对,认为合理的QA-pair会在问题和答案中存在 ...
【技术保护点】
1.一种语料处理方法,其特征在于,包括:/n获取问答交互数据,对所述问答交互数据进行预处理得到问答对数据序列;/n基于设置的窗口值确定对应的筛选策略,通过对应的所述筛选策略对所述问答对数据序列进行筛选,得到样式长度与所述窗口值匹配的问答对序列形成的问答对集;/n确定所述问答对集中每一问答对序列的关联度参数,根据所述关联度参数从所述问答对序列中选取关联问答对。/n
【技术特征摘要】
1.一种语料处理方法,其特征在于,包括:
获取问答交互数据,对所述问答交互数据进行预处理得到问答对数据序列;
基于设置的窗口值确定对应的筛选策略,通过对应的所述筛选策略对所述问答对数据序列进行筛选,得到样式长度与所述窗口值匹配的问答对序列形成的问答对集;
确定所述问答对集中每一问答对序列的关联度参数,根据所述关联度参数从所述问答对序列中选取关联问答对。
2.如权利要求1所述的语料处理方法,其特征在于,所述对所述问答交互数据进行预处理得到问答对数据序列,包括:
基于预先设置的归一化处理方式对所述问答交互数据进行处理;所述归一化处理方式包括以下至少之一:分词处理、去停用词处理、词袋模型处理;
对归一化处理后的所述问答对交互数据进行编码,得到问答对数据序列。
3.如权利要求2所述的语料处理方法,其特征在于,所述根据所述关联度参数从所述问答对序列中选取关联问答对之后,包括:
确定与所述归一化方式对应的反归一化处理方式,基于所述反归一化处理方式对所述关联问答对进行处理,得到目标关联问答对集。
4.如权利要求1所述的语料处理方法,其特征在于,所述得到样式长度与所述窗口值匹配的问答对序列形成的问答对集,包括:
基于所述窗口值依序选取长度与所述窗口值相等的问答交互数据段,根据所述问答交互数据段分别形成样式长度与所述窗口值匹配的问答对序列;每一所述问答对序列中包括至少一个待分析问题词语和至少一个待分析答案词语;
根据所述问答对序列形成问答对集。
5.如权利要求1所述的语料处理方法,其特征在于,所述确定所述问答对集中每一问答对序列的关联度参数,根据所述关联度参数从所述问答对序列中选取关联问答对,包括:
确定所述问答对集中每一所述问答对序列的关联度参数及所述关联度参数对应的阈值;所述关联度参数包括以下至少之一:自由度参数、紧密度参数、重复参数;
选取所述关联度参数满足所述阈值的问答对序列作为关联问答对。
6.如权利要求1所述的语料处理方法,其特征在于,当所述关联度参数为自由度参数时,所述确定所述问答对集中每一问答对序列的关联度参数,根据所述关联度参数从所述问答对序列中选取关联问答对,包括:
获取每一所述问答对序列相邻的左右邻接问答对,得到左问答对和右问答对;
基于所述左问答对和所述问答对序列、及所述问答对序列和所述右问答对分别确定所述问答对序列的左熵值和右熵值,根据所述左熵值和所述右熵值确定所述自由度参数;
当所述自由度参数超过设置的第一阈值时,确定所述问答对序列为关联问答对。
7.如权利要求1所述的语料处理方法,其特征在于,当所述关联度参...
【专利技术属性】
技术研发人员:王逸凡,
申请(专利权)人:北京京东尚科信息技术有限公司,北京京东世纪贸易有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。