数据处理方法、装置和系统制造方法及图纸

技术编号：36064716 阅读：14 留言：0更新日期：2022-12-24 10:30

本发明专利技术公开了一种数据处理方法、装置和系统。其中，该方法包括：接收待解码数据，其中，待解码数据为问答交互过程中与待回答问题相关的文本数据；依据编码器中的预设提取任务对文本数据进行提取，得到与待回答问题满足相关度条件的文本数据；依据与待回答问题满足相关度条件的文本数据通过解码器进行解析，生成待回答问题的答案。本发明专利技术解决了由于在应用NLP的过程中，导致的生成式阅读理解存在的答案与提问偏离的技术问题。问偏离的技术问题。问偏离的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
数据处理方法、装置和系统

[0001]本专利技术涉及互联网
，具体而言，涉及一种数据处理方法、装置和系统。

技术介绍

[0002]在人工智能自然语言处理(Natural Language Processing，简称NLP)中，生成式阅读理解在给定问题，可以产生抽象的答案，而不是从提供的段落中提取答案范围，这种交互更加智能，可以被用于智能音箱、智能助理等设备上。但生成式阅读理解通常存在不可控问题，会遇到两个关键问题：(1)生成的答案与给定问题无关；(2)在生成过程中偏离正确答案。例如：
[0003]给定段落：一个好的计算机程序员更像是一个问题解决者和逻辑思想家，而不是数学爱好者。此外，该行业充斥着许多对数学不太了解的计算机程序员。
[0004]给定问题：游戏程序员需要数学技能吗？
[0005]正确答案：不，游戏程序员不需要数学技能。
[0006]但是基于现有技术针对上述给定问题往往生成的答案为：是的，游戏程序员是数学迷。
[0007]而用户/开发/测试者等技术生成答案则需要为：游戏程序员不需要数学技能。
[0008]针对上述由于在应用NLP的过程中，导致的生成式阅读理解存在的答案与提问偏离的问题，目前尚未提出有效的解决方案。

技术实现思路

[0009]本专利技术实施例提供了一种数据处理方法、装置和系统，以至少解决由于在应用NLP的过程中，导致的生成式阅读理解存在的答案与提问偏离的技术问题。
[0010]根据本专利技术实施例的一个方面，提供了一...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法，包括：接收待解码数据，其中，所述待解码数据为问答交互过程中与待回答问题相关的文本数据；依据编码器中的预设提取任务对所述文本数据进行提取，得到与所述待回答问题满足相关度条件的文本数据；依据所述与所述待回答问题满足相关度条件的文本数据通过解码器进行解析，生成所述待回答问题的答案。2.根据权利要求1所述的方法，其中，所述方法还包括：在接收待解码数据之前，对所述编码器进行自编码训练，以及，对所述解码器进行自回归训练，得到训练后的所述编码器和所述解码器；依据所述训练后的所述编码器和所述解码器生成问答交互模型；其中，所述问答交互模型中所述训练后的所述编码器用于依据输入的所述待解码数据和所述待回答问题获取对应的原理数据，所述原理数据为与所述待回答问题满足相关度条件的文本数据；所述训练后的所述解码数据用于依据所述原理数据生成所述待回答问题的答案。3.根据权利要求2所述的方法，其中，所述方法还包括：在所述预设提取任务包括第一提取任务的情况下，在所述编码器中添加第一提取任务；通过所述第一提取任务将输入的所述待解码数据和所述待回答问题进行拼接，得到拼接后的文本数据；通过计算所述拼接后的文本数据中每个词预测为所述原理数据的概率，将概率对应分值最大的词作为所述待解码数据的原理数据。4.根据权利要求3所述的方法，其中，所述将概率对应分值最大的词作为所述待解码数据的原理数据包括：通过所述编码器的全连接层和预设函数对每个词进行预测，得到各个词的概率值；依据所述各个词的概率值获取对应的分值，将分值位于预设区间的词作为所述原理数据。5.根据权利要求4所述的方法，其中，所述依据所述各个词的概率值获取对应的分值，将分值位于预设区间的词作为所述原理数据包括：对所述各个词...

【专利技术属性】
技术研发人员：李晨亮，闭彬，严明，黄松芳，
申请(专利权)人：阿里巴巴新加坡控股有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人