【技术实现步骤摘要】
机器阅读理解方法及系统
[0001]本专利技术涉及机器学习领域,尤其涉及一种机器阅读理解方法及系统。
技术介绍
[0002]MRC(Machine Reading Comprehension,机器阅读理解)的研究目标是让机器能够根据给定的自然语言文章并回答和文章相关的问题。除了构建能够准确回答问题的系统之外,还需要考虑让回答稳定可靠并且置信度较高,以便在真实场景中进行应用。让阅读理解系统提供答案的同时提供答案对应的证据,这能够大大增强阅读理解系统的可解释性。
[0003]可以创建规模更大、覆盖范围更广、复杂性更高的数据集来进一步提高语言理解能力,具体的可以通过两方面进行,一方面是证据生成,另一方面是答案验证:
[0004]已有的证据生成工作主要通过两方面来进行,一方面是基于模型预测的启发性方法,这些方法通过观察或者预测模型的输出来生成伪标签,再通过伪标签来训练证据选择的模型,另一方面是通过引入或者观察一些本身具备可解释能力的技术比如注意力机制来选择对应的片段作为答案的解释。
[0005]而阅读理解里的 ...
【技术保护点】
【技术特征摘要】
1.一种机器阅读理解方法,包括:将待阅读理解的文本和问题输入至答案检索器进行初步预测,得到多个候选答案以及对应于各候选答案的初步概率;将所述待阅读理解的文本、所述问题以及多个候选答案输入至证据抽取器,从所述待阅读理解的文本中抽取对应于各候选答案的各噪声证据;将所述问题、各候选答案以及对应的各噪声数据输入至答案验证器,从所述各候选答案中确定具有最大概率的最终答案。2.根据权利要求1所述的方法,其中,所述将所述问题、各候选答案以及对应的各噪声数据输入至答案验证器,从所述各候选答案中确定具有最大概率的最终答案包括:将所述问题、各候选答案以及对应的各噪声数据输入至答案验证器,输出各候选答案的参考概率;基于所述各候选答案的初步概率和参考概率,确定各候选答案的最终概率;选择概率最大的最终概率对应的候选答案确定为最终答案。3.根据权利要求1所述的方法,其中,在确定最终答案之后,所述方法还包括:提供对应于最终答案的噪声证据作为干净证据。4.根据权利要求1所述的方法,其中,所述将所述待阅读理解的文本、所述问题以及多个候选答案输入至证据抽取器,从所述待阅读理解的文本中抽取对应于各候选答案的各噪声证据包括:对所述待阅读理解的文本内的句子进行遮蔽,将所述句子被遮蔽后所述问题的各候选答案的初步概率的变化,确定为判断被遮蔽的句子的重要程度;基于所述重要程度,判断所述被遮蔽的句子是否为噪声证据。5.根据权利要求4所述的方法,其中,所述方法还包括基于所述噪声证据对所述待阅读理解文本进行数据增强,包括:将所述待阅读理解文本的句子划分为:所述噪声证据的无关信息、包括多个噪声证据的噪音信息以及预设正确答案对应噪声证据的强相关信息;基于所述无关信息、所述噪音信息以及所述强相关信息进行数据增强。6.一种机器阅读理解系统,包括:初步预测程序模块,用于将待阅读理解的文本和问题输入至答案检索器进行初步预测,得到多个候选答案以及对应于各候选答案的...
【专利技术属性】
技术研发人员:俞凯,陈露,许洪深,孙良泰,朱苏,曹瑞升,
申请(专利权)人:思必驰科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。