基于多文档的机器阅读理解方法及装置制造方法及图纸

技术编号：35175098 阅读：19 留言：0更新日期：2022-10-12 17:41

本发明专利技术提供一种基于多文档的机器阅读理解方法及装置，涉及自然语言处理技术领域，该方法包括：基于问题数据，从文档库筛选出多个目标文档；将问题数据和所有目标文档输入至阅读理解模型，获得阅读理解模型输出的与问题数据对应的答案数据。本发明专利技术提供的基于多文档的机器阅读理解方法及装置，基于问题数据筛选出多个与问题关联的目标文档，以问题数据和目标文档作为阅读理解模型的输入，输出的结果为与问题数据对应的答案数据。实现通过神经网络从多个文档中抽取出相应的非连续的答案片段，以重新组合的方式生成答案，能够解决用户提出的问题需要综合多个文档才能进行回答的问题，大大提高阅读理解的准确度和使用范围。大提高阅读理解的准确度和使用范围。大提高阅读理解的准确度和使用范围。

全部详细技术资料下载

【技术实现步骤摘要】
基于多文档的机器阅读理解方法及装置

[0001]本专利技术涉及自然语言处理
，尤其涉及一种基于多文档的机器阅读理解方法及装置。

技术介绍

[0002]机器阅读理解是一种能够根据用户的问题，直接从文档中抽取片段作为答案的技术。具有阅读理解技术的搜索引擎可以直接以自然语言返回用户提出的问题的正确答案，而不是返回一系列相关的web页面，使对话更加自然。
[0003]传统的机器阅读理解技术主要是基于单文档的阅读理解，即默认条件是答案在单个文档中就可以包含，且是连续的片段，即使是一些多文档的阅读理解技术，也仅仅是利用了多文档中的上下文信息进行指代消解或者信息补全，最终的答案信息依旧是多文档中的某个单文档的某个连续片段。对于一些答案是跨文档的多个非连续片段的对话场景，无法获取准确较高的答案。

技术实现思路

[0004]本专利技术提供一种基于多文档的机器阅读理解方法及装置，用以解决现有技术中跨文档的对话场景准确率较低的缺陷。
[0005]本专利技术提供一种基于多文档的机器阅读理解方法，包括：基于问题数据，从文档库筛选出多个目标文档；将所述问题数据和所有所述目标文档输入至阅读理解模型，获得所述阅读理解模型输出的与所述问题数据对应的答案数据；其中，所述阅读理解模型是基于样本问题数据、样本答案数据、所述样本答案数据对应标注的答案片段，以及答案片段的排序位置训练得到的。
[0006]根据本专利技术提供的一种基于多文档的机器阅读理解方法，所述阅读理解模型包括片段抽取层、片段排序层和答案转换层；将...

【技术保护点】

【技术特征摘要】
1.一种基于多文档的机器阅读理解方法，其特征在于，包括：基于问题数据，从文档库筛选出多个目标文档；将所述问题数据和所有所述目标文档输入至阅读理解模型，获得所述阅读理解模型输出的与所述问题数据对应的答案数据；其中，所述阅读理解模型是基于样本问题数据、样本答案数据、所述样本答案数据对应标注的答案片段，以及答案片段的排序位置训练得到的。2.根据权利要求1所述的基于多文档的机器阅读理解方法，其特征在于，所述阅读理解模型包括片段抽取层、片段排序层和答案转换层；将所述问题数据和所有所述目标文档输入至所述片段抽取层，获取所述片段抽取层输出的答案片段；将所述问题数据和所述答案片段输入至所述片段排序层进行排序，获取所述片段排序层输出的答案序列；将所述问题数据和所述答案序列输入至所述答案转换层，获取所述答案转换层输出的所述答案数据。3.根据权利要求2所述的基于多文档的机器阅读理解方法，其特征在于，所述答案转换层包括生成式模型；所述将所述问题数据和所述答案序列输入至所述答案转换层，获取所述答案转换层输出的所述答案数据，包括：将所述问题数据和所述答案序列输入至所述生成式模型，获取所述生成式模型输出的上下文语句；基于所述答案转换层对所述上下文语句进行整合，得到所述答案数据；其中，所述生成式模型是基于样本问题数据和所述样本答案数据训练得到的，所述生成式模型包括目标词典，所述目标词典包含连接词以及指向所述目标文档存储位置的指针。4.根据权利要求2所述的基于多文档的机器阅读理解方法，其特征在于，所述片段排序层包括片段排序模型；所述将所述问题数据和所述答案片段输入至所述片段排序层进行排序，获取所述片段排序层输出的答案序列，包括：将所述问题数据和所述答案片段输入至所述片段排序模型进行排序，获取所述片段排序模型输出的所述答案序列；其中，所述片段排序模型是基于样本问题数据、所述样本答案数据，以及所述样本答案数据对应标注的答案片段的排序位置训练得到的。5.根据权利...

【专利技术属性】
技术研发人员：侯晋峰，肖立鹏，
申请(专利权)人：北京沃丰时代数据科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人