文本表格中答案文本的抽取方法及装置制造方法及图纸

技术编号：33921973 阅读：47 留言：0更新日期：2022-06-25 21:10

本发明专利技术提供一种文本表格中答案文本的抽取方法及装置，其中，该方法包括：提取待处理的文本数据中的表格，并获取问题文本对应的问题文本向量；获取单元格的坐标对应的单元格坐标向量和单元格中的文本对应的单元格文本向量，拼接为单元格拼接向量；将单元格拼接向量输入索引识别模型，确定索引单元格和非索引单元格；将非索引单元格的单元格拼接向量以及位于非索引单元格左边和上方的各索引单元格的单元格拼接向量输入特征融合模型，获取上下文向量；将上下文向量和问题文本向量拼接后输入答案提取模型，确定答案单元格和非答案单元格，将答案单元格中的文本确定为答案文本。本发明专利技术提供的文本表格中答案文本的抽取方法及装置，能提高抽取精度。能提高抽取精度。能提高抽取精度。

全部详细技术资料下载

【技术实现步骤摘要】
文本表格中答案文本的抽取方法及装置

[0001]本专利技术涉及计算机
，尤其涉及一种文本表格中答案文本的抽取方法及装置。

技术介绍

[0002]文本表格，指文本数据中的表格。目前，从文本表格中抽取答案文本主要包括四类方法：不考虑表格结构的模版匹配法、不考虑表格结构的判别式法、不考虑表格结构的生成式法和标准二维表格的模版匹配法。
[0003]不考虑表格结构的模版匹配法不考虑表格结构，直接使用分隔符分隔单元格，然后通过正则表达式等人工设计的规则进行匹配抽取，丢失了表格结构信息和单元格之间的逻辑联系，且容易漏匹配。
[0004]不考虑表格结构的判别式法不考虑表格结构，直接展平表格，拼接单元格内容后视作自然语言文本，再按照自然语言理解的判别式任务进行后续处理，但丢失了表格结构信息，且语义不连贯，导致抽取精度低。
[0005]不考虑表格结构的生成式法不考虑表格结构，直接展平表格，拼接单元格内容后通过文本生成模型生成自然语言文本，虽然提高了语义的连贯性，但生成模型本身复杂度高，训练难度大，且存在误差传递，影

【技术保护点】

【技术特征摘要】
1.一种文本表格中答案文本的抽取方法，其特征在于，包括：提取待处理的文本数据中的表格，并获取问题文本对应的问题文本向量；获取所述表格中每一单元格的坐标对应的单元格坐标向量和所述每一单元格中的文本对应的单元格文本向量，并拼接为所述每一单元格的单元格拼接向量；分别将每一所述单元格的单元格拼接向量输入索引识别模型，对各所述单元格进行分类，确定各所述单元格中的索引单元格和非索引单元格；对于每一非索引单元格，将所述每一非索引单元格的单元格拼接向量，以及位于所述每一非索引单元格左边和上方的各索引单元格的单元格拼接向量输入特征融合模型，进行特征融合，获取所述每一非索引单元格的上下文向量；分别将每一所述非索引单元格的上下文向量和所述问题文本向量拼接后输入答案提取模型，对各所述非索引单元格进行分类，确定各所述非索引单元格中的答案单元格和非答案单元格，并将所述答案单元格中的文本确定为所述问题文本对应的答案文本。2.根据权利要求1所述的文本表格中答案文本的抽取方法，其特征在于，所述获取所述表格中每一单元格的坐标对应的单元格坐标向量，包括：获取所述表格中各单元格的坐标；对于每一单元格，将所述每一单元格的坐标输入坐标特征提取模型，对所述每一单元格的坐标进行向量化表示，获得所述坐标特征提取模型输出的所述每一单元格的坐标对应的单元格坐标向量。3.根据权利要求2所述的文本表格中答案文本的抽取方法，其特征在于，所述对于每一非索引单元格，将所述每一非索引单元格的单元格拼接向量，以及位于所述每一非索引单元格左边和上方的各索引单元格的单元格拼接向量输入特征融合模型，进行特征融合，获取所述每一非索引单元格的上下文向量，包括：基于所述每一非索引单元格的坐标和各索引单元格的坐标，确定位于所述每一非索引单元格左边和上方的各索引单元格；将所述每一非索引单元格的单元格拼接向量，以及位于所述每一非索引单元格左边和上方的各索引单元格的单元格拼接向量输入特征融合模型，进行特征融合，获取所述每一非索引单元格的上下文向量。4.根据权利要求1所述的文本表格中答案文本的抽取方法，其特征在于，所述获取问题文本对应的问题文本向量，包括：将所述问题文本输入问题文本特征提取模型，对所述问题文本进行向量化表示，获得所述问题文本特征提取模型输出的所述问题文...

【专利技术属性】
技术研发人员：利秀明，郎凯，胡殿明，刘雨亮，
申请(专利权)人：北京感易智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人