一种信息抽取的方法、装置、存储介质及电子设备制造方法及图纸

技术编号:22641520 阅读:34 留言:0更新日期:2019-11-26 16:07
本发明专利技术提供了一种信息抽取的方法、装置、存储介质及电子设备,其中,该方法包括:获取并确定问题信息中多个分词的第一隐向量;获取目标表格并确定目标表格中的多个目标单元格,提取每个目标单元格的单元格内容和位置信息,确定单元格内容的多个目标分词;根据目标分词的词向量和位置信息生成目标分词的第二隐向量;根据所有的第一隐向量和第二隐向量在目标表格中抽取与问题信息相匹配的目标单元格。通过本发明专利技术实施例提供的信息抽取的方法、装置、存储介质及电子设备,将表格信息抽取问题转化内端到端的阅读理解问题,避免了错误传播的同时也减少了规则的参与,能够自动学习到表格中可以回答自然语言问题的单元格,实现表格信息提取。

A method, device, storage medium and electronic equipment for information extraction

The invention provides a method, device, storage medium and electronic device for information extraction, wherein the method includes: obtaining and determining the first hidden vector of multiple participles in the problem information; obtaining the target table and determining multiple target cells in the target table, extracting the cell content and position information of each target cell, and determining multiple target points of the cell content Word; generate the second hidden vector of the target segmentation according to the word vector and position information of the target segmentation; extract the target cells matching the problem information in the target table according to all the first hidden vector and the second hidden vector. Through the information extraction method, device, storage medium and electronic device provided by the embodiment of the invention, the table information extraction question is transformed into the internal end-to-end reading comprehension question, which avoids the error propagation and reduces the participation of rules, can automatically learn the cell in the table that can answer the natural language question, and realize the table information extraction.

【技术实现步骤摘要】
一种信息抽取的方法、装置、存储介质及电子设备
本专利技术涉及信息处理
,具体而言,涉及一种信息抽取的方法、装置、存储介质及电子设备。
技术介绍
表格中包含大量信息,实际应用中需要查找出表格中的指定信息。例如,下表1记录有部分国家的相关信息,若所需要查找的内容是“法国首都”,则基于该表1即可抽取出所需的信息“巴黎”。表1在抽取表格中信息时,传统的做法是先将表格转换为一个关系型数据库,再使用结构化查询语言语句进行信息抽取;或者,针对某一类表格的规则进行信息抽取。前者的做法会导致错误传播,也就是对表格的转换出现问题时,会影响后面结构化查询语言的查询准确率;后者只能适用于某一种表格,且当表格越来越复杂时,规则可能无法覆盖所有的情况。
技术实现思路
为解决上述问题,本专利技术实施例的目的在于提供一种信息抽取的方法、装置、存储介质及电子设备。第一方面,本专利技术实施例提供了一种信息抽取的方法,包括:获取问题信息,并确定所述问题信息中多个分词的第一隐向量;获取目标表格并确定所述目标表格本文档来自技高网...

【技术保护点】
1.一种信息抽取的方法,其特征在于,包括:/n获取问题信息,并确定所述问题信息中多个分词的第一隐向量;/n获取目标表格并确定所述目标表格中的多个目标单元格,提取每个所述目标单元格的单元格内容,并确定每个所述目标单元格的位置信息;/n对所述单元格内容进行分词处理,确定所述单元格内容的多个目标分词;/n根据所述目标分词的词向量和所述目标分词所在目标单元格的位置信息生成所述目标分词的第二隐向量;/n根据所有的所述第一隐向量和所述第二隐向量在所述目标表格中抽取与所述问题信息相匹配的目标单元格。/n

【技术特征摘要】
1.一种信息抽取的方法,其特征在于,包括:
获取问题信息,并确定所述问题信息中多个分词的第一隐向量;
获取目标表格并确定所述目标表格中的多个目标单元格,提取每个所述目标单元格的单元格内容,并确定每个所述目标单元格的位置信息;
对所述单元格内容进行分词处理,确定所述单元格内容的多个目标分词;
根据所述目标分词的词向量和所述目标分词所在目标单元格的位置信息生成所述目标分词的第二隐向量;
根据所有的所述第一隐向量和所述第二隐向量在所述目标表格中抽取与所述问题信息相匹配的目标单元格。


2.根据权利要求1所述的方法,其特征在于,所述确定每个所述目标单元格的位置信息,包括:
根据所述目标表格横向和纵向上单元格的总数量分别确定所述目标表格每行和每列的位置;
根据所述目标表格每行和每列的位置确定所述目标单元格在所述目标表格中所占的起始行号、结束行号、起始列号和结束列号,并根据所述目标单元格的起始行号、结束行号、起始列号和结束列号生成所述目标单元格的二维的位置信息。


3.根据权利要求1所述的方法,其特征在于,所述根据所述目标分词的词向量和所述目标分词所在目标单元格的位置信息生成所述目标分词的第二隐向量,包括:
根据目标分词的词向量和所述目标分词所在目标单元格的位置信息确定每个所述目标分词的编码向量;
根据所述目标分词的编码向量以及目标分词之间的相似度确定所述目标分词的第二隐向量。


4.根据权利要求3所述的方法,其特征在于,所述根据所述目标分词的编码向量以及目标分词之间的相似度确定所述目标分词的第二隐向量,包括:
根据所述目标分词的编码向量生成所述目标分词的查询向量qi、键向量ki和值向量vi,根据所述目标分词的查询向量qi与所述单元格内容的每个目标分词的键向量kj确定当前的所述目标分词分别与所述单元格内容的每个目标分词之间的相似度sij,且sij=f(qi,kj),j∈[1,n],n为所述单元格内容的目标分词总数量;
对所述相似度sij进行归一化处理,确定与相似度sij相对应的权重值ωij,根据所述权重值ωij以及每个目标分词的值向量生成所述目标分词的第二隐向量ai,且:

vj表示第j个目标分词的值向量。


5.根据权利要求1所述的方法,其特征在于,所述根据所有的所述第一隐向量和...

【专利技术属性】
技术研发人员:周明昕
申请(专利权)人:北京香侬慧语科技有限责任公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1