【技术实现步骤摘要】
一种单样本学习文档信息抽取方法
[0001]本专利技术涉及一种单样本学习文档信息抽取方法,属于信息抽取领域。
技术介绍
[0002]现有的文档内容结构化的方法包括传统的基于字符串匹配的规则方法、基于命名实体识别和基于文档排版(layout)的方法等。
[0003]基于字符串匹配的规则方法通常需要设计一套正则表达式,通过正则匹配的方式去获得其需要得到的关键信息。这种方案通过人工设计特征匹配的方式,到文档中特定的位置提取所需要的信息。基于字符串匹配的算法优势在于不要大量的训练数据,但是要求提取的信息有很强的字符特征并且符合预先设计的规则,否则不能准确获取关键信息。当文档结构变化大以及需要识别和获取的信息增多,这种方案的设计难度就会很大而且准确度很低。因此采用字符串匹配的方案在泛化性和适用性上有明显的缺陷。
[0004]基于命名实体识别方法(Named Entity Recognition,简称NER),是将文档内容结构化任务转化为序列标注问题。命名实体识别又称专名识别,是指识别文本中具有特定意义的实体,主要包括人 ...
【技术保护点】
【技术特征摘要】
1.一种单样本学习文档信息抽取方法,其特征在于,包括以下步骤:获取支撑文档,所述支撑文档标注有信息字段的字段类别;获取查询文档;识别查询文档中的信息字段;以信息字段为节点,信息字段之间的连接为边,分别构建对应于支撑文档的第一图结构和对应于查询文档的第二图结构;分别计算第一图结构和第二图结构中各节点的节点属性、各边的边属性;根据所述节点属性、边属性,提取各节点的节点特征、各边的边特征;根据所述节点特征、边特征,分别计算第一图结构与第二图结构中节点的节点相似度、边的边相似度;根据所述节点相似度和边相似度,建立支撑文档中信息字段与查询文档中信息字段的匹配关系;根据所述匹配关系,确定查询文档各信息字段的字段类别;提取查询文档各信息字段的字符信息。2.根据权利要求1所述的一种单样本学习文档信息抽取方法,其特征在于,所述节点属性包括信息字段的空间属性、文本属性、文本框形状属性;所述边属性包括边所连接的两个节点的节点属性。3.根据权利要求1所述的一种单样本学习文档信息抽取方法,其特征在于,所述提取各节点的节点特征、各边的边特征,具体为:构建第一特征提取函数和第二特征提取函数;将节点的节点属性输入至第一特征提取函数,得到节点的节点特征;将边的边属性输入至第二特征提取函数,得到边的边特征。4.根据权利要求1所述的一种单样本学习文档信息抽取方法,其特征在于,所述计算第一图结构与第二图结构中节点的节点相似度,具体为:A1、构建相似度函数;A2、输入第一图结构中第一节点的节点特征和第二图结构中第二节点的节点特征至相似度函数,得到所述第一节点与第二节点的节点相似度;输入第一图结构中第一边的边特征和...
【专利技术属性】
技术研发人员:韦建,周异,陈凯,
申请(专利权)人:南京商集智能科技有限公司厦门商集网络科技有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。