要素抽取方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:34173504 阅读:18 留言:0更新日期:2022-07-17 11:21
本发明专利技术涉及文本处理技术领域,提供了一种要素抽取方法、装置、计算机设备和存储介质,所述方法包括:识别待抽取文本的层次有序列表并形成层次有序列表树,基于所述层次有序列表树对所述待抽取文本进行块划分形成第一块结构树;开放抽取所述待抽取文本中无主体要素的要素信息并附着到所述第一块结构树上,得到第二块结构树;对所述第二块结构树中的节点进行主体识别,确定要素主体;将所述无主体要素的要素信息与所述要素主体关联并与所述要素主体的标准要素对齐。采用本方法能够提高要素抽取能力和精准度。能力和精准度。能力和精准度。

【技术实现步骤摘要】
要素抽取方法、装置、计算机设备和存储介质


[0001]本专利技术属于文本处理
,尤其涉及一种要素抽取方法、装置、计算机设备和存储介质。

技术介绍

[0002]互联网上存在着海量的垂直领域数据,分析和挖掘其中的高价值信息能促进相关行业的发展,要素抽取技术则是文本信息挖掘技术体系中的重要角色。要素抽取主要是从无结构化文本中抽取特定主体的要素信息的过程,目前大致可分为基于传统模型的方法和基于现代机器学习的方法。其中,基于传统模型的方法主要利用关键词库和模式规则来识别文本中的目标要素信息。而基于现代机器学习的方法中,有采用生成模式的,也有采用深度神经网络的。生成模式一般利用概率模型以输入文本为观测信息生成要素信息,深度神经网络一般采用分类或序列标注模型来抽取要素信息。
[0003]然而,无论是基于传统模型的方法和基于现代机器学习的方法,现有非结构化文本信息抽取方法主要针对的都是自然句表述的文本,对于招投标等领域中非结构化文本中所存在的内涵结构及自然句混合表达的抽取效果就有所下降。并且,招投标领域中存在动态多主体现象,现有抽取方法也并不支持动态主体或支持效果欠佳,从而导致降低该领域要素抽取的精准度。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够提高要素抽取精准度的要素抽取方法、装置、计算机设备和存储介质。
[0005]本专利技术提供一种要素抽取方法,包括:
[0006]识别待抽取文本的层次有序列表并形成层次有序列表树,基于所述层次有序列表树对所述待抽取文本进行块划分形成第一块结构树;
[0007]开放抽取所述待抽取文本中无主体要素的要素信息并附着到所述第一块结构树上,得到第二块结构树;
[0008]对所述第二块结构树中的节点进行主体识别,确定要素主体;
[0009]将所述无主体要素的要素信息与所述要素主体关联并与所述要素主体的标准要素对齐。
[0010]在其中一个实施例中,所述识别待抽取文本的层次有序列表并形成层次有序列表树,基于所述层次有序列表树对所述待抽取文本进行块划分形成第一块结构树,包括:
[0011]对所述待抽取文本进行层次有序列表识别,输出所述待抽取文本中的层次信息和序数信息;
[0012]以所述待抽取文本为根节点,根据所述层次信息将所述序数信息划分为子节点或叶子节点,形成层次有序列表树;
[0013]将所述层次有序列表树中的节点作为序数块,且以所述序数块对应的序数信息为
切分符对所述待抽取文本进行片段切分,得到所述序数块的直属文本;
[0014]在所述序数块的直属文本中识别非序数块;
[0015]将所述非序数块作为对应序数块的子节点形成新的树,得到第一块结构树。
[0016]在其中一个实施例中,所述在所述序数块的直属文本中识别非序数块,包括:
[0017]根据换行符和预设长度的连续空白字符将所述序数块的直属文本进行片段切分,得到子文本片段;
[0018]对各所述子文本片段进行块主旨识别,确定块主旨文本片段;
[0019]将所述块主旨子文本片段作为非序数块,且所述块主旨子文本片段的后续片段为所述非序数块的直属文本。
[0020]在其中一个实施例中,所述对各所述子文本片段进行块主旨识别,确定块主旨文本片段的计算公式如下:
[0021][0022]其中,n
bt
为块主旨文本片段,n1为所述序数块的直属文本的前n1个字词,θ
bt
为预设的经验参数,p
bt
(i|i

1,i

2)是所述序数块的直属文本的前n1个字词中第i、i

1、i

2位置的字词分类别时输出的实数特征函数,V
bt
表示一个块主旨结束字词集合,是一个是指示器函数。
[0023]在其中一个实施例中,所述开放抽取所述待抽取文本中无主体要素的要素信息并附着到所述第一块结构树上,得到第二块结构树,包括:
[0024]锚定所述待抽取文本中出现分隔符的位置,得到锚定位置;
[0025]基于所述锚定位置识别无主体要素的要素名及所述要素名对应的要素值,得到要素信息;
[0026]确定所述要素信息来源文本所在的文本块,以所述文本块在所述第一块结构树中对应的节点为父节点创建所述要素信息节点,得到第二块结构树。
[0027]在其中一个实施例中,基于所述锚定位置识别要素名及对应的要素值,得到要素信息,包括:
[0028]从所述锚定位置之前确定满足要求的第一位置,将所述第一位置到所述锚定位置之间的文本片段作为要素名,第一位置的确定公式如下:
[0029][0030]其中,n
key
为第一位置,n2表示所述待抽取文本中的字词位置,θ
key
为预设的经验参数,p
key
(i|i

1,i

2,i+1,i+2)是所述待抽取文本中第i、i

1、i

2、i+1、i+2位置的字词分类别时输出的实数特征函数,V
key
表示一个文本结束字词集合,是一个是指示器函数;
[0031]基于所述要素名,从所述锚定位置之后确定满足要求的第二位置,将所述锚定位置到所述第二位置之间的文本片段作为所述要素名的要素值,第二位置的确定公式如下:
[0032][0033]其中,n
val
为第二位置,n2表示文本中的字词位置,θ
val
为预设的经验参数,p
val
(i|i

1,i

2,i+1,i+2;n
key
)是给定了要素名n
key
的所述待抽取文本中第i、i

1、i

2、i+1、i+2位置的字词分类别时输出的实数特征函数,V
val
表示一个文本结束字词集合,是一个是指示器函数。
[0034]在其中一个实施例中,所述要素主体包括动态主体和静态主体,所述对所述第二块结构树中的节点进行主体识别,确定要素主体,包括:
[0035]根据所述层次有序列表中相邻序数信息之间头尾样式的相似度、各序数信息头尾样式与动态主体表述的相似度以及各序数信息的字面样式计算所述层次有序列表作为动态主体序列的可能性分值;
[0036]当根据所述可能性分值确定所述层次有序列表为动态主体序列时,将所述层次有序列表的各序数信息在所述第二块结构树中对应的节点作为动态主体;
[0037]根据所述第二块结构树中非动态主体节点的节点文本与各静态主体的称谓文本的相似度,确定与各所述静态主体关联的非动态主体节点。
[0038]在其中一个实施例中,所述将所述无主体要素的要素信息与所述要素主体关联并与所述要素主体的标准要素对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种要素抽取方法,其特征在于,包括:识别待抽取文本的层次有序列表并形成层次有序列表树,基于所述层次有序列表树对所述待抽取文本进行块划分形成第一块结构树;开放抽取所述待抽取文本中无主体要素的要素信息并附着到所述第一块结构树上,得到第二块结构树;对所述第二块结构树中的节点进行主体识别,确定要素主体;将所述无主体要素的要素信息与所述要素主体关联并与所述要素主体的标准要素对齐。2.根据权利要求1所述的方法,其特征在于,所述识别待抽取文本的层次有序列表并形成层次有序列表树,基于所述层次有序列表树对所述待抽取文本进行块划分形成第一块结构树,包括:对所述待抽取文本进行层次有序列表识别,输出所述待抽取文本中的层次信息和序数信息;以所述待抽取文本为根节点,根据所述层次信息将所述序数信息划分为子节点或叶子节点,形成层次有序列表树;将所述层次有序列表树中的节点作为序数块,且以所述序数块对应的序数信息为切分符对所述待抽取文本进行片段切分,得到所述序数块的直属文本;在所述序数块的直属文本中识别非序数块;将所述非序数块作为对应序数块的子节点形成新的树,得到第一块结构树。3.根据权利要求2所述的方法,其特征在于,所述在所述序数块的直属文本中识别非序数块,包括:根据换行符和预设长度的连续空白字符将所述序数块的直属文本进行片段切分,得到子文本片段;对各所述子文本片段进行块主旨识别,确定块主旨文本片段;将所述块主旨子文本片段作为非序数块,且所述块主旨子文本片段的后续片段为所述非序数块的直属文本。4.根据权利要求1所述的方法,其特征在于,所述对各所述子文本片段进行块主旨识别,确定块主旨文本片段的计算公式如下:其中,n
bt
为块主旨文本片段,n1为所述序数块的直属文本的前n1个字词,θ
bt
为预设的经验参数,p
bt
(i|i

1,i

2)是所述序数块的直属文本的前n1个字词中第i、i

1、i

2位置的字词分类别时输出的实数特征函数,V
bt
表示一个块主旨结束字词集合,是一个是指示器函数。5.根据权利要求1所述的方法,其特征在于,所述开放抽取所述待抽取文本中无主体要素的要素信息并附着到所述第一块结构树上,得到第二块结构树,包括:锚定所述待抽取文本中出现分隔符的位置,得到锚定位置;基于所述锚定位置识别无主体要素的要素名及所述要素名对应的要素值,得到要素信
息;确定所述要素信息来源文本所在的文本块,以所述文本块在所述第一块结构树中对应的节点为父节点创建所述要素信息节点,得到第二块结构树。6.根据权利要求5所述的方法,其特征在于,基于所述锚定位置识别要素名及对应的要素值,得到要素信息,包括:从所述锚定位置之前确定满足要求的第一位置,将所述第一位置到所述锚定位置之间的文本片段作为要素名,第一位置的确定公式如下:其中,n
key
为第一位置,n2表示所述待抽取文本中的字词位置,θ
key
为预设的经验参数,p
key
(i|i

1,i

2,i+1,i+2)是所述待抽取文本中第i、i

1、i

2、i+1、i+2位置的字词分类别时输出的实数特征函数,V
key
表示一个文本结束字词集合,是一个是指示器函数;基于...

【专利技术属性】
技术研发人员:段炼彭文凯周忠诚黄九鸣张圣栋
申请(专利权)人:厦门星汉数智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1