一种支持文本交叉覆盖的信息抽取方法、装置、设备和介质制造方法及图纸

技术编号:34285514 阅读:27 留言:0更新日期:2022-07-27 08:18
本公开的实施例公开了信息抽取方法、装置、设备和计算机可读介质。该方法的一具体实施方式包括:获取目标文本;对目标文本中的每个字进行编码以生成字向量,得到字向量序列;确定字向量序列中的每个字向量对应的目标概率值组,得到目标概率值组序列;基于目标概率值组序列和标签组集,生成对象向量序列集;基于对象向量序列集和对象转移矩阵集,生成标签序列集;从目标文本中抽取出与标签序列集中的每个标签序列对应的对象信息,得到对象信息集。该实施方式实现了对有交叉信息的文本的信息抽取,为文本分析等应用场景提供了便利。为文本分析等应用场景提供了便利。为文本分析等应用场景提供了便利。

【技术实现步骤摘要】
一种支持文本交叉覆盖的信息抽取方法、装置、设备和介质


[0001]本公开的实施例涉及计算机
,具体涉及信息抽取方法、装置、设备和计算机可读介质。

技术介绍

[0002]信息抽取是从自然语言文本中抽取指定对象的实体、关系、事件等信息的一项文本处理技术。现有信息抽取方法一般是将信息抽取任务转化为序列标注的问题,即给文本中的每个字打上标签,从而抽取一部分字作为信息。
[0003]然而,当采用上述方式对进行信息抽取时,经常会存在如下技术问题:
[0004]第一,很多应用场景需要抽取的信息往往存在交叉或者覆盖等情况,而现有的序列标注方法只能将每个字抽取一次,导致抽取的信息不完整。
[0005]第二,很多应用场景进行信息抽取时,没有均衡语义和字对应的标签之间的关系,导致抽取的信息准确度偏低。

技术实现思路

[0006]本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
[0007]本公开的一些实施例提出了信息抽取方法,来解决以上
技术介绍
部分提到的技术问题中的一项或多项。
[0008]第一方面,本公开的一些实施例提供了一种用于信息抽取方法,该方法包括:获取目标文本;对目标文本中的每个字进行编码以生成字向量,得到字向量序列;确定字向量序列中的每个字向量对应的目标概率值组,得到目标概率值组序列;基于目标概率值组序列和标签组集,生成对象向量序列集;基于对象向量序列集和对象转移矩阵集,生成标签序列集;从目标文本中抽取出与标签序列集中的每个标签序列对应的对象信息,得到对象信息集。
[0009]第二方面,本公开的一些实施例提供了一种信息抽取装置,装置包括:获取单元,被配置成获取目标文本;编码单元,被配置成对目标文本中的每个字进行编码以生成字向量,得到字向量序列;确定单元,被配置成确定字向量序列中的每个字向量对应的目标概率值组,得到目标概率值组序列;第一生成单元,被配置成基于目标概率值组序列和标签组集,生成对象向量序列集;第二生成单元,被配置成基于对象向量序列集和对象转移矩阵集,生成标签序列集;抽取单元,被配置成从目标文本中抽取出与标签序列集中的每个标签序列对应的对象信息,得到对象信息集。
[0010]第三方面,本公开的一些实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现上述第一方面任一实现方式所描述的方法。
[0011]第四方面,本公开的一些实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现上述第一方面任一实现方式所描述的方法。
[0012]本公开的上述各个实施例具有如下有益效果:通过对获取的目标文本中的每个字进行编码以生成字向量,这些编码得到的字向量具有文本信息和位置信息,底层共享的设计使得训练数贫乏的对象得到充分的训练,提高了整个过程的学习能力。通过对目标文本中每个字赋予与各个目标对象相关的标签,使得能初步抽取出各个对象对应的对象信息。之后,引入标签转移矩阵,更准确地表达了两两相邻的字之间关系,从而实现对重叠信息的准确提取。
附图说明
[0013]结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,元件和元素不一定按照比例绘制。
[0014]图1是根据本公开的一些实施例的信息抽取方法的一个应用场景的示意图;
[0015]图2是根据本公开的信息抽取方法的一些实施例的流程图;
[0016]图3是根据本公开的信息抽取装置的一些实施例的流程图;
[0017]图4是适于用来实现本公开的一些实施例的电子设备的结构示意图;
[0018]图5是根据本公开的一些实施例的信息抽取方法的另一个应用场景的示意图。
具体实施方式
[0019]下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例。相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
[0020]另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
[0021]需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
[0022]下面将参考附图并结合实施例来详细说明本公开。
[0023]图1是本公开的一些实施例的信息抽取方法的一个应用场景的示意图。
[0024]在图1的应用场景中,首先,计算设备101可以获取目标文本102;接着,计算设备101可以对目标文本102中的每个字进行编码以生成字向量,得到字向量序列103;然后,计算设备101可以确定字向量序列103中的每个字向量对应的目标概率值组,得到目标概率值组序列104;之后,计算设备101可以基于目标概率值组序列104和标签组集105,生成对象向量序列集106;再之后,计算设备101可以基于对象向量序列集106和对象转移矩阵集107,生成标签序列集108;最后,计算设备101可以从目标文本102中抽取出与标签序列集108中的每个标签序列对应的对象信息,得到对象信息集109。
[0025]需要说明的是,上述计算设备101可以是硬件,也可以是软件。当计算设备为硬件时,可以实现成多个服务器或终端设备组成的分布式集群,也可以实现成单个服务器或单
个终端设备。当计算设备体现为软件时,可以安装在上述所列举的硬件设备中。其可以实现成例如用来提供分布式服务的多个软件或软件模块,也可以实现成单个软件或软件模块。在此不做具体限定。
[0026]应该理解,图1中的计算设备的数目仅仅是示意性的。根据实现需要,可以具有任意数目的计算设备。
[0027]继续参考图2,示出了根据本公开的信息抽取方法的一些实施例的流程200。该信息抽取方法,包括以下步骤:
[0028]步骤201,获取目标文本。
[0029]在一些实施例中,信息抽取方法的执行主体(例如,计算设备101)可以通过网页,文本文件,图片等各种方式获取目标文本。其中,上述目标文本可以是文章,段落或句子。目标对象可以是根据应用场景需要,预先确定好的名词。
[0030]作为示例,上述目标对象可以是猪肉,目标文本可以是“玉米猪肉大涨”。
[0031]步骤202,对目标文本中的每个字进行编码以生成字向量,得到字向量序列。
[003本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息抽取方法,包括:获取目标文本;对所述目标文本中的每个字进行编码以生成字向量,得到字向量序列;确定所述字向量序列中的每个字向量对应的目标概率值组,得到目标概率值组序列;基于所述目标概率值组序列和标签组集,生成对象向量序列集;基于所述对象向量序列集和对象转移矩阵集,生成标签序列集;从所述目标文本中抽取出与所述标签序列集中的每个标签序列对应的对象信息,得到对象信息集。2.根据权利要求1所述的方法,其中,所述对所述目标文本中的每个字进行编码以生成字向量,得到字向量序列,包括:将所述目标文本输入至预训练的文本编码模型,得到所述字向量序列。3.根据权利要求2所述的方法,其中,所述确定所述字向量序列中的每个字向量对应的目标概率值组,得到目标概率值组序列,包括:将所述字向量序列输入至预训练的至少一个全连接层,得到所述目标概率值组序列。4.根据权利要求3所述的方法,其中,所述基于所述目标概率值组序列和标签组集,生成对象向量序列集,包括:依次从所述目标概率值组序列中选出与目标标签组中每个目标标签对应的目标概率值,得到目标概率值序列,其中,所述目标标签组为所述标签组集中的标签组;基于所得到的目标概率值序列,生成所述对象向量序列集。5.根据权利要求4所述的方法,其中,所述基于所述对象向量序列集和对象转移矩阵集,生成标签序列集,包括:对于所述对象向量序列集中的每个对象向量序列和所述对象向量序列对应的对象转移矩阵,利用维特比算法,生成标签序列。6.根据权利要求5所述的方法,其中,所述对于所述对象向量序列集中的每个对象向量序列和所述对象向量序列对应的对象转移矩阵,利用维特比算法,生成标签序列,包括:对于所述对象向量序列集中的每个对象向量序列和所述对象向量序列对应的对象转移矩阵,通过以下...

【专利技术属性】
技术研发人员:李建平朱晓谦吴登生
申请(专利权)人:中国科学院科技战略咨询研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1