一种支持文本交叉覆盖的信息抽取方法、装置、设备和介质制造方法及图纸

技术编号：34285514 阅读：32 留言：0更新日期：2022-07-27 08:18

本公开的实施例公开了信息抽取方法、装置、设备和计算机可读介质。该方法的一具体实施方式包括：获取目标文本；对目标文本中的每个字进行编码以生成字向量，得到字向量序列；确定字向量序列中的每个字向量对应的目标概率值组，得到目标概率值组序列；基于目标概率值组序列和标签组集，生成对象向量序列集；基于对象向量序列集和对象转移矩阵集，生成标签序列集；从目标文本中抽取出与标签序列集中的每个标签序列对应的对象信息，得到对象信息集。该实施方式实现了对有交叉信息的文本的信息抽取，为文本分析等应用场景提供了便利。为文本分析等应用场景提供了便利。为文本分析等应用场景提供了便利。

全部详细技术资料下载

【技术实现步骤摘要】
一种支持文本交叉覆盖的信息抽取方法、装置、设备和介质

[0001]本公开的实施例涉及计算机
，具体涉及信息抽取方法、装置、设备和计算机可读介质。

技术介绍

[0002]信息抽取是从自然语言文本中抽取指定对象的实体、关系、事件等信息的一项文本处理技术。现有信息抽取方法一般是将信息抽取任务转化为序列标注的问题，即给文本中的每个字打上标签，从而抽取一部分字作为信息。
[0003]然而，当采用上述方式对进行信息抽取时，经常会存在如下技术问题：
[0004]第一，很多应用场景需要抽取的信息往往存在交叉或者覆盖等情况，而现有的序列标注方法只能将每个字抽取一次，导致抽取的信息不完整。
[0005]第二，很多应用场景进行信息抽取时，没有均衡语义和字对应的标签之间的关系，导致抽取的信息准确度偏低。

技术实现思路

[0006]本公开的内容部分用于以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要...

【技术保护点】

【技术特征摘要】
1.一种信息抽取方法，包括：获取目标文本；对所述目标文本中的每个字进行编码以生成字向量，得到字向量序列；确定所述字向量序列中的每个字向量对应的目标概率值组，得到目标概率值组序列；基于所述目标概率值组序列和标签组集，生成对象向量序列集；基于所述对象向量序列集和对象转移矩阵集，生成标签序列集；从所述目标文本中抽取出与所述标签序列集中的每个标签序列对应的对象信息，得到对象信息集。2.根据权利要求1所述的方法，其中，所述对所述目标文本中的每个字进行编码以生成字向量，得到字向量序列，包括：将所述目标文本输入至预训练的文本编码模型，得到所述字向量序列。3.根据权利要求2所述的方法，其中，所述确定所述字向量序列中的每个字向量对应的目标概率值组，得到目标概率值组序列，包括：将所述字向量序列输入至预训练的至少一个全连接层，得到所述目标概率值组序列。4.根据权利要求3所述的方法，其中，所述基于所述目标概率值组序列和标签组集，生成对象向量序列集，包括：依次从所述目标概率值组序列中选出与目标标签组中每个目标标签对应的目标概率值，得到目标概率值序列，其中，所述目标标签组为所述标签组集中的标签组；基于所得到的目标概率值序列，生成所述对象向量序列集。5.根据权利要求4所述的方法，其中，所述基于所述对象向量序列集和对象转移矩阵集，生成标签序列集，包括：对于所述对象向量序列集中的每个对象向量序列和所述对象向量序列对应的对象转移矩阵，利用维特比算法，生成标签序列。6.根据权利要求5所述的方法，其中，所述对于所述对象向量序列集中的每个对象向量序列和所述对象向量序列对应的对象转移矩阵，利用维特比算法，生成标签序列，包括：对于所述对象向量序列集中的每个对象向量序列和所述对象向量序列对应的对象转移矩阵，通过以下...

【专利技术属性】
技术研发人员：李建平，朱晓谦，吴登生，
申请(专利权)人：中国科学院科技战略咨询研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人