信息抽取方法、装置、电子设备和可读存储介质制造方法及图纸

技术编号：30095814 阅读：21 留言：0更新日期：2021-09-18 08:59

本公开提供了一种信息抽取方法、装置、电子设备和可读存储介质，涉及自然语言处理技术领域。其中，信息抽取方法包括：获取待抽取文本；获取样本集，所述样本集中包含多个样本文本与多个样本文本中每个样本字符的标签；根据所述待抽取文本中每个字符的语义特征向量与所述样本集中每个样本字符的语义特征向量，确定所述待抽取文本中每个字符的预测标签；根据每个字符的预测标签，从所述待抽取文本中抽取满足预设要求的字符，作为所述待抽取文本的抽取结果。本公开能够简化信息抽取的步骤，降低信息抽取的成本，提升信息抽取的灵活性与准确性。性。性。

全部详细技术资料下载

【技术实现步骤摘要】
信息抽取方法、装置、电子设备和可读存储介质

[0001]本公开涉及计算机
，尤其涉及自然语言处理
提供了一种信息抽取方法、装置、电子设备和可读存储介质。

技术介绍

[0002]在日常处理文档的工作中普遍存在抽取信息的需求，比如在处理合同时，需要知道文档中的“甲方”、“乙方”、“合同金额”等信息；在处理法律判决书时，需要知道文档中的“被告人”、“起诉人”、“涉嫌罪名”等信息。
[0003]现有技术通常使用信息抽取模型来抽取信息，但信息抽取模型仅对与其训练领域相关的语料抽取效果较好，而对训练领域之外的语料，由于缺乏相应的训练数据，无法进行准确地抽取。若要提升信息抽取模型在不同领域下的抽取能力，最直观的做法是获取大量的标注数据进行训练，而大量的标注数据需要大量的人力成本，难以获取。

技术实现思路

[0004]根据本公开的第一方面，提供了一种信息抽取方法，包括：获取待抽取文本；获取样本集，所述样本集中包含多个样本文本与多个样本文本中每个样本字符的标签；根据所述待抽取文本中每个字符的语义特征向量与所述样本集中每个样本字符的语义特征向量，确定所述待抽取文本中每个字符的预测标签；根据每个字符的预测标签，从所述待抽取文本中抽取满足预设要求的字符，作为所述待抽取文本的抽取结果。
[0005]根据本公开的第二方面，提供了一种信息抽取装置，包括：第一获取单元，用于获取待抽取文本；第二获取单元，用于获取样本集，所述样本集中包含多个样本文本与多个样本文本中每个样本字符的标签；处理单元，用于根据所述...

【技术保护点】

【技术特征摘要】
1.一种信息抽取方法，包括：获取待抽取文本；获取样本集，所述样本集中包含多个样本文本与多个样本文本中每个样本字符的标签；根据所述待抽取文本中每个字符的语义特征向量与所述样本集中每个样本字符的语义特征向量，确定所述待抽取文本中每个字符的预测标签；根据每个字符的预测标签，从所述待抽取文本中抽取满足预设要求的字符，作为所述待抽取文本的抽取结果。2.根据权利要求1所述的方法，其中，所述获取样本集包括：获取预先构建的样本集。3.根据权利要求1所述的方法，其中，所述根据所述待抽取文本中每个字符的语义特征向量与所述样本集中每个样本字符的语义特征向量，确定所述待抽取文本中每个字符的预测标签包括：针对所述待抽取文本中的每个字符，根据该字符的语义特征向量与所述样本集中每个样本字符的语义特征向量，计算该字符与所述样本集中每个样本字符之间的相似度；将与该字符具有最高相似度的样本字符的标签，作为该字符的预测标签。4.根据权利要求1所述的方法，其中，生成所述待抽取文本中每个字符的语义特征向量包括：获取待抽取字段名；将所述待抽取文本与所述待抽取字段名进行拼接之后，得到拼接结果中每个字符的词向量、句对向量与位置向量；根据每个字符的词向量、句对向量与位置向量，生成所述待抽取文本中每个字符的语义特征向量。5.根据权利要求1所述的方法，其中，生成所述样本集中每个样本字符的语义特征向量包括：获取待抽取字段名；针对所述样本集中的每个样本文本，将该样本文本与所述待抽取字段名进行拼接之后，得到拼接结果中每个样本字符的词向量、句对向量与位置向量；根据每个样本字符的词向量、句对向量与位置向量，生成该样本文本中每个样本字符的语义特征向量。6.根据权利要求1所述的方法，其中，所述根据每个字符的预测标签，从所述待抽取文本中抽取满足预设要求的字符，作为所述待抽取文本的抽取结果包括：根据每个字符的预测标签，生成所述待抽取文本的预测标签序列；确定所述预测标签序列中满足预设标签序列要求的标签序列；从所述待抽取文本中提取与所确定的标签序列对应的多个字符，作为所述待抽取文本的抽取结果。7.一种信息抽取装置，包括：第一获取单元，用于获取待抽取文本；第二获取单元，用于获取样本集，所述样本集中包含多个样本文本与多个样本文本中每个样本字符的标签；
处理单元，用于根据所述待抽取文本中每个字符的语义特征向量与所述样本集中每个样本字符的语义特征向量，确定所述待抽取文本中每个字符的预测标签；抽取单元，用于根据每个字符的预测标签，从所述待抽取文本中抽取满足预设要求的字符，...

【专利技术属性】
技术研发人员：刘涵，胡腾，陈永锋，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人