信息实体抽取方法、装置、电子设备和存储介质制造方法及图纸

技术编号:29054259 阅读:20 留言:0更新日期:2021-06-26 06:23
本申请实施例提供一种信息实体抽取方法、装置、电子设备和存储介质,通过获取原始数据文本,对原始数据文本进行有序分块,得到至少一个文本块,根据预先构建的信息实体抽取模型对所述至少一个文本块进行处理,得到原始数据文本包含的至少一个信息实体,根据预设规则进行类别推断,确定至少一个信息实体的类别,实现了对信息实体的自动化抽取,由于信息实体抽取过程中,采用了对原始数据文本有序分块和“合并

【技术实现步骤摘要】
信息实体抽取方法、装置、电子设备和存储介质


[0001]本申请实施例涉及数据分析
,尤其涉及一种信息实体抽取方法、装置、电子设备和存储介质。

技术介绍

[0002]作为自然语言处理领域的一个重要分支,信息抽取的主要功能是从自然语言文本中抽取出特定的事实信息,以通过自动化的方式帮助人们在海量的信息中迅速找到自己真正需要的信息,应对信息爆炸带来的挑战。其中,信息实体抽取作为信息抽取中最有实用价值的一项技术,其主要任务是识别出文本中出现的专有名称和有意义的数量短语并加以归类。
[0003]目前,用于信息实体抽取的业界主流方法是序列标注法,即对于文本中每个词可以有若干个候选的类别标签,每个标签对应于其在各类信息实体中所处的位置,通过对文本中的每个词进行序列化的自动标注(也即分类),再将自动标注的标签进行整合,最终获得有若干个词构成的信息实体及其类别。
[0004]然而,对于较长的文本,可能的序列模式会变得很多,导致序列标法存在识别效果差和识别效率低的问题。

技术实现思路

[0005]本申请实施例提供一种信息实体抽取方法、装置、电子设备和存储介质,以解决现有技术中存在的识别效率和准确率不高的问题。
[0006]第一方面,本申请实施例提供一种信息实体抽取方法,包括:
[0007]获取原始数据文本;
[0008]对所述原始数据文本进行有序分块,得到至少一个文本块;
[0009]根据预先构建的信息实体抽取模型对所述至少一个文本块进行处理,得到所述原始数据文本包含的至少一个信息实体;
[0010]根据预设规则进行类别推断,确定所述至少一个信息实体的类别。
[0011]可选地,所述对所述原始数据文本进行分块,得到有序且语义连续的至少一个文本块,包括:
[0012]对所述原始数据文本进行分段和/或分句处理,得到至少一个短文本;
[0013]对所述至少一个短文本进行排序和语义连续性处理,得到所述至少一个文本块。
[0014]可选地,所述对所述原始数据文本进行有序分块,得到至少一个文本块,包括:
[0015]根据段落项目符号,对所述原始数据文本进行分段,得到至少一个段落文本;
[0016]根据句尾标识符,对字符长度大于设定阈值的段落文本进行拆分,得到所述至少一个短文本。
[0017]可选地,所述对所述至少一个短文本进行排序和语义连续性处理,得到所述至少一个文本块,包括:
[0018]根据所述至少一个短文本在原始数据文本中出现的先后顺序,对所述至少一个短文本进行排序;
[0019]确定目标短文本的末尾关键词是否为目标信息实体的一部分,若是,则将目标短文本与下一个短文本进行合并,得到所述至少一个文本块。
[0020]可选地,所述方法还包括:
[0021]在每个文本块的首尾添加特殊标识符。
[0022]可选地,所述根据预先构建的信息实体抽取模型对所述至少一个文本块进行处理,得到所述原始数据文本包含的至少一个信息实体,包括:
[0023]对所述至少一个文本块进行特征编码,得到每个文本块的二维词典列表;
[0024]根据预设算法对所述二维词典列表进行序列标注预测,得到每个文本块的目标标注序列;
[0025]根据所述目标标注序列,从所述二维词典列表中进行字符抽取,得到每个文本块中包含的信息实体。
[0026]可选地,所述根据预设算法对所述二维词典列表进行序列标注预测,得到每个文本块的目标标注序列,包括:
[0027]根据条件随机场CRF算法,计算所述二维词典列表中每个词序列被标记为候选标注的条件概率;
[0028]根据所述条件概率,通过维特比算法,从所述候选标注中寻找最优的标注,得到所述目标标注序列。
[0029]可选地,所述根据预先构建的信息实体抽取模型对所述至少一个文本块进行处理,得到所述原始数据文本包含的至少一个信息实体之前,所述方法还包括:
[0030]获取样本数据文本;
[0031]根据目标信息实体,对所述样本数据文本进行标记,得到训练数据集,所述目标信息实体是对同类属性的信息实体进行合并后得到的;
[0032]根据所述训练数据集进行模型训练,得到至少一个信息实体抽取模型。
[0033]可选地,所述根据目标信息实体,对所述样本数据文本进行标记,得到训练数据集,包括:
[0034]在所述样本数据文本中,分别标注出所述目标信息实体和所述目标信息实体的前缀关键词,得到所述训练数据集。
[0035]第二方面,本申请实施例提供一种信息实体抽取装置,包括:
[0036]获取模块,用于获取原始数据文本;
[0037]处理模块,用于对所述原始数据文本进行有序分块,得到至少一个文本块;根据预先构建的信息实体抽取模型对所述至少一个文本块进行处理,得到所述原始数据文本包含的至少一个信息实体;根据预设规则进行类别推断,确定所述至少一个信息实体的类别。
[0038]第三方面,本申请实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一方面所述的信息实体抽取方法。
[0039]第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的信息实体抽取方法。
[0040]本申请实施例提供的信息实体抽取方法、装置、电子设备和存储介质,通过获取原始数据文本,对原始数据文本进行有序分块,得到至少一个文本块,根据预先构建的信息实体抽取模型对所述至少一个文本块进行处理,得到原始数据文本包含的至少一个信息实体,根据预设规则进行类别推断,确定至少一个信息实体的类别,实现了对信息实体的自动化抽取,由于信息实体抽取的过程中,采用了对原始数据文本有序分块和“合并

预测

还原”的策略,在降低了模型的复杂度和工作量的同时,还提高了信息实体的抽取效率和抽取精度。
附图说明
[0041]图1为本申请实施例一提供的信息实体抽取方法的流程示意图;
[0042]图2为本申请实施例一提供的CRF算法计算条件概率的原理示意图;
[0043]图3为本申请实施例一提供的基于CRF算法和Viterbi算法的标注序列预测的原理示意图;
[0044]图4为本申请实施例二提供的信息实体抽取装置的结构示意图;
[0045]图5为本申请实施例三提供的一种电子设备的结构示意图。
具体实施方式
[0046]下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。
[0047]本申请技术方案的主要思路:基于现有技术中存在的技术问题,本申请实施例提供一种信息实体抽取的技术方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息实体抽取方法,其特征在于,包括:获取原始数据文本;对所述原始数据文本进行有序分块,得到至少一个文本块;根据预先构建的信息实体抽取模型对所述至少一个文本块进行处理,得到所述原始数据文本包含的至少一个信息实体;根据预设规则进行类别推断,确定所述至少一个信息实体的类别。2.根据权利要求1所述的方法,其特征在于,对所述原始数据文本进行分块,得到有序且语义连续的至少一个文本块,包括:对所述原始数据文本进行分段和/或分句处理,得到至少一个短文本;对所述至少一个短文本进行排序和语义连续性处理,得到所述至少一个文本块。3.根据权利要求2所述的方法,其特征在于,对所述原始数据文本进行有序分块,得到至少一个文本块,包括:根据段落项目符号,对所述原始数据文本进行分段,得到至少一个段落文本;根据句尾标识符,对字符长度大于设定阈值的段落文本进行拆分,得到所述至少一个短文本。4.根据权利要求2所述的方法,其特征在于,对所述至少一个短文本进行排序和语义连续性处理,得到所述至少一个文本块,包括:根据所述至少一个短文本在原始数据文本中出现的先后顺序,对所述至少一个短文本进行排序;确定目标短文本的末尾关键词是否为目标信息实体的一部分,若是,则将目标短文本与下一个短文本进行合并,得到所述至少一个文本块。5.根据权利要求2所述的方法,其特征在于,所述方法还包括:在每个文本块的首尾添加特殊标识符。6.根据权利要求1所述的方法,其特征在于,所述根据预先构建的信息实体抽取模型对所述至少一个文本块进行处理,得到所述原始数据文本包含的至少一个信息实体,包括:对所述至少一个文本块进行特征编码,得到每个文本块的二维词典列表;根据预设算法对所述二维词典列表进行序列标注预测,得到每个文本块的目标标注序列;根据所述目标标注序列,从所述二维词典列表中进行字符抽取,得到每个文本块中包含的信息实体。7.根据权利要求6所述的...

【专利技术属性】
技术研发人员:黄进然林璟
申请(专利权)人:广州万孚生物技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1