信息实体抽取方法、装置、电子设备和存储介质制造方法及图纸

技术编号：29054259 阅读：20 留言：0更新日期：2021-06-26 06:23

本申请实施例提供一种信息实体抽取方法、装置、电子设备和存储介质，通过获取原始数据文本，对原始数据文本进行有序分块，得到至少一个文本块，根据预先构建的信息实体抽取模型对所述至少一个文本块进行处理，得到原始数据文本包含的至少一个信息实体，根据预设规则进行类别推断，确定至少一个信息实体的类别，实现了对信息实体的自动化抽取，由于信息实体抽取过程中，采用了对原始数据文本有序分块和“合并

全部详细技术资料下载

【技术实现步骤摘要】
信息实体抽取方法、装置、电子设备和存储介质

[0001]本申请实施例涉及数据分析
，尤其涉及一种信息实体抽取方法、装置、电子设备和存储介质。

技术介绍

[0002]作为自然语言处理领域的一个重要分支，信息抽取的主要功能是从自然语言文本中抽取出特定的事实信息，以通过自动化的方式帮助人们在海量的信息中迅速找到自己真正需要的信息，应对信息爆炸带来的挑战。其中，信息实体抽取作为信息抽取中最有实用价值的一项技术，其主要任务是识别出文本中出现的专有名称和有意义的数量短语并加以归类。
[0003]目前，用于信息实体抽取的业界主流方法是序列标注法，即对于文本中每个词可以有若干个候选的类别标签，每个标签对应于其在各类信息实体中所处的位置，通过对文本中的每个词进行序列化的自动标注(也即分类)，再将自动标注的标签进行整合，最终获得有若干个词构成的信息实体及其类别。
[0004]然而，对于较长的文本，可能的序列模式会变得很多，导致序列标法存在识别效果差和识别效率低的问题。

技术实现思路

[0005]本申请实施例提供一种信息实体抽取方法、装置、电子设备和存储介质，以解决现有技术中存在的识别效率和准确率不高的问题。
[0006]第一方面，本申请实施例提供一种信息实体抽取方法，包括：
[0007]获取原始数据文本；
[0008]对所述原始数据文本进行有序分块，得到至少一个文本块；
[0009]根据预先构建的信息实体抽取模型对所述至少一个文本块进行处理，得到所述原始数据文本包含的...

【技术保护点】

【技术特征摘要】
1.一种信息实体抽取方法，其特征在于，包括：获取原始数据文本；对所述原始数据文本进行有序分块，得到至少一个文本块；根据预先构建的信息实体抽取模型对所述至少一个文本块进行处理，得到所述原始数据文本包含的至少一个信息实体；根据预设规则进行类别推断，确定所述至少一个信息实体的类别。2.根据权利要求1所述的方法，其特征在于，对所述原始数据文本进行分块，得到有序且语义连续的至少一个文本块，包括：对所述原始数据文本进行分段和/或分句处理，得到至少一个短文本；对所述至少一个短文本进行排序和语义连续性处理，得到所述至少一个文本块。3.根据权利要求2所述的方法，其特征在于，对所述原始数据文本进行有序分块，得到至少一个文本块，包括：根据段落项目符号，对所述原始数据文本进行分段，得到至少一个段落文本；根据句尾标识符，对字符长度大于设定阈值的段落文本进行拆分，得到所述至少一个短文本。4.根据权利要求2所述的方法，其特征在于，对所述至少一个短文本进行排序和语义连续性处理，得到所述至少一个文本块，包括：根据所述至少一个短文本在原始数据文本中出现的先后顺序，对所述至少一个短文本进行排序；确定目标短文本的末尾关键词是否为目标信息实体的一部分，若是，则将目标短文本与下一个短文本进行合并，得到所述至少一个文本块。5.根据权利要求2所述的方法，其特征在于，所述方法还包括：在每个文本块的首尾添加特殊标识符。6.根据权利要求1所述的方法，其特征在于，所述根据预先构建的信息实体抽取模型对所述至少一个文本块进行处理，得到所述原始数据文本包含的至少一个信息实体，包括：对所述至少一个文本块进行特征编码，得到每个文本块的二维词典列表；根据预设算法对所述二维词典列表进行序列标注预测，得到每个文本块的目标标注序列；根据所述目标标注序列，从所述二维词典列表中进行字符抽取，得到每个文本块中包含的信息实体。7.根据权利要求6所述的...

【专利技术属性】
技术研发人员：黄进然，林璟，
申请(专利权)人：广州万孚生物技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人