实体信息提取模型训练、实体信息提取方法、装置及设备制造方法及图纸

技术编号:42141981 阅读:16 留言:0更新日期:2024-07-26 23:58
本说明书实施例公开了一种实体信息提取模型训练、实体信息提取方法、装置及设备。实体可以是身份性的个人信息。获取多个文本样本及其样本标签;其中,每个文本样本包括按序排列的若干文本单元,每个文本样本的样本标签表示该文本样本实际包含的实体信息;以每个文本样本为模型输入,以每个文本样本的信息提取结果为模型输出,根据每个文本样本的样本标签训练所述实体信息提取模型。

【技术实现步骤摘要】

本专利技术涉及信息,尤其涉及一种实体信息提取模型训练、实体信息提取方法、装置及设备


技术介绍

1、实体识别,或称命名实体识别(named entity recognition,ner),是自然语言处理(natural language processing,nlp)领域的一个基本任务。它指的是从文本中识别出具有特定意义的实体信息,然后将提取的实体信息划分到预先定义的类别中,如身份性的个人信息(比如人名)、地点、组织、时间表达、数值等。实体识别是信息提取、问答系统、内容摘要、机器翻译等多种nlp应用的重要步骤。

2、在实际应用中,需要进行实体识别的文本的来源不一定是纯文本,可能是比较复杂的文本结构(通常是富文本),在很多情况下基于现有技术从文本中提取出的实体信息并不准确。


技术实现思路

1、本说明书实施例提供一种实体信息提取模型训练方法,包括:

2、获取多个文本样本及其样本标签;其中,每个文本样本包括按序排列的若干文本单元,每个文本样本的样本标签表示该文本样本实际包含的实体信息;...

【技术保护点】

1.一种实体信息提取模型训练方法,包括:

2.如权利要求1所述方法,其中,所述多个文本样本中至少部分文本样本存在语序错误。

3.如权利要求1或2所述方法,获取至少部分文本样本的步骤包括:

4.如权利要求1所述方法,所述实体信息提取模型包括依次连接的特征映射网络与全局指针网络。

5.如权利要求3所述方法,所述特征映射网络包括:

6.如权利要求1所述方法,每个文本样本的样本标签具体表示若干包含真实实体的文本样本片段,以及每个文本样本片段对应的实体信息真实矩阵,该实体信息真实矩阵的任一元素值Tij是1或0;

7.一种实体信...

【技术特征摘要】

1.一种实体信息提取模型训练方法,包括:

2.如权利要求1所述方法,其中,所述多个文本样本中至少部分文本样本存在语序错误。

3.如权利要求1或2所述方法,获取至少部分文本样本的步骤包括:

4.如权利要求1所述方法,所述实体信息提取模型包括依次连接的特征映射网络与全局指针网络。

5.如权利要求3所述方法,所述特征映射网络包括:

6.如权利要求1所述方法,每个文本样本的样本标签具体表示若干包含真实实体的文本样本片段,以及每个文本样本片段对应的实体信息真实矩阵,该实体信息真实矩阵的任一元素值tij是1或0;

7.一种实体信息提取方法,包括:

8.如权利要求7所述方法,其中,所述目标文本存在语序错误。

【专利技术属性】
技术研发人员:陈欢郭亚
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1