一种实体标注方法及装置、服务器、存储介质制造方法及图纸

技术编号:27297043 阅读:25 留言:0更新日期:2021-02-06 12:07
本申请实施例公开了一种实体标注方法及装置、服务器、存储介质,包括:获取目标实体,目标实体包括目标实体名称和目标实体内容;根据目标实体名称和目标实体内容确定目标实体的实体类型;根据实体类型以及目标实体内容,在预设文档中确定至少一个候选实体内容的位置信息;根据至少一个候选实体内容的位置信息,在预设文档中确定每个候选实体内容的最近邻实体名称,计算待聚类集合中两两实体名称之间的置信度;根据两两实体名称之间的置信度,对待聚类集合中的每个实体名称进行聚类以得到第一聚类群;将第一聚类群中各最近邻实体名称所对应的候选实体内容的位置信息确定为目标实体内容的标注结果。采用本申请,可以提高实体标注质量。体标注质量。体标注质量。

【技术实现步骤摘要】
一种实体标注方法及装置、服务器、存储介质


[0001]本申请涉及数据处理
,尤其涉及一种实体标注方法及装置、服务器、存储介质。

技术介绍

[0002]目前,随着近些年金融市场的完善,越来越多的人参与到投资、生产等活动中,衍生了海量的合同、说明书等金融文本。金融文本中往往存在与生产互动息息相关的重要信息,如姓名、金额、日期以及联系方式等。在实际业务中,为方便记录与统计,金融公司往往会定义好重要信息的类别,然后按类别将非结构化数据中的重要信息以结构化(实体名称-实体值)的方式进行存储。由于结构化数据中不包含实体的位置信息,现有技术中在进行实体标注时往往是通过人工进行标注,人工成本过高,标注质量不高。

技术实现思路

[0003]本申请实施例提供一种实体标注方法及装置、服务器、存储介质,以期提高实体标注质量。
[0004]第一方面,为本申请实施例提供了一种实体标注方法,包括:
[0005]获取目标实体,目标实体包括目标实体名称和目标实体内容;
[0006]根据目标实体名称和目标实体内容确定目标实体的实体类型;
[0007]根据实体类型以及目标实体内容,在预设文档中确定至少一个候选实体内容的位置信息;
[0008]根据至少一个候选实体内容的位置信息,在预设文档中确定每个候选实体内容的最近邻实体名称,计算待聚类集合中两两实体名称之间的置信度,待聚类集合包括每个候选实体内容的最近邻实体名称和目标实体名称;
[0009]根据两两实体名称之间的置信度,对待聚类集合中的每个实体名称进行聚类以得到第一聚类群,第一聚类群包括目标实体名称和至少一个最近邻实体名称;
[0010]将第一聚类群中各最近邻实体名称所对应的候选实体内容的位置信息确定为目标实体内容的标注结果。
[0011]可选的,根据实体类型以及目标实体内容,在预设文档中确定至少一个候选实体内容的位置信息,包括:
[0012]若实体类型为文本类型,则计算目标实体内容与预设文档中每个实体内容之间的差异度以得到多个差异度值;
[0013]将多个差异度值中小于预设差异度阈值的差异度值所对应的至少一个实体内容的位置信息,确定为至少一个候选实体内容的位置信息。
[0014]可选的,根据实体类型以及目标实体内容,在预设文档中确定至少一个候选实体内容的位置信息,还包括:
[0015]若实体类型为非文本类型,则根据非文本类型对目标实体内容进行转换以得到目
标实体转换内容;
[0016]将预设文档中与目标实体内容和目标实体转换内容一致的至少一个实体内容的位置信息,确定为至少一个候选实体内容的位置信息。
[0017]可选的,至少一个候选实体内容包括第一候选实体内容,位置信息包括位置起始值和位置终止值;
[0018]根据至少一个候选实体内容的位置信息,在预设文档中确定每个候选实体内容的最近邻实体名称,包括:
[0019]将第一候选实体内容的位置起始值和位置终止值之间的中位数确定为第一候选实体内容的绝对位置;
[0020]将预设文档中绝对位置与第一候选实体内容的绝对位置之间的距离最小的实体名称,确定为第一候选实体内容的最近邻实体名称,进而得到每个候选实体内容的最近邻实体名称。
[0021]可选的,至少一个最近邻实体名称包括第一最近邻实体名称;
[0022]计算待聚类集合中两两实体名称之间的置信度,包括:
[0023]获取预设文档中与第一最近邻实体名称一致的多个实体名称的位置信息;
[0024]根据每个实体名称的位置信息确定每个实体名称的最近邻实体名称以得到最近邻实体名称集合;
[0025]将目标实体名称在最近邻实体名称集合中的出现概率,确定为第一最近邻实体名称与目标实体名称之间的置信度,进而得到两两实体名称之间的置信度。
[0026]可选的,根据两两实体名称之间的置信度,对待聚类集合中的每个实体名称进行聚类以得到第一聚类群,包括:
[0027]根据两两实体名称之间的置信度,确定每个实体名称的置信度向量;
[0028]遍历每个实体名称的置信度向量与各个初始聚类中心之间的距离,将每个实体名称的置信度向量分配至距离最小的初始聚类中心对应的聚类群,进而得到n个初始聚类群;
[0029]计算各个初始聚类群的聚类中心与各自初始聚类群的初始聚类中心之间的距离,当距离满足收敛条件时,将待聚类集合划分为n个聚类群;
[0030]将n个聚类群中包括目标实体名称的聚类群确定为第一聚类群。
[0031]可选的,根据目标实体名称和目标实体内容确定目标实体的实体类型,包括:
[0032]将多个预设实体类型的实体内容范围中包含目标实体内容的至少一个预设实体类型,确定为至少一个候选实体类型;
[0033]将至少一个候选实体类型的关键词集合中包含目标实体名称的关键词集合所对应的候选实体类型,确定为目标实体的实体类型。
[0034]第二方面,为本申请实施例提供了一种实体标注装置,包括:
[0035]目标实体获取模块,用于获取目标实体,目标实体包括目标实体名称和目标实体内容;
[0036]实体类型确定模块,用于根据目标实体名称和目标实体内容确定目标实体的实体类型;
[0037]位置信息确定模块,用于根据实体类型以及目标实体内容,在预设文档中确定至少一个候选实体内容的位置信息;
[0038]确定计算模块,用于根据至少一个候选实体内容的位置信息,在预设文档中确定每个候选实体内容的最近邻实体名称,计算待聚类集合中两两实体名称之间的置信度,待聚类集合包括每个候选实体内容的最近邻实体名称和目标实体名称;
[0039]聚类群确定模块,用于根据两两实体名称之间的置信度,对待聚类集合中的每个实体名称进行聚类以得到第一聚类群,第一聚类群包括目标实体名称和至少一个最近邻实体名称;
[0040]标注结果确定模块,用于将第一聚类群中各最近邻实体名称所对应的候选实体内容的位置信息确定为目标实体内容的标注结果。
[0041]可选的,位置信息确定模块,包括:
[0042]差异度计算单元,用于若实体类型为文本类型,则计算目标实体内容与预设文档中每个实体内容之间的差异度以得到多个差异度值;
[0043]第一位置确定单元,用于将多个差异度值中小于预设差异度阈值的差异度值所对应的至少一个实体内容的位置信息,确定为至少一个候选实体内容的位置信息。
[0044]可选的,位置信息确定模块,还包括:
[0045]内容转换单元,用于若实体类型为非文本类型,则根据非文本类型对目标实体内容进行转换以得到目标实体转换内容;
[0046]第二位置确定单元,用于将预设文档中与目标实体内容和目标实体转换内容一致的至少一个实体内容的位置信息,确定为至少一个候选实体内容的位置信息。
[0047]可选的,至少一个候选实体内容包括第一候选实体内容,位置信息包括位置起始值本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实体标注方法,其特征在于,包括:获取目标实体,所述目标实体包括目标实体名称和目标实体内容;根据所述目标实体名称和所述目标实体内容确定所述目标实体的实体类型;根据所述实体类型以及所述目标实体内容,在预设文档中确定至少一个候选实体内容的位置信息;根据所述至少一个候选实体内容的位置信息,在所述预设文档中确定每个候选实体内容的最近邻实体名称,计算待聚类集合中两两实体名称之间的置信度,所述待聚类集合包括所述每个候选实体内容的最近邻实体名称和所述目标实体名称;根据所述两两实体名称之间的置信度,对所述待聚类集合中的每个实体名称进行聚类以得到第一聚类群,所述第一聚类群包括所述目标实体名称和至少一个最近邻实体名称;将所述第一聚类群中各最近邻实体名称所对应的候选实体内容的位置信息确定为所述目标实体内容的标注结果。2.根据权利要求1所述的方法,其特征在于,所述根据所述实体类型以及所述目标实体内容,在预设文档中确定至少一个候选实体内容的位置信息,包括:若所述实体类型为文本类型,则计算所述目标实体内容与所述预设文档中每个实体内容之间的差异度以得到多个差异度值;将所述多个差异度值中小于预设差异度阈值的差异度值所对应的至少一个实体内容的位置信息,确定为所述至少一个候选实体内容的位置信息。3.根据权利要求1所述的方法,其特征在于,所述根据所述实体类型以及所述目标实体内容,在预设文档中确定至少一个候选实体内容的位置信息,还包括:若所述实体类型为非文本类型,则根据所述非文本类型对所述目标实体内容进行转换以得到目标实体转换内容;将所述预设文档中与所述目标实体内容和所述目标实体转换内容一致的至少一个实体内容的位置信息,确定为所述至少一个候选实体内容的位置信息。4.根据权利要求1所述的方法,其特征在于,所述至少一个候选实体内容包括第一候选实体内容,所述位置信息包括位置起始值和位置终止值;所述根据所述至少一个候选实体内容的位置信息,在所述预设文档中确定每个候选实体内容的最近邻实体名称,包括:将所述第一候选实体内容的位置起始值和位置终止值之间的中位数确定为所述第一候选实体内容的绝对位置;将所述预设文档中绝对位置与所述第一候选实体内容的绝对位置之间的距离最小的实体名称,确定为所述第一候选实体内容的最近邻实体名称,进而得到所述每个候选实体内容的最近邻实体名称。5.根据权利要求1所述的方法,其特征在于,所述至少一个最近邻实体名称包括第一最近邻实体名称;所述计算待聚类集合中两两实体名称之间的置信度,包括:获取所述预设文档中与所述第一最近邻实体名称一致的多个实体名称的位置信息;根据每个实体名称的位置信息确定所述每个实体名称的最近邻实体名称以得到最近邻实体名称集合;
将所述目标实体名称在所述最近邻实体名...

【专利技术属性】
技术研发人员:黄佳洋丘宇彬陈枫徐维黛朱易文陈清财李东方付冠宇
申请(专利权)人:深圳市图灵机器人有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1