【技术实现步骤摘要】
一种实体标注方法及装置、服务器、存储介质
[0001]本申请涉及数据处理
,尤其涉及一种实体标注方法及装置、服务器、存储介质。
技术介绍
[0002]目前,随着近些年金融市场的完善,越来越多的人参与到投资、生产等活动中,衍生了海量的合同、说明书等金融文本。金融文本中往往存在与生产互动息息相关的重要信息,如姓名、金额、日期以及联系方式等。在实际业务中,为方便记录与统计,金融公司往往会定义好重要信息的类别,然后按类别将非结构化数据中的重要信息以结构化(实体名称-实体值)的方式进行存储。由于结构化数据中不包含实体的位置信息,现有技术中在进行实体标注时往往是通过人工进行标注,人工成本过高,标注质量不高。
技术实现思路
[0003]本申请实施例提供一种实体标注方法及装置、服务器、存储介质,以期提高实体标注质量。
[0004]第一方面,为本申请实施例提供了一种实体标注方法,包括:
[0005]获取目标实体,目标实体包括目标实体名称和目标实体内容;
[0006]根据目标实体名称和目标实体内容确定目标实体的实体类型;
[0007]根据实体类型以及目标实体内容,在预设文档中确定至少一个候选实体内容的位置信息;
[0008]根据至少一个候选实体内容的位置信息,在预设文档中确定每个候选实体内容的最近邻实体名称,计算待聚类集合中两两实体名称之间的置信度,待聚类集合包括每个候选实体内容的最近邻实体名称和目标实体名称;
[0009]根据两两实体名称之间的置信度,对待聚类集合中 ...
【技术保护点】
【技术特征摘要】
1.一种实体标注方法,其特征在于,包括:获取目标实体,所述目标实体包括目标实体名称和目标实体内容;根据所述目标实体名称和所述目标实体内容确定所述目标实体的实体类型;根据所述实体类型以及所述目标实体内容,在预设文档中确定至少一个候选实体内容的位置信息;根据所述至少一个候选实体内容的位置信息,在所述预设文档中确定每个候选实体内容的最近邻实体名称,计算待聚类集合中两两实体名称之间的置信度,所述待聚类集合包括所述每个候选实体内容的最近邻实体名称和所述目标实体名称;根据所述两两实体名称之间的置信度,对所述待聚类集合中的每个实体名称进行聚类以得到第一聚类群,所述第一聚类群包括所述目标实体名称和至少一个最近邻实体名称;将所述第一聚类群中各最近邻实体名称所对应的候选实体内容的位置信息确定为所述目标实体内容的标注结果。2.根据权利要求1所述的方法,其特征在于,所述根据所述实体类型以及所述目标实体内容,在预设文档中确定至少一个候选实体内容的位置信息,包括:若所述实体类型为文本类型,则计算所述目标实体内容与所述预设文档中每个实体内容之间的差异度以得到多个差异度值;将所述多个差异度值中小于预设差异度阈值的差异度值所对应的至少一个实体内容的位置信息,确定为所述至少一个候选实体内容的位置信息。3.根据权利要求1所述的方法,其特征在于,所述根据所述实体类型以及所述目标实体内容,在预设文档中确定至少一个候选实体内容的位置信息,还包括:若所述实体类型为非文本类型,则根据所述非文本类型对所述目标实体内容进行转换以得到目标实体转换内容;将所述预设文档中与所述目标实体内容和所述目标实体转换内容一致的至少一个实体内容的位置信息,确定为所述至少一个候选实体内容的位置信息。4.根据权利要求1所述的方法,其特征在于,所述至少一个候选实体内容包括第一候选实体内容,所述位置信息包括位置起始值和位置终止值;所述根据所述至少一个候选实体内容的位置信息,在所述预设文档中确定每个候选实体内容的最近邻实体名称,包括:将所述第一候选实体内容的位置起始值和位置终止值之间的中位数确定为所述第一候选实体内容的绝对位置;将所述预设文档中绝对位置与所述第一候选实体内容的绝对位置之间的距离最小的实体名称,确定为所述第一候选实体内容的最近邻实体名称,进而得到所述每个候选实体内容的最近邻实体名称。5.根据权利要求1所述的方法,其特征在于,所述至少一个最近邻实体名称包括第一最近邻实体名称;所述计算待聚类集合中两两实体名称之间的置信度,包括:获取所述预设文档中与所述第一最近邻实体名称一致的多个实体名称的位置信息;根据每个实体名称的位置信息确定所述每个实体名称的最近邻实体名称以得到最近邻实体名称集合;
将所述目标实体名称在所述最近邻实体名...
【专利技术属性】
技术研发人员:黄佳洋,丘宇彬,陈枫,徐维黛,朱易文,陈清财,李东方,付冠宇,
申请(专利权)人:深圳市图灵机器人有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。