一种实体信息识别方法技术

技术编号:20622588 阅读:34 留言:0更新日期:2019-03-20 14:26
本发明专利技术公开了一种实体信息识别方法,包括:属性映射过程:将不同数据类型中表达同一个信息的数据进行关联和计算,将数据信息的含义、值域和约束进行统一;属性决策过程:对不同数据中属性的值可能不同的情况进行决策;实体对齐过程:对数据根据业务元素进行建模。本发明专利技术通过属性映射过程、属性决策过程和实体对齐过程,使得实体信息具有可溯源和灵活决策的特点,并且可以对实体数据进行归并,增加实体信息的完整性。

A Method of Entity Information Recognition

The invention discloses an entity information recognition method, which includes: attribute mapping process: associating and calculating data expressing the same information in different data types, unifying the meaning, range and constraints of data information; attribute decision-making process: decision-making under different situations where the values of attributes in different data may be different; entity alignment process: data according to business elements Modeling. Through the attribute mapping process, attribute decision-making process and entity alignment process, the entity information has the characteristics of traceability and flexible decision-making, and the entity data can be merged to increase the integrity of entity information.

【技术实现步骤摘要】
一种实体信息识别方法
本专利技术涉及业务数据处理,特别是涉及一种实体信息识别方法。
技术介绍
在现实信息应用系统中如:多媒体、社交网络、物联网等诸多领域每天都积累了zb级的大数据。这些数据信息丰富多样,记录形式也多种多样。因此在给定的大数据集中准确发现属于同一实体的不同记录并将其聚合在一起,使得每个实体簇在现实世界中表示同一对象这一过程显得尤为重要。传统的业务数据处理方法,同一种数据类型中根据唯一标识确定了唯一的实体,将实体相关的各项信息简单合并在一起,未对同种数据类型不同格式或者不同数据类型中的信息进行识别合并,不贴近用户的业务需求,这种情况下,同一实体在现实世界的行为和关系数据也无法进行聚合。在分析实体时,实体的重要信息无法全部进行关联,难以适应新的业务需求,后续分析往往仍需要大量的开发工作。究其原因,主要是因为在不同的数据源类型中,通过多种多样的形式记录数据,传统的方法对不同数据源中的数据未进行聚合,导致同一实体的信息分散,并没有从业务本身的需要出发,对数据进行完整性的管理。
技术实现思路
专利技术目的:本专利技术的目的是提供一种实体信息识别方法,能够对同种数据类型不同格式或者不同数据类型中的信息进行识别合并。技术方案:本专利技术所述的实体信息识别方法,包括:属性映射过程:将不同数据类型中表达同一个信息的数据进行关联和计算,将数据信息的含义、值域和约束进行统一;属性决策过程:对不同数据中属性的值可能不同的情况进行决策;实体对齐过程:对数据根据业务元素进行建模。进一步,所述属性映射过程包括以下步骤:S11:根据业务应用的需要,建立实体的本体模型;S12:根据实体的本体模型,建立实体属性与数据属性的映射关系;S13:根据实体属性与数据属性的映射关系,将实体信息从数据中抽取出来,进行属性转换,构建成一个个单独的实体实例。进一步,所述属性决策过程包括以下步骤:S21:寻找实体原属性;S22:比较步骤S13得到的转换后的实体属性的可信度与实体原属性的可信度:如果步骤S13得到的转换后的实体属性的可信度大于或等于实体原属性的可信度,则进入步骤S25;否则,进入步骤S23;S23:比较步骤S13得到的转换后的实体属性的时间与实体原属性的时间:如果步骤S13得到的转换后的实体属性的时间晚于实体原属性的时间,则进入步骤S25;否则,进入步骤S24;S24:比较步骤S13得到的转换后的实体属性的使用频次与实体原属性的使用频次:如果步骤S13得到的转换后的实体属性的使用频次高于实体原属性的使用频次,则进入步骤S25;否则,进入步骤S26;S25:更新实体的属性值和属性来源;S26:结束。进一步,所述属性决策过程采用人为可信度决策、时序决策和使用频率决策中的一种或多种决策依据。进一步,所述实体对齐过程包括以下步骤:S31:根据分区字段和方式对实体进行分区,构建由多个实体对组成的实体对集合;S32:计算每个实体对中两个实体之间的相似度;S33:根据相似度的大小来决策实体对中的两个实体是否指向同一个实体。有益效果:本专利技术公开了一种实体信息识别方法,通过属性映射过程、属性决策过程和实体对齐过程,使得实体信息具有可溯源和灵活决策的特点,并且可以对实体数据进行归并,增加实体信息的完整性。附图说明图1为本专利技术具体实施方式中属性映射过程的示意图;图2为本专利技术具体实施方式中属性决策过程的示意图。具体实施方式本具体实施方式公开了一种实体信息识别方法,包括:属性映射过程:将不同数据类型中表达同一个信息的数据进行关联和计算,将数据信息的含义、值域和约束进行统一;属性决策过程:对不同数据中属性的值可能不同的情况进行决策;实体对齐过程:对数据根据业务元素进行建模。其中,属性映射过程包括以下步骤:S11:根据业务应用的需要,建立实体的本体模型;S12:根据实体的本体模型,建立实体属性与数据属性的映射关系;映射关系包括属性字段的对应关系和转换方法;S13:根据实体属性与数据属性的映射关系,将实体信息从数据中抽取出来,进行属性转换,构建成一个个单独的实体实例。属性决策使用内存库,提高属性决策的性能和效率。属性决策过程采用人为可信度决策、时序决策和使用频率决策中的一种或多种决策依据。例如,同时采用以上三种决策依据,则属性决策过程包括以下步骤:S21:寻找实体原属性;S22:比较步骤S13得到的转换后的实体属性的可信度与实体原属性的可信度:如果步骤S13得到的转换后的实体属性的可信度大于或等于实体原属性的可信度,则进入步骤S25;否则,进入步骤S23;S23:比较步骤S13得到的转换后的实体属性的时间与实体原属性的时间:如果步骤S13得到的转换后的实体属性的时间晚于实体原属性的时间,则进入步骤S25;否则,进入步骤S24;S24:比较步骤S13得到的转换后的实体属性的使用频次与实体原属性的使用频次:如果步骤S13得到的转换后的实体属性的使用频次高于实体原属性的使用频次,则进入步骤S25;否则,进入步骤S26;S25:更新实体的属性值和属性来源;S26:结束。实体对齐过程使用大数据分析工具Spark,提高实体对齐的效率。实体对齐过程首先需要进行实体对齐建模,定义对齐的基本信息,包括:模型名称:用户业务语言描述模型名称,便于理解数据类型:用户业务语言描述待分析的实体类型模型ID:用来唯一标识模型分区字段:用户业务定义的分区属性字段分区方式:用户业务定义的分区方式比较属性:用户业务定义的待比较的属性信息,该属性信息可以包含实体的属性信息,同时可以扩展包含实体的关系信息和行为信息。相似度算法:用户业务定义的相似度的计算算法,根据实体的属性、关系和行为计算相似度。实体对齐过程包括以下步骤:S31:根据分区字段和方式对实体进行分区,构建由多个实体对组成的实体对集合;S32:计算每个实体对中两个实体之间的相似度;S33:根据相似度的大小来决策实体对中的两个实体是否指向同一个实体。可以对不同的相似度算法设置一个阈值,超过指定阈值的相似实体可以认为是同一个实体,记录并标识实体信息。下面以一个实施例,对本具体实施方式进行进一步的介绍。当前系统有一下需求:1、系统内有多个数据,有户籍数据、住宿数据、乘车记录2、不同数据中对属性的值存在不同的情况,如“户籍”表中人A(以身份证唯一标识)的出生日期与“人员住宿信息表”的同一个人A的出生日期不同,那么对于人员A,其出生日期到底是哪个呢?3、系统中包含的人员信息有多样,户籍数据、住宿数据以身份证号码标识实体(人)中,乘车记录以姓名和手机号码标识人的信息,将这两类信息中同一个人识别出来,并将相关的属性结合在一起。下面使用本方法解决以上问题。第一步:属性映射过程1.建立人员信息的本体模型2.建立映射关系3.实体属性信息抽取根据上述的映射关系,直接从数据中抽取出单个实体信息。第二步:属性决策过程1.人为可信度决策:我们可以认为“XX户籍”中的信息可信度更高,则以A的为准;2.时序决策:以时间最新的值为准;对于如何选择属性,以下为两种3.先后顺序融合:实时过程中,根据数据的发生时间处理数据,认为数据信息时间更新的更准确,存储最新的数据4.置信度融合:记录每个数据项的置信值(可以使用来源数据源或数据源的置信值表达),对新数据的置信值与原数据置信值进行本文档来自技高网...

【技术保护点】
1.一种实体信息识别方法,其特征在于:包括:属性映射过程:将不同数据类型中表达同一个信息的数据进行关联和计算,将数据信息的含义、值域和约束进行统一;属性决策过程:对不同数据中属性的值可能不同的情况进行决策;实体对齐过程:对数据根据业务元素进行建模。

【技术特征摘要】
1.一种实体信息识别方法,其特征在于:包括:属性映射过程:将不同数据类型中表达同一个信息的数据进行关联和计算,将数据信息的含义、值域和约束进行统一;属性决策过程:对不同数据中属性的值可能不同的情况进行决策;实体对齐过程:对数据根据业务元素进行建模。2.根据权利要求1所述的实体信息识别方法,其特征在于:所述属性映射过程包括以下步骤:S11:根据业务应用的需要,建立实体的本体模型;S12:根据实体的本体模型,建立实体属性与数据属性的映射关系;S13:根据实体属性与数据属性的映射关系,将实体信息从数据中抽取出来,进行属性转换,构建成一个个单独的实体实例。3.根据权利要求2所述的实体信息识别方法,其特征在于:所述属性决策过程包括以下步骤:S21:寻找实体原属性;S22:比较步骤S13得到的转换后的实体属性的可信度与实体原属性的可信度:如果步骤S13得到的转换后的实体属性的可信度大于或等于实体原属性的可信度,则进入步骤S25;否则,进...

【专利技术属性】
技术研发人员:龙炳林陆丰勤
申请(专利权)人:南京茂毓通软件科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1