一种实体信息识别方法技术

技术编号：20622588 阅读：34 留言：0更新日期：2019-03-20 14:26

本发明专利技术公开了一种实体信息识别方法，包括：属性映射过程：将不同数据类型中表达同一个信息的数据进行关联和计算，将数据信息的含义、值域和约束进行统一；属性决策过程：对不同数据中属性的值可能不同的情况进行决策；实体对齐过程：对数据根据业务元素进行建模。本发明专利技术通过属性映射过程、属性决策过程和实体对齐过程，使得实体信息具有可溯源和灵活决策的特点，并且可以对实体数据进行归并，增加实体信息的完整性。

A Method of Entity Information Recognition

The invention discloses an entity information recognition method, which includes: attribute mapping process: associating and calculating data expressing the same information in different data types, unifying the meaning, range and constraints of data information; attribute decision-making process: decision-making under different situations where the values of attributes in different data may be different; entity alignment process: data according to business elements Modeling. Through the attribute mapping process, attribute decision-making process and entity alignment process, the entity information has the characteristics of traceability and flexible decision-making, and the entity data can be merged to increase the integrity of entity information.

全部详细技术资料下载

【技术实现步骤摘要】
一种实体信息识别方法
本专利技术涉及业务数据处理，特别是涉及一种实体信息识别方法。
技术介绍
在现实信息应用系统中如：多媒体、社交网络、物联网等诸多领域每天都积累了zb级的大数据。这些数据信息丰富多样，记录形式也多种多样。因此在给定的大数据集中准确发现属于同一实体的不同记录并将其聚合在一起，使得每个实体簇在现实世界中表示同一对象这一过程显得尤为重要。传统的业务数据处理方法，同一种数据类型中根据唯一标识确定了唯一的实体，将实体相关的各项信息简单合并在一起，未对同种数据类型不同格式或者不同数据类型中的信息进行识别合并，不贴近用户的业务需求，这种情况下，同一实体在现实世界的行为和关系数据也无法进行聚合。在分析实体时，实体的重要信息无法全部进行关联，难以适应新的业务需求，后续分析往往仍需要大量的开发工作。究其原因，主要是因为在不同的数据源类型中，通过多种多样的形式记录数据，传统的方法对不同数据源中的数据未进行聚合，导致同一实体的信息分散，并没有从业务本身的需要出发，对数据进行完整性的管理。
技术实现思路
专利技术目的：本专利技术的目的是提供一种实体信息识别方法，能够对同种数据类型不同格式或者不同数据类型中的信息进行识别合并。技术方案：本专利技术所述的实体信息识别方法，包括：属性映射过程：将不同数据类型中表达同一个信息的数据进行关联和计算，将数据信息的含义、值域和约束进行统一；属性决策过程：对不同数据中属性的值可能不同的情况进行决策；实体对齐过程：对数据根据业务元素进行建模。进一步，所述属性映射过程包括以下步骤：S11：根据业务应用的需要，建立实体的本体模型；S12：根...

【技术保护点】
1.一种实体信息识别方法，其特征在于：包括：属性映射过程：将不同数据类型中表达同一个信息的数据进行关联和计算，将数据信息的含义、值域和约束进行统一；属性决策过程：对不同数据中属性的值可能不同的情况进行决策；实体对齐过程：对数据根据业务元素进行建模。

【技术特征摘要】
1.一种实体信息识别方法，其特征在于：包括：属性映射过程：将不同数据类型中表达同一个信息的数据进行关联和计算，将数据信息的含义、值域和约束进行统一；属性决策过程：对不同数据中属性的值可能不同的情况进行决策；实体对齐过程：对数据根据业务元素进行建模。2.根据权利要求1所述的实体信息识别方法，其特征在于：所述属性映射过程包括以下步骤：S11：根据业务应用的需要，建立实体的本体模型；S12：根据实体的本体模型，建立实体属性与数据属性的映射关系；S13：根据实体属性与数据属性的映射关系，将实体信息从数据中抽取出来，进行属性转换，构建成一个个单独的实体实例。3.根据权利要求2所述的实体信息识别方法，其特征在于：所述属性决策过程包括以下步骤：S21：寻找实体原属性；S22：比较步骤S13得到的转换后的实体属性的可信度与实体原属性的可信度：如果步骤S13得到的转换后的实体属性的可信度大于或等于实体原属性的可信度，则进入步骤S25；否则，进...

【专利技术属性】
技术研发人员：龙炳林，陆丰勤，
申请(专利权)人：南京茂毓通软件科技有限公司，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人