一种多源异构数据融合系统技术方案

技术编号：20285257 阅读：62 留言：0更新日期：2019-02-10 17:49

本发明专利技术提供了一种多源异构数据融合系统，包括数据获取模块、数据预处理模块、匹配模块、融合模块和评价模块，所述数据获取模块用于从不同网站获取商品的多源异构数据，所述数据预处理模块用于对数据进行规范化处理，生成短文本，所述规范化处理包括分词和去除停用词，所述匹配模块用于对短文本进行匹配，所述融合模块基于文本匹配结果对数据进行融合，所述评价模块用于对数据融合效果进行评价。本发明专利技术的有益效果为：提供了一种多源异构数据融合系统，通过对数据进行预处理和文本匹配，实现了多源异构数据的融合，有助于建立完整性、准确性和一致性强的知识库。

A Multi-source Heterogeneous Data Fusion System

The invention provides a multi-source heterogeneous data fusion system, which includes data acquisition module, data preprocessing module, matching module, fusion module and evaluation module. The data acquisition module is used to obtain multi-source heterogeneous data of goods from different websites. The data preprocessing module is used to standardize data processing and generate short text. The standardization processing includes sub-modules. The matching module is used to match short text, the fusion module fuses data based on text matching results, and the evaluation module is used to evaluate the effect of data fusion. The invention provides a multi-source heterogeneous data fusion system, realizes the fusion of multi-source heterogeneous data through data preprocessing and text matching, and helps to establish a knowledge base with integrity, accuracy and consistency.

全部详细技术资料下载

【技术实现步骤摘要】
一种多源异构数据融合系统
本专利技术涉及数据融合
，具体涉及一种多源异构数据融合系统。
技术介绍
多源数据融合技术指利用相关手段将调查、分析获取到的所有信息全部综合到一起，并对信息进行统一的评价，最后得到统一的信息的技术。该技术的目的是将各种不同的数据信息进行综合，吸取不同数据源的特点，然后从中提取出统一的，比单一数据更好、更丰富的信息。目前，互联网垂直网站上行业数据丰富，数据一般是经过人工抽取和整理，知识较为密集，信息量大，数据基础好。而且每个行业都有很多同类同质数据，例如，在电商领域，每个垂直网站的商品或者产品具有描述一般属性列表形式出现，商品具有一定的相似和交叉重合性，如果直接从文本中抽取实体的属性和关系难度非常高，准确性非常低，基本无法应用。
技术实现思路
针对上述问题，本专利技术旨在提供一种多源异构数据融合系统。本专利技术的目的采用以下技术方案来实现：提供了一种多源异构数据融合系统，包括数据获取模块、数据预处理模块、匹配模块、融合模块和评价模块，所述数据获取模块用于从不同网站获取商品的多源异构数据，所述数据预处理模块用于对数据进行规范化处理，生成短文本，所述规范化处理包括分词和去除停用词，所述匹配模块用于对短文本进行匹配，所述融合模块基于文本匹配结果对数据进行融合，所述评价模块用于对数据融合效果进行评价。本专利技术的有益效果为：提供了一种多源异构数据融合系统，通过对数据进行预处理和文本匹配，实现了多源异构数据的融合，有助于建立完整性、准确性和一致性强的知识库。附图说明利用附图对本专利技术作进一步说明，但附图中的实施例不构成对本专利技术的任何限制...

【技术保护点】
1.一种多源异构数据融合系统，其特征在于，包括数据获取模块、数据预处理模块、匹配模块、融合模块和评价模块，所述数据获取模块用于从不同网站获取商品的多源异构数据，所述数据预处理模块用于对数据进行规范化处理，生成短文本，所述规范化处理包括分词和去除停用词，所述匹配模块用于对短文本进行匹配，所述融合模块基于文本匹配结果对数据进行融合，所述评价模块用于对数据融合效果进行评价。

【技术特征摘要】
1.一种多源异构数据融合系统，其特征在于，包括数据获取模块、数据预处理模块、匹配模块、融合模块和评价模块，所述数据获取模块用于从不同网站获取商品的多源异构数据，所述数据预处理模块用于对数据进行规范化处理，生成短文本，所述规范化处理包括分词和去除停用词，所述匹配模块用于对短文本进行匹配，所述融合模块基于文本匹配结果对数据进行融合，所述评价模块用于对数据融合效果进行评价。2.根据权利要求1所述的多源异构数据融合系统，其特征在于，所述匹配模块包括第一匹配模块、第二匹配模块和第三匹配模块，所述第一匹配模块用于计算短文本的第一匹配因子，所述第二匹配模块用于计算短文本的第二匹配因子，所述第三匹配模块基于第一匹配因子和第二匹配因子对短文本进行匹配。3.根据权利要求2所述的多源异构数据融合系统，其特征在于，所述第一匹配模块用于计算短文本的第一匹配因子，具体是：对于两个待匹配的短文本A和B，采用下式计算短文本的第一匹配因子：在式子中，Z1表示短文本的第一匹配因子，c1和c2表示两个待匹配的短文本A和B包含的字符数，p表示匹配的字符数，h表示换位的数目，换位的数目等于不同顺序的匹配字符数的一半；所述第一匹配因子越大，表示待匹配文本的匹配程度越高。4.根据权利要求3所述的多源异构数据融合系统，其特征在于，所述第二匹配模块用于计算短文本的第二匹配因子，具体是：对于两个待匹配的短文本A和B，将短文本看作词构成的向量，Ai和Bi分别表示短文本A和B中的第i个词，若待匹...

【专利技术属性】
技术研发人员：谢妮珍，
申请(专利权)人：广州小楠科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人