一种多源异构数据融合系统技术方案

技术编号:20285257 阅读:62 留言:0更新日期:2019-02-10 17:49
本发明专利技术提供了一种多源异构数据融合系统,包括数据获取模块、数据预处理模块、匹配模块、融合模块和评价模块,所述数据获取模块用于从不同网站获取商品的多源异构数据,所述数据预处理模块用于对数据进行规范化处理,生成短文本,所述规范化处理包括分词和去除停用词,所述匹配模块用于对短文本进行匹配,所述融合模块基于文本匹配结果对数据进行融合,所述评价模块用于对数据融合效果进行评价。本发明专利技术的有益效果为:提供了一种多源异构数据融合系统,通过对数据进行预处理和文本匹配,实现了多源异构数据的融合,有助于建立完整性、准确性和一致性强的知识库。

A Multi-source Heterogeneous Data Fusion System

The invention provides a multi-source heterogeneous data fusion system, which includes data acquisition module, data preprocessing module, matching module, fusion module and evaluation module. The data acquisition module is used to obtain multi-source heterogeneous data of goods from different websites. The data preprocessing module is used to standardize data processing and generate short text. The standardization processing includes sub-modules. The matching module is used to match short text, the fusion module fuses data based on text matching results, and the evaluation module is used to evaluate the effect of data fusion. The invention provides a multi-source heterogeneous data fusion system, realizes the fusion of multi-source heterogeneous data through data preprocessing and text matching, and helps to establish a knowledge base with integrity, accuracy and consistency.

【技术实现步骤摘要】
一种多源异构数据融合系统
本专利技术涉及数据融合
,具体涉及一种多源异构数据融合系统。
技术介绍
多源数据融合技术指利用相关手段将调查、分析获取到的所有信息全部综合到一起,并对信息进行统一的评价,最后得到统一的信息的技术。该技术的目的是将各种不同的数据信息进行综合,吸取不同数据源的特点,然后从中提取出统一的,比单一数据更好、更丰富的信息。目前,互联网垂直网站上行业数据丰富,数据一般是经过人工抽取和整理,知识较为密集,信息量大,数据基础好。而且每个行业都有很多同类同质数据,例如,在电商领域,每个垂直网站的商品或者产品具有描述一般属性列表形式出现,商品具有一定的相似和交叉重合性,如果直接从文本中抽取实体的属性和关系难度非常高,准确性非常低,基本无法应用。
技术实现思路
针对上述问题,本专利技术旨在提供一种多源异构数据融合系统。本专利技术的目的采用以下技术方案来实现:提供了一种多源异构数据融合系统,包括数据获取模块、数据预处理模块、匹配模块、融合模块和评价模块,所述数据获取模块用于从不同网站获取商品的多源异构数据,所述数据预处理模块用于对数据进行规范化处理,生成短文本,所述规范化处理包括分词和去除停用词,所述匹配模块用于对短文本进行匹配,所述融合模块基于文本匹配结果对数据进行融合,所述评价模块用于对数据融合效果进行评价。本专利技术的有益效果为:提供了一种多源异构数据融合系统,通过对数据进行预处理和文本匹配,实现了多源异构数据的融合,有助于建立完整性、准确性和一致性强的知识库。附图说明利用附图对本专利技术作进一步说明,但附图中的实施例不构成对本专利技术的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。图1是本专利技术的结构示意图;附图标记:数据获取模块1、数据预处理模块2、匹配模块3、融合模块4、评价模块5。具体实施方式结合以下实施例对本专利技术作进一步描述。参见图1,本实施例的一种多源异构数据融合系统,包括数据获取模块1、数据预处理模块2、匹配模块3、融合模块4和评价模块5,所述数据获取模块1用于从不同网站获取商品的多源异构数据,所述数据预处理模块2用于对数据进行规范化处理,生成短文本,所述规范化处理包括分词和去除停用词,所述匹配模块3用于对短文本进行匹配,所述融合模块4基于文本匹配结果对数据进行融合,所述评价模块5用于对数据融合效果进行评价。本实施例提供了一种多源异构数据融合系统,通过对数据进行预处理和文本匹配,实现了多源异构数据的融合,有助于建立完整性、准确性和一致性强的知识库。优选的,所述匹配模块3包括第一匹配模块、第二匹配模块和第三匹配模块,所述第一匹配模块用于计算短文本的第一匹配因子,所述第二匹配模块用于计算短文本的第二匹配因子,所述第三匹配模块基于第一匹配因子和第二匹配因子对短文本进行匹配;所述第一匹配模块用于计算短文本的第一匹配因子,具体是:对于两个待匹配的短文本A和B,采用下式计算短文本的第一匹配因子:在式子中,1表示短文本的第一匹配因子,c1和c2表示两个待匹配的短文本A和B包含的字符数,p表示匹配的字符数,h表示换位的数目,换位的数目等于不同顺序的匹配字符数的一半;所述第一匹配因子越大,表示待匹配文本的匹配程度越高。本优选实施例第一匹配模块以字符作为基本单位,通过确定匹配字符和换位数目,实现了第一匹配因子的准确计算,为后续短文本匹配奠定了基础。优选的,所述第二匹配模块用于计算短文本的第二匹配因子,具体是:对于两个待匹配的短文本A和B,将短文本看作词构成的向量,Ai和Bi分别表示短文本A和B中的第i个词,若待匹配短文本中的词的数量不同,则首先将向量维数较低的短文本进行增加词的操作,增加的词从预先设置的词库中随机挑选,使其维数与维数较高文本维数相同,采用下式计算短文本的第二匹配因子:在式子中,Z2表示短文本的第二匹配因子,n表示维数较高短文本向量的维数,σ表示修正因子,σ∈[0.8,1.2],用于修正增加词带来的误差;所述第二匹配因子越大,表示待匹配文本的匹配程度越高。本优选实施例第二匹配模块以词作为基本单位,将短文本转化为向量,并将待匹配文本转化为维数相同的向量,实现了第二匹配因子的准确计算,为后续短文本匹配奠定了基础。优选的,所述第三匹配模块基于第一匹配因子和第二匹配因子对短文本进行匹配,具体是:根据第一匹配因子和第二匹配因子计算短文本的匹配因子:在式子中,X表示短文本的匹配因子;设定匹配阈值X0,若X≥X0,则说明书短文本相匹配,若X<X0,则说明短文本不匹配。本优选实施例第三匹配模块通过第一匹配因子和第二匹配因子计算短文本的匹配因子,同时考虑了短文本的词性相似性和语义相似性,提升了匹配准确性,为后续数据融合奠定了基础。优选的,所述融合模块4基于文本匹配结果对数据进行融合,具体是:采集的商品名称、属性名称和属性值构成集合L={l1,l2,…,lm},m表示集合中元素的数目,根据匹配模块计算li和lj之间的匹配因子,i,j=1,2,…,m,根据匹配因子,生成匹配度矩阵:在式子中,D表示匹配度矩阵,X(li,lj)表示li和lj之间的匹配因子,i,j=1,2,…,m;若匹配度矩阵中元素的值小于匹配阈值,则记为0,将匹配度大于匹配阈值的元素进行融合,对于大于匹配阈值的两个元素,随机选择一元素作为融合结果输出。本优选实施例融合模块4根据商品名称、属性名称和属性值生成匹配度矩阵,并根据矩阵对数据进行融合,得到了准确的融合结果。优选的,所述评价模块5用于对数据融合效果进行评价,具体是:对于商品名称、属性名称和属性值构成的集合L={l1,l2,…,lm},专家对集合L中的元素进行合并,并将合并结果输出;采用下式计算融合评价因子:在式子中,Y表示融合评价因子,r1表示所述融合模块融合的输出的融合结果中元素的个数,r2表示专家进行元素合并后的输出元素的个数;所述融合评价因子越大,表示融合效果越好。本优选实施例评价模块5通过确定融合评价因子,综合考虑元素个数和专家的意见,实现了对融合结果的准确度量。采用本专利技术多源异构数据融合系统进行商品数据融合,选取5个商品进行实验,分别为商品1、商品2、商品3、商品4、商品5,对数据融合速率和数据融合准确率进行统计,同现有技术相比,产生的有益效果如下表所示:数据融合准确率提高数据融合速率提高商品129%27%商品227%26%商品326%26%商品425%24%商品524%22%通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解应当理解,可以以硬件、软件、固件、中间件、代码或其任何恰当组合来实现这里描述的实施例。对于硬件实现,处理器可以在一个或多个下列单元中实现:专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、设计用于实现这里所描述功能的其他电子单元或其组合。对于软件实现,实施例的部分或全部流程可以通过计算机程序来指令相关的硬件来完成。实现时,可以将上述程序存储在计算机可读介质中或作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方本文档来自技高网...

【技术保护点】
1.一种多源异构数据融合系统,其特征在于,包括数据获取模块、数据预处理模块、匹配模块、融合模块和评价模块,所述数据获取模块用于从不同网站获取商品的多源异构数据,所述数据预处理模块用于对数据进行规范化处理,生成短文本,所述规范化处理包括分词和去除停用词,所述匹配模块用于对短文本进行匹配,所述融合模块基于文本匹配结果对数据进行融合,所述评价模块用于对数据融合效果进行评价。

【技术特征摘要】
1.一种多源异构数据融合系统,其特征在于,包括数据获取模块、数据预处理模块、匹配模块、融合模块和评价模块,所述数据获取模块用于从不同网站获取商品的多源异构数据,所述数据预处理模块用于对数据进行规范化处理,生成短文本,所述规范化处理包括分词和去除停用词,所述匹配模块用于对短文本进行匹配,所述融合模块基于文本匹配结果对数据进行融合,所述评价模块用于对数据融合效果进行评价。2.根据权利要求1所述的多源异构数据融合系统,其特征在于,所述匹配模块包括第一匹配模块、第二匹配模块和第三匹配模块,所述第一匹配模块用于计算短文本的第一匹配因子,所述第二匹配模块用于计算短文本的第二匹配因子,所述第三匹配模块基于第一匹配因子和第二匹配因子对短文本进行匹配。3.根据权利要求2所述的多源异构数据融合系统,其特征在于,所述第一匹配模块用于计算短文本的第一匹配因子,具体是:对于两个待匹配的短文本A和B,采用下式计算短文本的第一匹配因子:在式子中,Z1表示短文本的第一匹配因子,c1和c2表示两个待匹配的短文本A和B包含的字符数,p表示匹配的字符数,h表示换位的数目,换位的数目等于不同顺序的匹配字符数的一半;所述第一匹配因子越大,表示待匹配文本的匹配程度越高。4.根据权利要求3所述的多源异构数据融合系统,其特征在于,所述第二匹配模块用于计算短文本的第二匹配因子,具体是:对于两个待匹配的短文本A和B,将短文本看作词构成的向量,Ai和Bi分别表示短文本A和B中的第i个词,若待匹...

【专利技术属性】
技术研发人员:谢妮珍
申请(专利权)人:广州小楠科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1