当前位置: 首页 > 专利查询>黄红梅专利>正文

多源异构数据融合优化方法技术

技术编号:21832811 阅读:90 留言:0更新日期:2019-08-10 18:03
本发明专利技术公开了一种多源异构数据融合优化方法,包括如下步骤:A)对数据实例、类别和属性进行提取和分析,建立词库和短文本库;B)从互联网获取多源异构数据;C)对多源异构数据进行规范化处理,生成短文本;短文本有多个词构成,规范化处理包括分词和去除停用词;D)将短文本作为待匹配短文本,将待匹配短文本与短文本库中存储的短文本进行匹配,得到短文本匹配结果;E)根据短文本匹配结果对数据进行融合,建立大数据内容模型,得到数据融合结果;F)对数据融合结果进行评价,得到评价结果;评价结果包括优、良、中和差。本发明专利技术能建立完整性、准确性和一致性较强的高质量的大数据知识库。

Multi-source Heterogeneous Data Fusion Optimization Method

【技术实现步骤摘要】
多源异构数据融合优化方法
本专利技术涉及数据融合领域,特别涉及一种多源异构数据融合优化方法。
技术介绍
多源数据融合技术指利用相关手段将调查、分析获取到的所有信息全部综合到一起,并对信息进行统一的评价,最后得到统一的信息的技术。该技术研发出来的目的是将各种不同的数据信息进行综合,吸取不同数据源的特点然后从中提取出统一的,比单一数据更好、更丰富的信息。目前有一些多源数据融合技术通过对数据进行预处理和文本匹配,实现了多源异构数据的融合,但其还不能建立完整性、准确性和一致性强的知识库。
技术实现思路
本专利技术要解决的技术问题在于,针对现有技术的上述缺陷,提供一种能建立完整性、准确性和一致性较强的高质量的大数据知识库的多源异构数据融合优化方法。本专利技术解决其技术问题所采用的技术方案是:构造一种多源异构数据融合优化方法,包括如下步骤:A)对数据实例、类别和属性进行提取和分析,建立词库和短文本库;B)从互联网获取多源异构数据;C)对所述多源异构数据进行规范化处理,生成短文本;所述短文本由多个词构成,所述规范化处理包括分词和去除停用词;D)将所述短文本作为待匹配短文本,将所述待匹配短文本与短文本库中存储的短文本进行匹配,得到短文本匹配结果;E)根据所述短文本匹配结果对数据进行融合,建立大数据内容模型,得到数据融合结果;F)对所述数据融合结果进行评价,得到评价结果;所述评价结果包括优、良、中和差。在本专利技术所述的多源异构数据融合优化方法中,所述步骤D)进一步包括:D1)计算所述待匹配短文本与短文本库中的短文本之间的字符匹配因子;D2)计算所述待匹配短文本与短文本库中的短文本之间的词匹配因子;D3)根据所述字符匹配因子和词匹配因子,对所述待匹配短文本与短文本库中的短文本进行匹配,计算短文本匹配因子。在本专利技术所述的多源异构数据融合优化方法中,所述字符匹配因子采用如下公式进行计算:其中,F1表示所述字符匹配因子,c1表示所述待匹配短文本包含的字符数,c2表示所述短文本库中的短文本包含的字符数,p表示匹配的字符数,h表示换位的数目。在本专利技术所述的多源异构数据融合优化方法中,所述词匹配因子采用如下公式进行计算:其中,F2表示所述词匹配因子,n表示维数较高短文本向量的维数,σ表示修正因子,σ∈[0.9,1.3],用于修正增加词带来的误差,Ai为所述待匹配短文本中的第i个词,Bi为短文本库中的短文本中的第i个词。在本专利技术所述的多源异构数据融合优化方法中,所述短文本匹配因子采用如下公式进行计算:其中,Y表示短文本的匹配因子;设定匹配阈值Y0,若Y≥Y0,则说明所述待匹配短文本与短文本库中的短文本相匹配,若Y<Y0,则说明所述待匹配短文本与短文本库中的短文本不匹配。在本专利技术所述的多源异构数据融合优化方法中,所述步骤E)具体为:将采集的商品名称、属性名称和属性值构成集合L={l1,l2,…,lm},m表示集合中元素的数目,计算li和lj之间的短文本匹配因子,i,j=1,2,…,m,根据短文本匹配因子,生成匹配度矩阵:其中,Z表示匹配度矩阵,Y(li,lj)表示li和lj之间的短文本匹配因子,i,j=1,2,…,m。在本专利技术所述的多源异构数据融合优化方法中,若所述匹配度矩阵中元素的值小于匹配阈值,则记为0,将匹配度大于所述匹配阈值的元素进行融合,对于大于匹配阈值的两个元素,将匹配度较大的元素作为融合结果输出。实施本专利技术的多源异构数据融合优化方法,具有以下有益效果:由于对数据实例、类别和属性进行提取和分析建立词库和短文本库;从互联网获取多源异构数据;对多源异构数据进行规范化处理,生成短文本;将短文本作为待匹配短文本,将待匹配短文本与短文本库中存储的短文本进行匹配,得到短文本匹配结果;根据短文本匹配结果对数据进行融合,建立大数据内容模型,得到数据融合结果;对数据融合结果进行评价,得到评价结果;本专利技术能实现多源异构数据的融合,能建立完整性、准确性和一致性较强的高质量的大数据知识库。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术多源异构数据融合优化方法一个实施例中的流程图;图2为所述实施例中将短文本作为待匹配短文本,将待匹配短文本与短文本库中存储的短文本进行匹配,得到短文本匹配结果的具体流程图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。在本专利技术多源异构数据融合优化方法实施例中,该多源异构数据融合优化方法的流程图如图1所示。图1中,该多源异构数据融合优化方法包括如下步骤:步骤S01对数据实例、类别和属性进行提取和分析建立词库和短文本库:本步骤中,对数据实例、类别和属性进行提取和分析,在云端服务器中建立词库和短文本库,其中,词库中存储有海量的词,短文本库中存储有海量的短文本,短文本由若干个词语构成。步骤S02从互联网多源异构数据:本步骤中,从互联网获取多源异构数据。步骤S03对多源异构数据进行规范化处理,生成短文本:本步骤中,对多源异构数据进行规范化处理,消减异构数据的歧义,生成短文本,其中,短文本由多个词构成,规范化处理包括分词和去除停用词。步骤S04将短文本作为待匹配短文本,将待匹配短文本与短文本库中存储的短文本进行匹配,得到短文本匹配结果:本步骤中,将短文本作为生成短文本,将该待匹配短文本与短文本库中存储的短文本进行匹配,也就是将该待匹配短文本与短文本库中存储的短文本进行对比,然后得到短文本匹配结果。步骤S05根据短文本匹配结果对数据进行融合,建立大数据内容模型,得到数据融合结果:本步骤中,根据上述短文本匹配结果对数据进行融合,建立大数据内容模型(可以是现有技术中的模型,也可以是独创的模型),最终得到高质量的数据融合结果。步骤S06对数据融合结果进行评价,得到评价结果:本步骤中,对数据融合结果进行评价,得到评价结果。该评价结果包括优、良、中和差等四个等级。本专利技术能实现多源异构数据的融合,能建立完整性、准确性和一致性较强的高质量的大数据知识库。对于本实施例而言,上述步骤S04还可进一步细化,其细化后的流程图如图2所示。图2中,该步骤S04进一步包括如下步骤:步骤S41计算待匹配短文本与短文本库中的短文本之间的字符匹配因子:本步骤中,计算待匹配短文本与短文本库中的短文本之间的字符匹配因子。具体而言,字符匹配因子采用如下公式进行计算:其中,其中,F1表示字符匹配因子,c1表示待匹配短文本包含的字符数,c2表示短文本库中的短文本包含的字符数,p表示匹配的字符数,h表示换位的数目。换位的数目等于不同顺序的匹配字符数的一半;字符匹配因子越大,表示待匹配文本的匹配程度越高。本步骤以字符作为基本单位,通过确定匹配字符和换位数目,实现字符匹配因子的准确计算,为后续短文本匹配奠定了基础。步骤S42计算待匹配短文本本文档来自技高网...

【技术保护点】
1.一种多源异构数据融合优化方法,其特征在于,包括如下步骤:A)对数据实例、类别和属性进行提取和分析,建立词库和短文本库;B)从互联网获取多源异构数据;C)对所述多源异构数据进行规范化处理,生成短文本;所述短文本由多个词构成,所述规范化处理包括分词和去除停用词;D)将所述短文本作为待匹配短文本,将所述待匹配短文本与短文本库中存储的短文本进行匹配,得到短文本匹配结果;E)根据所述短文本匹配结果对数据进行融合,建立大数据内容模型,得到数据融合结果;F)对所述数据融合结果进行评价,得到评价结果;所述评价结果包括优、良、中和差。

【技术特征摘要】
1.一种多源异构数据融合优化方法,其特征在于,包括如下步骤:A)对数据实例、类别和属性进行提取和分析,建立词库和短文本库;B)从互联网获取多源异构数据;C)对所述多源异构数据进行规范化处理,生成短文本;所述短文本由多个词构成,所述规范化处理包括分词和去除停用词;D)将所述短文本作为待匹配短文本,将所述待匹配短文本与短文本库中存储的短文本进行匹配,得到短文本匹配结果;E)根据所述短文本匹配结果对数据进行融合,建立大数据内容模型,得到数据融合结果;F)对所述数据融合结果进行评价,得到评价结果;所述评价结果包括优、良、中和差。2.根据权利要求1所述的多源异构数据融合优化方法,其特征在于,所述步骤D)进一步包括:D1)计算所述待匹配短文本与短文本库中的短文本之间的字符匹配因子;D2)计算所述待匹配短文本与短文本库中的短文本之间的词匹配因子;D3)根据所述字符匹配因子和词匹配因子,对所述待匹配短文本与短文本库中的短文本进行匹配,计算短文本匹配因子。3.根据权利要求2所述的多源异构数据融合优化方法,其特征在于,所述字符匹配因子采用如下公式进行计算:其中,F1表示所述字符匹配因子,c1表示所述待匹配短文本包含的字符数,c2表示所述短文本库中的短文本包含的字符数,p表示匹配的字符数,h表示换位的数目。4.根据权利要求3所述的多源异...

【专利技术属性】
技术研发人员:黄红梅何卓华谢新屋
申请(专利权)人:黄红梅何卓华谢新屋
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1