多源异构数据融合优化方法技术

技术编号：21832811 阅读：90 留言：0更新日期：2019-08-10 18:03

本发明专利技术公开了一种多源异构数据融合优化方法，包括如下步骤：A)对数据实例、类别和属性进行提取和分析，建立词库和短文本库；B)从互联网获取多源异构数据；C)对多源异构数据进行规范化处理，生成短文本；短文本有多个词构成，规范化处理包括分词和去除停用词；D)将短文本作为待匹配短文本，将待匹配短文本与短文本库中存储的短文本进行匹配，得到短文本匹配结果；E)根据短文本匹配结果对数据进行融合，建立大数据内容模型，得到数据融合结果；F)对数据融合结果进行评价，得到评价结果；评价结果包括优、良、中和差。本发明专利技术能建立完整性、准确性和一致性较强的高质量的大数据知识库。

Multi-source Heterogeneous Data Fusion Optimization Method

全部详细技术资料下载

【技术实现步骤摘要】
多源异构数据融合优化方法
本专利技术涉及数据融合领域，特别涉及一种多源异构数据融合优化方法。
技术介绍
多源数据融合技术指利用相关手段将调查、分析获取到的所有信息全部综合到一起，并对信息进行统一的评价，最后得到统一的信息的技术。该技术研发出来的目的是将各种不同的数据信息进行综合，吸取不同数据源的特点然后从中提取出统一的，比单一数据更好、更丰富的信息。目前有一些多源数据融合技术通过对数据进行预处理和文本匹配，实现了多源异构数据的融合，但其还不能建立完整性、准确性和一致性强的知识库。
技术实现思路
本专利技术要解决的技术问题在于，针对现有技术的上述缺陷，提供一种能建立完整性、准确性和一致性较强的高质量的大数据知识库的多源异构数据融合优化方法。本专利技术解决其技术问题所采用的技术方案是：构造一种多源异构数据融合优化方法，包括如下步骤：A)对数据实例、类别和属性进行提取和分析，建立词库和短文本库；B)从互联网获取多源异构数据；C)对所述多源异构数据进行规范化处理，生成短文本；所述短文本由多个词构成，所述规范化处理包括分词和去除停用词；D)将所述短文本作为待匹配短文本，将所述待匹配短文本与短文本库中存储的短文本进行匹配，得到短文本匹配结果；E)根据所述短文本匹配结果对数据进行融合，建立大数据内容模型，得到数据融合结果；F)对所述数据融合结果进行评价，得到评价结果；所述评价结果包括优、良、中和差。在本专利技术所述的多源异构数据融合优化方法中，所述步骤D)进一步包括：D1)计算所述待匹配短文本与短文本库中的短文本之间的字符匹配因子；D2)计算所述待匹配短文本与短文本库中的短...

【技术保护点】
1.一种多源异构数据融合优化方法，其特征在于，包括如下步骤：A)对数据实例、类别和属性进行提取和分析，建立词库和短文本库；B)从互联网获取多源异构数据；C)对所述多源异构数据进行规范化处理，生成短文本；所述短文本由多个词构成，所述规范化处理包括分词和去除停用词；D)将所述短文本作为待匹配短文本，将所述待匹配短文本与短文本库中存储的短文本进行匹配，得到短文本匹配结果；E)根据所述短文本匹配结果对数据进行融合，建立大数据内容模型，得到数据融合结果；F)对所述数据融合结果进行评价，得到评价结果；所述评价结果包括优、良、中和差。

【技术特征摘要】
1.一种多源异构数据融合优化方法，其特征在于，包括如下步骤：A)对数据实例、类别和属性进行提取和分析，建立词库和短文本库；B)从互联网获取多源异构数据；C)对所述多源异构数据进行规范化处理，生成短文本；所述短文本由多个词构成，所述规范化处理包括分词和去除停用词；D)将所述短文本作为待匹配短文本，将所述待匹配短文本与短文本库中存储的短文本进行匹配，得到短文本匹配结果；E)根据所述短文本匹配结果对数据进行融合，建立大数据内容模型，得到数据融合结果；F)对所述数据融合结果进行评价，得到评价结果；所述评价结果包括优、良、中和差。2.根据权利要求1所述的多源异构数据融合优化方法，其特征在于，所述步骤D)进一步包括：D1)计算所述待匹配短文本与短文本库中的短文本之间的字符匹配因子；D2)计算所述待匹配短文本与短文本库中的短文本之间的词匹配因子；D3)根据所述字符匹配因子和词匹配因子，对所述待匹配短文本与短文本库中的短文本进行匹配，计算短文本匹配因子。3.根据权利要求2所述的多源异构数据融合优化方法，其特征在于，所述字符匹配因子采用如下公式进行计算：其中，F1表示所述字符匹配因子，c1表示所述待匹配短文本包含的字符数，c2表示所述短文本库中的短文本包含的字符数，p表示匹配的字符数，h表示换位的数目。4.根据权利要求3所述的多源异...

【专利技术属性】
技术研发人员：黄红梅，何卓华，谢新屋，
申请(专利权)人：黄红梅，何卓华，谢新屋，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人