【技术实现步骤摘要】
文本数据比较方法及装置
[0001]本申请涉及信息处理
,特别是涉及一种文本数据比较方法及装置。
技术介绍
[0002]随着数据采集和存储成本的降低,数据在数量上呈现出爆发式增长,但同时也对数据关联、融合方面提出越来越多的要求,数据关联、融合方面面临越来越多的挑战。数据集成整编作为架接在原始数据与高价值数据之间一道关键桥梁,在基于数据的统计分析中起着越来越重要的作用,也成为数据处理中越来越基础而又繁重的工作。
[0003]数据字典表作为当前数据库系统中对数据的数据项等元信息进行定义的基础数据,是整个数据库系统应用和理解的关键信息,因而数据字典表的比对、关联和拉通在数据集成过程中具有重要意义。
[0004]在实现数据汇总、融合统一的过程中,对异构数据库或是不同时间点的数据进行比对关联则是数据整编集成以及更新的关键一步,尤其对于描述数据库中数据项、数据结构等元信息的数据字典显得格外重要。当前业内普遍采用数据仓库的抽取转换(Extract
‑
Transform
‑
Load, ...
【技术保护点】
【技术特征摘要】
1.一种文本数据比较方法,其特征在于,所述方法包括:获取两个数据字典表中的文本数据项集合,并对两个所述文本数据项集合进行分词处理,得到两个所述文本数据项集合中每一个元素的中文词语集合;根据两个所述文本数据项集合中每一个元素的中文词语集合,计算两个文本数据项集合的元素之间的相似性度量,并通过预设相似比阈值对所述相似性度量进行预处理,得到相似度量矩阵;根据所述相似度量矩阵和两个所述文本数据项集合,将两个文本数据项集合比对分析问题转化为带权二分图的匹配问题;采用KM算法对所述带权二分图的匹配问题进行求解,得到两个所述文本数据项集合之间的一组全局最优的匹配关系。2.根据权利要求1所述的方法,其特征在于,获取两个数据字典表中的文本数据项集合,并对两个所述文本数据项集合进行分词处理,得到两个所述文本数据项集合中每一个元素的中文词语集合,包括:获取两个数据字典表中的文本数据项集合;采用基于统计的分词方法对两个所述文本数据项集合中的元素进行分词处理,得到两个所述文本数据项集合中每一个元素的中文词语集合。3.根据权利要求1所述的方法,其特征在于,相似度量矩阵的行和列分别与第一个文本数据项集合中元素和第二个文本数据项集合中元素对应;根据两个所述文本数据项集合中每一个元素的中文词语集合,计算两个文本数据项集合的元素之间的相似性度量,并通过预设相似比阈值对所述相似性度量进行预处理,得到相似度量矩阵,包括:根据两个所述文本数据项集合中每一个元素的中文词语集合,计算两个文本数据项集合的元素之间的相似性度量;当两个文本数据项集合的元素之间的相似性度量大于等于预设相似比阈值时,相似度量矩阵对应位置的元素等于相似性度量;当两个文本数据项集合的元素之间的相似性度量小于预设相似比阈值时,相似度量矩阵对应位置的元素等于0。4.根据权利要求1所述的方法,其特征在于,根据两个所述文本数据项集合中每一个元素的中文词语集合,计算两个文本数据项集合的元素之间的相似性度量,并通过预设相似比阈值对所述相似性度量进行预处理,得到相似度量矩阵,步骤中所述相似性度量的计算公式为:其中,为相似比,为第一个文本数据项集合中第个元素包括的中文词语集合,为第二个文本数据项集合中第个元素包括的中文词语集合,是元素个数计数操作。5.一种文本数据比较方法,其特征在于,所述方法包括:获取两个数据字典表中的文本数据项集合,并对两个所述文本数据项集合进行分词处
理,得到两个所述文本数据项集合中每一个元素的中文词语集合;根据两个所述文本数据项集合中每一个元素的中文词语集合,计算两个文本数据项集合的元素之间的相似性度量,并通过预设相似比阈值对所述相似性度量进行预处理,得到相似度量矩阵;根据相似度量矩...
【专利技术属性】
技术研发人员:张万鹏,张虎,谷学强,胡丽,项凤涛,王超,杨景照,张煜,
申请(专利权)人:中国人民解放军国防科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。