【技术实现步骤摘要】
多源文本数据智能匹配方法、装置、存储介质及设备
[0001]本专利技术涉及数据处理
,具体而言,涉及一种多源文本数据智能匹配方法、装置、存储介质及设备。
技术介绍
[0002]现如今机器学习、大数据的浪潮让企业可以根据自身存有的数据开展业务,但若要开辟新业务场景,很多公司现存数据无法满足需求,因此各个企业之间会有合作倾向,根据多方存有的数据进行自身业务拓展。然而,伴随着互联网数据安全的管理及数据价值的重要性不断提高,企业共享意愿、数据的隐私保护、不同企业间相同信息规格不同难以融合成为了企业合作的障碍。
[0003]现有技术中,在两个集团或企业的内部信息系统中进行用户匹配时,有时用户名称无法唯一标识用户,此时则需要进行地址匹配。在两个信息系统中,用户地址缺乏标准的地址书写格式,造成了同一个地点的多种地址书写方式,这增添了用户地址匹配的难度。传统的地址匹配方法主要关注地址文本之间词与词的匹配关系,无法准确地将同一地点不同表达方式下的地址相匹配。
[0004]针对上述的问题,目前尚未提出有效的解决方案。 />
技术实现思路
...
【技术保护点】
【技术特征摘要】
1.一种多源文本数据智能匹配方法,其特征在于,包括:获取不同的信息系统对应的第一文本数据,其中,每个所述信息系统的第一文本数据包括用于记录所述信息系统的地址的文本信息;采用层次聚类算法对所述第一文本数据进行聚类分析,得到多个地址类;提取每个所述地址类的地址特征信息,得到多个所述地址特征信息;基于多个所述地址特征信息对不同的所述信息系统对应的所述第一文本数据进行匹配,得到匹配结果。2.根据权利要求1所述的方法,其特征在于,在所述采用层次聚类算法对所述第一文本数据进行聚类分析,得到多个地址类之前,所述方法还包括:对所述第一文本数据进行预处理,其中,所述预处理至少包括:删除只含有数字的所述第一文本数据;删除数据量低于预设阈值的所述第一文本数据;删除所述第一文本数据中含有的不符合预设规定的字符。3.根据权利要求1所述的方法,其特征在于,在所述采用层次聚类算法对所述第一文本数据进行聚类分析,得到多个地址类之前,所述方法还包括:将所述第一文本数据传入到公共服务器中;采用分词组件对所述第一文本数据进行分词处理,得到词条列表;根据所述词条列表构建词袋模型。4.根据权利要求3所述的方法,其特征在于,所述采用层次聚类算法对所述第一文本数据进行聚类分析,得到多个地址类,包括:从所述词袋模型中随机选取测试样本进行聚类分析,得到并记录聚类数;基于所述聚类数确定多个地址类。5.根据权利要求1所述的方法,其特征在于,所述提取每个所述地址类的地址特征信息,得到多个所述地址特征信息,包括:采用加权算法计算得到每个所述地址类的权值向量,得到多个所述权值向量;获取多个所述权值向量中大于预设权值阈值的目标向量;将...
【专利技术属性】
技术研发人员:马龙飞,张禄,李香龙,徐蕙,陆斯悦,严嘉慧,丁屹峰,段大鹏,王艳松,姚斌,高鑫,胡彩娥,王健,
申请(专利权)人:国家电网有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。