数据匹配系统及方法技术方案

技术编号:20802206 阅读:26 留言:0更新日期:2019-04-10 02:49
本发明专利技术提供一种数据匹配系统及方法,接收字符串的输入;查询名称中每一名称单词在第一数据库中对应的出现次数和地址中每一地址单词在第二数据库中对应的出现次数;分别按照名称和地址单词出现的次数由低至高顺序选取出现次数相对较低的若干名称单词和地址单词;获取该些名称单词中每一名称单词对应的含有该名称单词的所有名称及该些名称各自对应的识别信息和获取选取出的该些地址单词中每一地址单词对应的含有该地址单词的所有地址及该些地址各自对应的识别信息;判断每一名称单词对应的识别信息和每一地址单词对应的识别信息是否均含有相同的识别信息,若是则将相同的识别信息对应的名称和地址存储至匹配集合中,实现数据的快速识别和匹配。

【技术实现步骤摘要】
数据匹配系统及方法
本专利技术涉及通信
,特别涉及一种数据匹配系统和数据匹配方法。
技术介绍
目前处于大数据时代,需要数据的处理量特别庞大,例如全球酒店数量庞大,相应的在线酒店数据相当庞大,处理数据工作特别繁琐。现在大型酒店系统累积大量酒店信息,在与更多在线酒店系统与供应商交互数据过程中,会产生大量重复酒店信息,这样重复冗余的信息需要大量的人力资源去进行匹配与去重。这种情况下,系统需要一种自动化的方法来替代大量的人工工作,释放人力资源,提升识别与匹配效率。下面举例说明现有的数据匹配例如酒店数据匹配所存在的不足:1)对酒店名称的变化不能做良好的适应,因不同人录入的名字有一定区别就可能无法准确匹配;2)盲目依赖经纬度以及城市等信息,这些数据在酒店数据中常有错漏,使用错误的信息将导致匹配的结果失效;3)不能很好的利用已有酒店数据库中大量的酒店信息,无法正确认识酒店信息中不同单词拥有不一样的权重比,有些单词拥有更好的区分度。(例如:ShanghaiShangri-LaHotel(上海香格里拉酒店)这个名字中,Shangri-La这个词的重要性就比Shanghai以及Hotel这两个单词重要的多);4)匹配结果不够准确,后续需要大量的人工介入排查匹配,耗费人力。
技术实现思路
本专利技术要解决的技术问题是为了克服现有技术中的在线数据需要大量的人力资源进行匹配与去重导致耗时耗力的缺陷,提供一种数据匹配系统及方法。本专利技术是通过下述技术方案来解决上述技术问题的:本专利技术提供一种数据匹配系统,其特点在于,其存储有基础数据库、第一数据库、第二数据库、第三数据库和第四数据库,该基础数据库中存储有一一对应的名称、地址和唯一的识别信息,该第一数据库包括该基础数据库中所有名称中各不同的名称单词在所有名称中出现的次数,该第二数据库包括该基础数据库中所有地址中各不同的地址单词在所有地址中出现的次数,该第三数据库包括各不同的名称单词和每一名称单词对应的名称中包含有该名称单词的所有名称及该些名称各自对应的识别信息,该第四数据库包括各不同的地址单词和每一地址单词对应的地址中包含有该地址单词的所有地址及该些地址各自对应的识别信息;该数据匹配系统包括一输入模块、一查询模块、一选取模块、一获取模块和一判断模块;该输入模块用于接收一字符串的输入,该字符串包括名称和地址;该查询模块用于分别查询该名称中每一名称单词在该第一数据库中对应的出现的次数和该地址中每一地址单词在该第二数据库中对应的出现的次数;该选取模块用于分别按照名称单词和地址单词出现的次数由低至高顺序选取出现的次数相对较低的若干名称单词和若干地址单词;该获取模块用于从该第三数据库中获取选取出的该些名称单词中每一名称单词对应的含有该名称单词的所有名称及该些名称各自对应的识别信息和从该第四数据库中获取选取出的该些地址单词中每一地址单词对应的含有该地址单词的所有地址及该些地址各自对应的识别信息;该判断模块用于判断获取的每一名称单词对应的识别信息和每一地址单词对应的识别信息是否均含有相同的识别信息,若是则将该相同的识别信息对应的名称和地址存储至一匹配集合中。本专利技术还提供一种数据匹配方法,其特点在于,其存储有基础数据库、第一数据库、第二数据库、第三数据库和第四数据库,该基础数据库中存储有一一对应的名称、地址和唯一的识别信息,该第一数据库包括该基础数据库中所有名称中各不同的名称单词在所有名称中出现的次数,该第二数据库包括该基础数据库中所有地址中各不同的地址单词在所有地址中出现的次数,该第三数据库包括各不同的名称单词和每一名称单词对应的名称中包含有该名称单词的所有名称及该些名称各自对应的识别信息,该第四数据库包括各不同的地址单词和每一地址单词对应的地址中包含有该地址单词的所有地址及该些地址各自对应的识别信息;该数据匹配方法包括以下步骤:S1、接收一字符串的输入,该字符串包括名称和地址;S2、分别查询该名称中每一名称单词在该第一数据库中对应的出现的次数和该地址中每一地址单词在该第二数据库中对应的出现的次数;S3、分别按照名称单词和地址单词出现的次数由低至高顺序选取出现的次数相对较低的若干名称单词和若干地址单词;S4、从该第三数据库中获取选取出的该些名称单词中每一名称单词对应的含有该名称单词的所有名称及该些名称各自对应的识别信息和从该第四数据库中获取选取出的该些地址单词中每一地址单词对应的含有该地址单词的所有地址及该些地址各自对应的识别信息;S5、判断获取的每一名称单词对应的识别信息和每一地址单词对应的识别信息是否均含有相同的识别信息,若是则将该相同的识别信息对应的名称和地址存储至一匹配集合中。在符合本领域常识的基础上,上述各优选条件,可任意组合,即得本专利技术各较佳实例。本专利技术的积极进步效果在于:本专利技术的数据匹配系统及方法,以大数据样本为基础,通过自动化处理方式,能够实现数据的快速识别与匹配,在实际酒店数据信息处理中,精确率超过99%。附图说明图1为本专利技术的较佳实施例的传真发送系统的结构框图。图2为本专利技术的较佳实施例的传真发送方法的流程图。具体实施方式下面通过实施例的方式进一步说明本专利技术,但并不因此将本专利技术限制在所述的实施例范围之中。本实施例提供一种数据匹配系统,其存储有基础数据库、第一数据库、第二数据库、第三数据库和第四数据库,该基础数据库中存储有一一对应的名称、地址和唯一的识别信息,该第一数据库包括该基础数据库中所有名称中各不同的名称单词在所有名称中出现的次数,该第二数据库包括该基础数据库中所有地址中各不同的地址单词在所有地址中出现的次数,该第三数据库包括各不同的名称单词和每一名称单词对应的名称中包含有该名称单词的所有名称及该些名称各自对应的识别信息,该第四数据库包括各不同的地址单词和每一地址单词对应的地址中包含有该地址单词的所有地址及该些地址各自对应的识别信息;如图1所示,该数据匹配系统包括一输入模块1、一查询模块2、一选取模块3、一获取模块4和一判断模块5。下面具体说明各功能模块所具备的功能:该输入模块1用于接收一字符串的输入,该字符串包括名称和地址;该查询模块2用于分别查询该名称中每一名称单词在该第一数据库中对应的出现的次数和该地址中每一地址单词在该第二数据库中对应的出现的次数;该选取模块3用于分别按照名称单词和地址单词出现的次数由低至高顺序选取出现的次数相对较低的若干名称单词和若干地址单词;该获取模块4用于从该第三数据库中获取选取出的该些名称单词中每一名称单词对应的含有该名称单词的所有名称及该些名称各自对应的识别信息和从该第四数据库中获取选取出的该些地址单词中每一地址单词对应的含有该地址单词的所有地址及该些地址各自对应的识别信息;该判断模块5用于判断获取的每一名称单词对应的识别信息和每一地址单词对应的识别信息是否均含有相同的识别信息,若是则将该相同的识别信息对应的名称和地址存储至一匹配集合中。本实施例还提供一种数据匹配方法,其存储有基础数据库、第一数据库、第二数据库、第三数据库和第四数据库,该基础数据库中存储有一一对应的名称、地址和唯一的识别信息,该第一数据库包括该基础数据库中所有名称中各不同的名称单词在所有名称中出现的次数,该第二数据库包括该基础数据库中所有地址中各不同的地址单词在所有地址本文档来自技高网...

【技术保护点】
1.一种数据匹配系统,其特征在于,其存储有基础数据库、第一数据库、第二数据库、第三数据库和第四数据库,该基础数据库中存储有一一对应的名称、地址和唯一的识别信息,该第一数据库包括该基础数据库中所有名称中各不同的名称单词在所有名称中出现的次数,该第二数据库包括该基础数据库中所有地址中各不同的地址单词在所有地址中出现的次数,该第三数据库包括各不同的名称单词、与每一名称单词对应的名称中包含有该每一名称单词的所有名称、与该包含有该每一名称单词的所有名称各自对应的识别信息,该第四数据库包括各不同的地址单词、与每一地址单词对应的地址中包含有该每一地址单词的所有地址、与该包含有该每一地址单词的所有地址各自对应的识别信息;该数据匹配系统包括一输入模块、一查询模块、一选取模块、一获取模块和一判断模块;该输入模块用于接收一字符串的输入,该字符串包括名称和地址;该查询模块用于分别查询该名称中每一名称单词在该第一数据库中对应的出现的次数和该地址中每一地址单词在该第二数据库中对应的出现的次数;该选取模块用于分别按照名称单词和地址单词出现的次数由低至高顺序选取出现的次数相对较低的若干名称单词和若干地址单词;该获取模块用于从该第三数据库中获取选取出的该些名称单词中每一名称单词对应的含有该名称单词的所有名称及该些名称各自对应的识别信息和从该第四数据库中获取选取出的该些地址单词中每一地址单词对应的含有该地址单词的所有地址及该些地址各自对应的识别信息;该判断模块用于判断获取的每一名称单词对应的识别信息和每一地址单词对应的识别信息是否均含有相同的识别信息,若是则将该相同的识别信息对应的名称和地址存储至一匹配集合中。...

【技术特征摘要】
1.一种数据匹配系统,其特征在于,其存储有基础数据库、第一数据库、第二数据库、第三数据库和第四数据库,该基础数据库中存储有一一对应的名称、地址和唯一的识别信息,该第一数据库包括该基础数据库中所有名称中各不同的名称单词在所有名称中出现的次数,该第二数据库包括该基础数据库中所有地址中各不同的地址单词在所有地址中出现的次数,该第三数据库包括各不同的名称单词、与每一名称单词对应的名称中包含有该每一名称单词的所有名称、与该包含有该每一名称单词的所有名称各自对应的识别信息,该第四数据库包括各不同的地址单词、与每一地址单词对应的地址中包含有该每一地址单词的所有地址、与该包含有该每一地址单词的所有地址各自对应的识别信息;该数据匹配系统包括一输入模块、一查询模块、一选取模块、一获取模块和一判断模块;该输入模块用于接收一字符串的输入,该字符串包括名称和地址;该查询模块用于分别查询该名称中每一名称单词在该第一数据库中对应的出现的次数和该地址中每一地址单词在该第二数据库中对应的出现的次数;该选取模块用于分别按照名称单词和地址单词出现的次数由低至高顺序选取出现的次数相对较低的若干名称单词和若干地址单词;该获取模块用于从该第三数据库中获取选取出的该些名称单词中每一名称单词对应的含有该名称单词的所有名称及该些名称各自对应的识别信息和从该第四数据库中获取选取出的该些地址单词中每一地址单词对应的含有该地址单词的所有地址及该些地址各自对应的识别信息;该判断模块用于判断获取的每一名称单词对应的识别信息和每一地址单词对应的识别信息是否均含有相同的识别信息,若是则将该相同...

【专利技术属性】
技术研发人员:杨博天许凯
申请(专利权)人:携程计算机技术上海有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1