一种业务数据自动匹配的方法及设备技术

技术编号:25600468 阅读:31 留言:0更新日期:2020-09-11 23:57
本发明专利技术提供一种业务数据自动匹配的方法及设备,该方法包括:利用自然语言处理NLP技术对业务数据中各预设字段的词语进行分词处理,确定各预设字段的词语的不同子词及词向量特征;根据词语的不同子词,以及基准词及该基准词的同义词库,将同一预设字段的词语与基准词及同义词库中的同义词进行匹配;若未匹配到完全一致的基准词或同义词,根据词语的不同子词及词向量特征,基于余弦相似度算法,将同一预设字段的词语与基准词或同义词进行匹配,根据所有预设字段对应的词语的匹配结果,确定业务数据的匹配结果。本发明专利技术提供的业务数据自动匹配的方法及设备,解决了现有业务数据标准化方法存在的业务数据自动匹配概率低和标准化质量低的问题。

【技术实现步骤摘要】
一种业务数据自动匹配的方法及设备
本专利技术涉及业务数据标准化领域,特别涉及一种业务数据自动匹配的方法及设备。
技术介绍
在进行业务数据分析时,为了提升数据质量,通常先将业务数据标准化,利用标准化后的数据进行数据分析。目前业务数据标准化的过程中只有各类别待分析的业务数据与基准数据均匹配时才能对码成功,但是在实际应用中业务数据千差万别,各类别业务数据在不同统筹区、不同业务系统中各不相同,因此业务数据标准化的工作量很大。在业务系统根据用户提交的业务单据录入业务数据后,根据经验人工识别各类别数据与系统中具体哪个类别的哪个数据匹配,工作量非常巨大,运营成本高,且出错率高。而采用现有的匹配算法进行业务数据的匹配时,由于真实数据的差异很大,因此对不同名称,但是含义相同的业务数据实现智能化自动匹配的概率极低,并不能满足对效率的需求。因此,现有的业务数据标准化方法存在业务数据自动匹配概率低和业务数据标准化质量低的问题。
技术实现思路
本专利技术提供了一种业务数据自动匹配的方法及设备,用以解决现有的业务数据标准化方法存在的业务数据自动匹配概率低和业务数据标准化质量低的问题。根据本专利技术实施例的第一方面,提供一种业务数据自动匹配的方法,该方法包括:获取待匹配的业务数据,所述业务数据包括至少一个预设字段对应的词语;利用自然语言处理NLP技术对各预设字段的词语进行分词处理,确定所述各预设字段的词语的不同子词及对应的词向量特征;根据所述各预设字段的词语的不同子词,以及各预设字段的基准词及该基准词的同义词库,将同一预设字段对应的词语与基准词及同义词库中的同义词进行匹配;若未匹配到完全一致的基准词或同义词,根据所述各预设字段的词语的不同子词及对应的词向量特征,基于余弦相似度算法,将同一预设字段对应的词语与基准词或同义词库中的同义词进行匹配,若匹配成功,将所述词语作为新的同义词添加到所述同义词所属的同义词库;根据所有预设字段对应的词语的匹配结果,确定所述业务数据的匹配结果。可选地,将同一预设字段对应的词语与基准词及同义词库中的同义词进行匹配,包括:将同一预设字段对应的词语的各子词,分别与基准词及同义词库中的同义词中相应的子词进行比对,确定是否相同;确定各子词在所述词语和对应的基准词或同义词中的位置相同,且各子词比对结果为相同时,确定匹配成功。可选地,所述基于余弦相似度算法,将同一预设字段对应的词语与基准词或同义词库中的同义词进行匹配,包括:分别将同一预设字段对应的词语的各子词,与基准词或任一同义词中相应的子词进行比对,确定是否相同;若子词的比对结果为不相同,根据所述子词对应的词向量特征,利用余弦相似度算法计算对应的余弦相似度,根据所述子词对应的余弦相似度是否大于预设阈值,确定所述子词是否同义;根据各子词是否相同或同义的比对结果,确定是否匹配成功。可选地,所述根据各子词是否相同或同义,确定是否匹配成功,包括:确定各子词在所述词语和对应的基准词或任一同义词中的位置相同,且各子词的比对结果为同义时,确定匹配成功;或者确定各子词在所述词语和对应的基准词或任一同义词中的位置相同,且部分子词的比对结果为同义,另一部分的子词的比对结果为相同时,确定匹配成功。可选地,还包括:确定与所述词语匹配成功的结果为多个或未匹配成功时,输出匹配结果及对所述匹配结果进行复核的提示信息。可选地,确定与所述词语未匹配成功时输出匹配结果,包括:确定与所述词语匹配成功的结果为多个时,输出第一标识的不匹配结果;若比对结果不完全一致时,输出第二标识的不匹配结果;确定各子词在所述词语和对应的基准词或任一同义词中的位置不同,且各子词的比对结果为同义或相同时,输出第三标识的不匹配结果。可选地,还包括:收到对匹配结果进行复核的指示信息时,输出匹配成功的词语及与该词语匹配成功的基准词或同义词,及输出未匹配成功的词语及对应的第一标识或第二标识或第三标识的不匹配结果。根据本专利技术实施例的第二方面,提供一种业务数据自动匹配的设备,包括:业务数据获取模块,用于获取待匹配的业务数据,所述业务数据包括至少一个预设字段对应的词语;分词模块,用于利用自然语言处理NLP技术对各预设字段的词语进行分词处理,确定所述各预设字段的词语的不同子词及对应的词向量特征;第一匹配模块,用于根据所述各预设字段的词语的不同子词,以及各预设字段的基准词及该基准词的同义词库,将同一预设字段对应的词语与基准词及同义词库中的同义词进行匹配;第二匹配模块,用于若未匹配到完全一致的基准词或同义词,根据所述各预设字段的词语的不同子词及对应的词向量特征,基于余弦相似度算法,将同一预设字段对应的词语与基准词或同义词库中的同义词进行匹配,若匹配成功,将所述词语作为新的同义词添加到所述同义词所属的同义词库;匹配确定模块,用于根据所有预设字段对应的词语的匹配结果,确定所述业务数据的匹配结果。可选地,所述第一匹配模块将同一预设字段对应的词语与基准词及同义词库中的同义词进行匹配,包括:将同一预设字段对应的词语的各子词,分别与基准词及同义词库中的同义词中相应的子词进行比对,确定是否相同;确定各子词在所述词语和对应的基准词或同义词中的位置相同,且各子词比对结果为相同时,确定匹配成功。可选地,所述第二匹配模块基于余弦相似度算法,将同一预设字段对应的词语与基准词或同义词库中的同义词进行匹配,包括:分别将同一预设字段对应的词语的各子词,与基准词或任一同义词中相应的子词进行比对,确定是否相同;若子词的比对结果为不相同,根据所述子词对应的词向量特征,利用余弦相似度算法计算对应的余弦相似度,根据所述子词对应的余弦相似度是否大于预设阈值,确定所述子词是否同义;根据各子词是否相同或同义的比对结果,确定是否匹配成功。可选地,所述第二匹配模块根据各子词是否相同或同义,确定是否匹配成功,包括:确定各子词在所述词语和对应的基准词或任一同义词中的位置相同,且各子词的比对结果为同义时,确定匹配成功;或者确定各子词在所述词语和对应的基准词或任一同义词中的位置相同,且部分子词的比对结果为同义,另一部分的子词的比对结果为相同时,确定匹配成功。可选地,所述匹配确定模块用于:确定与所述词语匹配成功的结果为多个或未匹配成功时,输出匹配结果及对所述匹配结果进行复核的提示信息。可选地,所述匹配确定模块确定与所述词语未匹配成功时输出匹配结果,包括:确定与所述词语匹配成功的结果为多个时,输出第一标识的不匹配结果;若比对结果不完全一致时,输出第二标识的不匹配结果;确定各子词在所述词语和对应的基准词或任一同义词中的位置不同,且各子词的比对结果为同义或相同时,输出第三标识的不匹配结果。可选地,所述匹配确定模块还用于:收到对匹配结果进行复核的指示信息时,输出匹本文档来自技高网...

【技术保护点】
1.一种业务数据自动匹配的方法,其特征在于,包括:/n获取待匹配的业务数据,所述业务数据包括至少一个预设字段对应的词语;/n利用自然语言处理NLP技术对各预设字段的词语进行分词处理,确定所述各预设字段的词语的不同子词及对应的词向量特征;/n根据所述各预设字段的词语的不同子词,以及各预设字段的基准词及该基准词的同义词库,将同一预设字段对应的词语与基准词及同义词库中的同义词进行匹配;/n若未匹配到完全一致的基准词或同义词,根据所述各预设字段的词语的不同子词及对应的词向量特征,基于余弦相似度算法,将同一预设字段对应的词语与基准词或同义词库中的同义词进行匹配,若匹配成功,将所述词语作为新的同义词添加到所述同义词所属的同义词库;/n根据所有预设字段对应的词语的匹配结果,确定所述业务数据的匹配结果。/n

【技术特征摘要】
1.一种业务数据自动匹配的方法,其特征在于,包括:
获取待匹配的业务数据,所述业务数据包括至少一个预设字段对应的词语;
利用自然语言处理NLP技术对各预设字段的词语进行分词处理,确定所述各预设字段的词语的不同子词及对应的词向量特征;
根据所述各预设字段的词语的不同子词,以及各预设字段的基准词及该基准词的同义词库,将同一预设字段对应的词语与基准词及同义词库中的同义词进行匹配;
若未匹配到完全一致的基准词或同义词,根据所述各预设字段的词语的不同子词及对应的词向量特征,基于余弦相似度算法,将同一预设字段对应的词语与基准词或同义词库中的同义词进行匹配,若匹配成功,将所述词语作为新的同义词添加到所述同义词所属的同义词库;
根据所有预设字段对应的词语的匹配结果,确定所述业务数据的匹配结果。


2.根据权利要求1所述的方法,其特征在于,将同一预设字段对应的词语与基准词及同义词库中的同义词进行匹配,包括:
将同一预设字段对应的词语的各子词,分别与基准词及同义词库中的同义词中相应的子词进行比对,确定是否相同;
确定各子词在所述词语和对应的基准词或同义词中的位置相同,且各子词比对结果为相同时,确定匹配成功。


3.根据权利要求1所述的方法,其特征在于,所述基于余弦相似度算法,将同一预设字段对应的词语与基准词或同义词库中的同义词进行匹配,包括:
分别将同一预设字段对应的词语的各子词,与基准词或任一同义词中相应的子词进行比对,确定是否相同;
若子词的比对结果为不相同,根据所述子词对应的词向量特征,利用余弦相似度算法计算对应的余弦相似度,根据所述子词对应的余弦相似度是否大于预设阈值,确定所述子词是否同义;
根据各子词是否相同或同义的比对结果,确定是否匹配成功。


4.根据权利要求3所述的方法,其特征在于,所述根据各子词是否相同或同义,确定是否匹配成功,包括:
确定各子词在所述词语和对应的基准词或任一同义词中的位置相同,且各子词的比对结果为同义时,确定匹配成功;或者
确定各子词在所述词语和对应的基准词或任一同义词中的位置相同,且部分子词的比对结果为同义,另一部分的子词的比对结果为相同时,确定匹配成功。


5....

【专利技术属性】
技术研发人员:张星张少怀姜里奇
申请(专利权)人:泰康保险集团股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1