一种字符串匹配方法及装置制造方法及图纸

技术编号:20045199 阅读:38 留言:0更新日期:2019-01-09 04:15
本发明专利技术公开了一种字符串匹配方法及装置。所述方法包括:获取第一字符串和第二字符串之后,可以对两个字符串进行分词,并确定这两个字符串包含的各词分别对应的字段,进而可以根据每个字段的权重值来确定这两个字符串之间的匹配度,若匹配度大于预设阈值,则可以认为这两个字符串相匹配。其中,每个字段的权重值可以根据样本字符串来确定。如此,通过设定不同字段的权重值,可以提高不同的字符串之间匹配的准确度;进一步地,相比于现有技术中人工对比的方式而言,本发明专利技术实施例无需人工对比,有效降低了人力成本,能够简化对企业名称进行匹配的操作,并且还可以缩短匹配时间。

【技术实现步骤摘要】
一种字符串匹配方法及装置
本专利技术涉及数据科学领域,尤其涉及一种字符串匹配方法及装置。
技术介绍
企业名称匹配是风险控制领域非常重要的技术。例如,在金融行业,尤其在信贷行业,经常要客户填写企业名称用于风险管理,并对客户所填写的企业名称进行匹配。举个例子,可以用客户填写的企业名称与其征信报告的企业名称进行匹配,看是否客户之前是否也在该企业工作;或者,可以用该客户的企业名称与其他客户的企业名称对比,看该客户是否还有同事也是本机构客户。现有技术在进行企业名称的匹配时,通常采用人工对比的方式来进行匹配,即认为地对不同的企业名称进行匹配。显然,这种方式人力成本较高,且操作复杂,耗时较长。基于此,目前亟需一种字符串匹配方法,用于解决现有技术中采用人工对比的方式进行字符串匹配导致人力成本较高的问题。
技术实现思路
本专利技术实施例提供一种字符串匹配方法及装置,以解决现有技术中采用人工对比的方式进行字符串匹配导致人力成本较高的技术问题。本专利技术实施例提供一种字符串匹配方法,所述方法包括:获取第一字符串和第二字符串;分别对所述第一字符串和所述第二字符串进行分词,得到所述第一字符串包含的各词以及所述第二字符串包含的各词;根据预设的字段与词的对应关系,确定所述第一字符串包含的各词分别对应的字段,以及所述第二字符串包含的各词分别对应的字段;根据所述第一字符串包含的各词及分别对应的字段、所述第二字符串包含的各词及分别对应的字段以及每个字段的权重值,确定所述第一字符串和所述第二字符串的匹配度;所述每个字段的权重值是根据多个样本字符串确定的;若确定所述匹配度大于预设阈值,则确定所述第一字符串与所述第二字符串相匹配。如此,通过设定不同字段的权重值,可以提高不同的字符串之间匹配的准确度;进一步地,相比于现有技术中人工对比的方式而言,本专利技术实施例无需人工对比,有效降低了人力成本,能够简化对企业名称进行匹配的操作,并且还可以缩短匹配时间。在一种可能的实现方式中,所述每个字段的权重值通过以下方式确定:对每个样本字符串进行分词,得到所述每个样本字符串包含的各词;根据所述字段与词的对应关系,确定所述每个样本字符串包含的各词分别对应的各字段;根据每个字段对应的词的重复率,确定所述每个字段的重复率;根据所述每个字段的重复率,确定所述每个字段的权重值。如此,根据每个字段的重复率确定出的字段的权重值,能够使得确定出的权重值更加准确,更加符合字段的重要程度,进而提高不同的字符串之间进行匹配的准确度。在一种可能的实现方式中,在根据所述每个字段对应的多个词,确定所述每个字段的重复率之前,所述方法还包括:根据所述每个字段对应的词,确定所述每个字段对应的任意一个词在所述字段对应的词中的重复率。在一种可能的实现方式中,根据所述每个字段的重复率,确定所述每个字段的权重值,包括:根据所述每个字段的重复率,确定所述每个字段对应的多个词之间的区分度;根据所述每个字段对应的多个词之间的区分度,确定所有字段对应的总区分度;根据所述每个字段的区分度,以及所述所有字段对应的总区分度,确定所述字段的权重值。本专利技术实施例提供一种字符串匹配装置,所述装置包括:获取单元,用于获取第一字符串和第二字符串;处理单元,用于分别对所述第一字符串和所述第二字符串进行分词,得到所述第一字符串包含的各词以及所述第二字符串包含的各词;并根据预设的字段与词的对应关系,确定所述第一字符串包含的各词分别对应的字段,以及所述第二字符串包含的各词分别对应的字段;以及根据所述第一字符串包含的各词及分别对应的字段、所述第二字符串包含的各词及分别对应的字段以及每个字段的权重值,确定所述第一字符串和所述第二字符串的匹配度;所述每个字段的权重值是根据多个样本字符串确定的;匹配单元,用于若确定所述匹配度大于预设阈值,则确定所述第一字符串与所述第二字符串相匹配。在一种可能的实现方式中,所述处理单元具体用于:对每个样本字符串进行分词,得到所述每个样本字符串包含的各词;并根据所述字段与词的对应关系,确定所述每个样本字符串包含的各词分别对应的各字段;并根据每个字段对应的词的重复率,确定所述每个字段的重复率;以及根据所述每个字段的重复率,确定所述每个字段的权重值。在一种可能的实现方式中,所述处理单元在根据所述每个字段对应的多个词,确定所述每个字段的重复率之前,还用于:根据所述每个字段对应的词,确定所述每个字段对应的任意一个词在所述字段对应的词中的重复率。在一种可能的实现方式中,所述具体单元具体用于:根据所述每个字段的重复率,确定所述每个字段对应的多个词之间的区分度;并根据所述每个字段对应的多个词之间的区分度,确定所有字段对应的总区分度;以及根据所述每个字段的区分度,以及所述所有字段对应的总区分度,确定所述字段的权重值。本申请实施例的还提供一种装置,该装置具有实现上文所描述的字符串匹配方法的功能。该功能可以通过硬件执行相应的软件实现,在一种可能的设计中,该装置包括:处理器、收发器、存储器;该存储器用于存储计算机执行指令,该收发器用于实现该装置与其他通信实体进行通信,该处理器与该存储器通过该总线连接,当该装置运行时,该处理器执行该存储器存储的该计算机执行指令,以使该装置执行上文所描述的字符串匹配方法。本专利技术实施例还提供一种计算机存储介质,所述存储介质中存储软件程序,该软件程序在被一个或多个处理器读取并执行时实现上述各种可能的实现方式中所描述的字符串匹配方法。本专利技术实施例还提供一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各种可能的实现方式中所描述的字符串匹配方法。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍。图1为本专利技术实施例提供的一种字符串匹配方法的流程示意图;图2为本专利技术实施例提供的一种字段的权重值的确定方法所对应的流程示意图;图3为本专利技术实施例提供一种字符串匹配装置的结构示意图。具体实施方式下面结合说明书附图对本申请进行具体说明,方法实施例中的具体操作方法也可以应用于装置实施例中。现有技术在确定两个企业名称是否匹配时,除了采用人工比对的方式,还可以使用计算机进行全字符匹配。然而,这种方法可能会出现误判。举个例子,若所需匹配的两个企业名称分别为“联想公司”和“百度公司”,采用现有的全字符匹配的方式,由于“联想公司”这一字符串中的词“公司”与“百度公司”这一字符串中的词“公司”相等,因此,现有技术可能会认为“联想公司”和“百度公司”相匹配。显然,这种认知是错误的。基于此,本专利技术实施例提供一种字符串匹配方法,如图1所示,为本专利技术实施例提供的一种字符串匹配方法的流程示意图,具体包括如下步骤:步骤101,获取第一字符串和第二字符串。步骤102,分别对所述第一字符串和所述第二字符串进行分词,得到所述第一字符串包含的各词以及所述第二字符串包含的各词。步骤103,根据预设的字段与词的对应关系,确定所述第一字符串包含的各词分别对应的字段,以及所述第二字符串包含的各词分别对应的字段。步骤104,根据所述第一字符串包含的各词及分别对应的字段、所述第二字符串包含的各词及分别对应的字段以及每个字段的权重值,确定所述第一字符串和所述第二字符串的匹配度。步骤105,若确定所述匹配度大于本文档来自技高网...

【技术保护点】
1.一种字符串匹配方法,其特征在于,所述方法包括:获取第一字符串和第二字符串;分别对所述第一字符串和所述第二字符串进行分词,得到所述第一字符串包含的各词以及所述第二字符串包含的各词;根据预设的字段与词的对应关系,确定所述第一字符串包含的各词分别对应的字段,以及所述第二字符串包含的各词分别对应的字段;根据所述第一字符串包含的各词及分别对应的字段、所述第二字符串包含的各词及分别对应的字段以及每个字段的权重值,确定所述第一字符串和所述第二字符串的匹配度;所述每个字段的权重值是根据多个样本字符串确定的;若确定所述匹配度大于预设阈值,则确定所述第一字符串与所述第二字符串相匹配。

【技术特征摘要】
1.一种字符串匹配方法,其特征在于,所述方法包括:获取第一字符串和第二字符串;分别对所述第一字符串和所述第二字符串进行分词,得到所述第一字符串包含的各词以及所述第二字符串包含的各词;根据预设的字段与词的对应关系,确定所述第一字符串包含的各词分别对应的字段,以及所述第二字符串包含的各词分别对应的字段;根据所述第一字符串包含的各词及分别对应的字段、所述第二字符串包含的各词及分别对应的字段以及每个字段的权重值,确定所述第一字符串和所述第二字符串的匹配度;所述每个字段的权重值是根据多个样本字符串确定的;若确定所述匹配度大于预设阈值,则确定所述第一字符串与所述第二字符串相匹配。2.根据权利要求1所述的方法,其特征在于,所述每个字段的权重值通过以下方式确定:对每个样本字符串进行分词,得到所述每个样本字符串包含的各词;根据所述字段与词的对应关系,确定所述每个样本字符串包含的各词分别对应的各字段;根据每个字段对应的词的重复率,确定所述每个字段的重复率;根据所述每个字段的重复率,确定所述每个字段的权重值。3.根据权利要求2所述的方法,其特征在于,在根据所述每个字段对应的多个词,确定所述每个字段的重复率之前,所述方法还包括:根据所述每个字段对应的词,确定所述每个字段对应的任意一个词在所述字段对应的词中的重复率。4.根据权利要求2所述的方法,其特征在于,根据所述每个字段的重复率,确定所述每个字段的权重值,包括:根据所述每个字段的重复率,确定所述每个字段对应的多个词之间的区分度;根据所述每个字段对应的多个词之间的区分度,确定所有字段对应的总区分度;根据所述每个字段的区分度,以及所述所有字段对应的总区分度,确定所述字段的权重值。5.一种字符串匹配装置,其特征在于,所述装置包括:获取单元,用于获取第一字符串和第二字符串;处理单元,用于分别对所述第一字符串和所述第二字符串进行分词,得到所述第...

【专利技术属性】
技术研发人员:曾伟雄薛重阳孟庆文王维刘晓东
申请(专利权)人:蜜小蜂智慧北京科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1