文本匹配方法、装置、设备、介质及产品制造方法及图纸

技术编号:37412005 阅读:7 留言:0更新日期:2023-04-30 09:37
本申请提供了一种文本匹配方法、装置、设备、介质及产品,涉及计算机以及人工智能技术领域,其中方法包括:获取待识别实体和多个参考实体;分别对所述待识别实体和所述多个参考实体进行分词处理,获得所述待识别实体的多个第一目标分词,以及所述参考实体对应的多个第二目标分词;依次对所述多个第一目标分词和所述多个第二目标分词进行匹配,确定所述待识别实体和各所述参考实体之间的匹配值;将最大匹配值对应的参考实体,判定为与所述待识别实体匹配的参考实体。通过对待识别实体的分词与参考实体的分词进行匹配来确定匹配值,在匹配过程没有上下文信息的情况下,采用上述步骤可以提高匹配准确率。提高匹配准确率。提高匹配准确率。

【技术实现步骤摘要】
文本匹配方法、装置、设备、介质及产品


[0001]本申请涉及计算机以及人工智能
,特别是涉及一种文本匹配方法、装置、设备、介质及产品。

技术介绍

[0002]文本匹配可拆分为多个步骤,第一个步骤是将文本分解为可以由程序比对的子部分,第二个步骤是将这些组分按照某种规则转换为相似度算法的输入,第三个步骤是应用相似度算法,计算得出匹配程度,进而判断两段文本含义有多相似。
[0003]在对文本的相似度进行判断时,可以基于深度学习,使用对大量上下文信息的编码来表示中间的文本,但是对于低频词汇,训练数据不足会导致词嵌入表示效果不佳。训练样本中未出现过的词语,预训练模型难以生成有意义的词嵌入。对于同类型词汇(如同为公司且业务相同),基于挖去填充进行无监督训练的词嵌入往往难以做出有效区分,无法拉开不同实体在样本空间中的距离。
[0004]在输入样本不具备句子结构的情况下,无法大规模生成自然语言供微调训练。也就是说,目前的文本相似度判定方法,匹配准确度较低。

技术实现思路

[0005]本申请提供的一种文本匹配方法、装置、设备、介质及产品,能够提高文本匹配的准确性。
[0006]第一方面,本申请实施例提供一种文本匹配方法,方法包括:
[0007]获取待识别实体和多个参考实体;
[0008]分别对所述待识别实体和所述多个参考实体进行分词处理,获得所述待识别实体的多个第一目标分词,以及所述参考实体对应的多个第二目标分词;
[0009]依次对所述多个第一目标分词和所述多个第二目标分词进行匹配,确定所述待识别实体和各所述参考实体之间的匹配值;
[0010]将最大匹配值对应的参考实体,判定为与所述待识别实体匹配的参考实体。
[0011]第二方面,本申请提供一种文本匹配装置,该装置包括:
[0012]第一获取模块,用于获取待识别实体和多个参考实体;
[0013]第二获取模块,用于分别对所述待识别实体和所述多个参考实体进行分词处理,获得所述待识别实体的多个第一目标分词,以及所述参考实体对应的多个第二目标分词;
[0014]匹配模块,用于依次对所述多个第一目标分词和所述多个第二目标分词进行匹配,确定所述待识别实体和各所述参考实体之间的匹配值;
[0015]判定模块,用于将最大匹配值对应的参考实体,判定为与所述待识别实体匹配的参考实体。
[0016]第三方面,本申请实施例提供了一种电子设备,该电子设备包括:处理器以及存储有计算机程序指令的存储器;
[0017]处理器执行计算机程序指令时实现如第一方面中任意一个实施例中的文本匹配方法。
[0018]第四方面,本申请实施例提供了一种计算机存储介质,计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现如第一方面中任意一个实施例中的文本匹配方法。
[0019]第五方面,本申请实施例提供了一种计算机程序产品,计算机程序产品中的指令由电子设备的处理器执行时,使得电子设备执行实现如上述第一方面中任意一个实施例中的文本匹配方法。
[0020]在本申请实施例的文本匹配方法、装置、设备、介质及产品,其中,方法包括:获取待识别实体和多个参考实体;分别对所述待识别实体和所述多个参考实体进行分词处理,获得所述待识别实体的多个第一目标分词,以及所述参考实体对应的多个第二目标分词;依次对所述多个第一目标分词和所述多个第二目标分词进行匹配,确定所述待识别实体和各所述参考实体之间的匹配值;将最大匹配值对应的参考实体,判定为与所述待识别实体匹配的参考实体。通过对待识别实体的分词与参考实体的分词进行匹配来确定匹配值,在匹配过程没有上下文信息的情况下,采用上述步骤可以提高匹配准确率。
附图说明
[0021]为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0022]图1是本申请一个实施例提供的文本匹配方法的流程示意图;
[0023]图2是本申请实施例提供的一种文本匹配装置的结构示意图;
[0024]图3是本申请实施例提供的电子设备的结构示意图。
具体实施方式
[0025]为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
[0026]在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
[0027]需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0028]为了解决现有技术问题,本申请实施例提供了一种文本匹配方法、装置、设备、介
质及产品。下面首先对本申请实施例所提供的文本匹配方法进行介绍。
[0029]图1示出了本申请一个实施例提供的文本匹配方法的流程示意图。如图1所示,该方法具体可以包括如下步骤:
[0030]步骤101,获取待识别实体和多个参考实体。
[0031]可从待识别文本中获取待识别实体,待识别文本可以是互联网文本。待识别实体可以是公司名称、商店名称、商品名称、地址名称等等实体名称。参考实体可以理解为正确的实体名称,举例来说,若待识别实体是公司名称,则参考实体为正确的公司名称,具体可以是公开的工商信息库中的公司名称。
[0032]由于待识别文本中的待识别实体可能采用了简称,或者相类似的名称,使得待识别实体与正确的实体名称不相同,而本申请提供的方法可以将待识别实体与多个参考实体进行匹配,确定出与待识别实体最匹配的参考实体。
[0033]步骤102,分别对所述待识别实体和所述多个参考实体进行分词处理,获得所述待识别实体的多个第一目标分词,以及所述参考实体对应的多个第二目标分词。
[0034]进行分词处理时,可以是进行全分词处理,全分词处理可以将实体中的所有可能词汇截取出,与常规分词方法不同,全分词不仅会输出可能性最高的断句方式,也会获得其他断句方式的分词结果,除此之外,这种分词方法不会进行去重,对于多次出现的相同分词都会保留。
[0035]对待识别实体,以及每个参考实体分别进行分词处理,获得待识别实体本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本匹配方法,其特征在于,所述方法包括:获取待识别实体和多个参考实体;分别对所述待识别实体和所述多个参考实体进行分词处理,获得所述待识别实体的多个第一目标分词,以及所述参考实体对应的多个第二目标分词;依次对所述多个第一目标分词和所述多个第二目标分词进行匹配,确定所述待识别实体和各所述参考实体之间的匹配值;将最大匹配值对应的参考实体,判定为与所述待识别实体匹配的参考实体。2.根据权利要求1所述的方法,其特征在于,所述分别对所述待识别实体和所述多个参考实体进行分词处理,获得所述待识别实体的多个第一目标分词,以及所述参考实体对应的多个第二目标分词,包括:对所述待识别实体进行全分词处理,获得多个第一中间分词;对所述参考实体进行全分词处理,获得所述参考实体对应的多个第二中间分词;对所述多个第一中间分词进行增删处理,获得所述多个第一目标分词;对所述多个第二中间分词进行增删处理,获得所述多个第二目标分词。3.根据权利要求2所述的方法,其特征在于,所述对所述多个第一中间分词进行增删处理,获得所述多个第一目标分词,包括:若所述多个第一中间分词包括第一分词,且所述第一分词是预设的停用词表中的词,则将所述多个第一中间分词中的所述第一分词删除,获得所述多个第一目标分词;所述对所述多个第二中间分词进行增删处理,获得所述多个第二目标分词,包括:若所述多个第二中间分词包括第二分词,且所述第二分词是所述停用词表中的词,则将所述多个第二中间分词中的所述第二分词删除,获得所述多个第二目标分词。4.根据权利要求2所述的方法,其特征在于,所述对所述多个第一中间分词进行增删处理,获得所述多个第一目标分词,包括:若所述多个第一中间分词包括第三分词,且所述第三分词是简称词,则将所述第三分词对应的全称词添加到所述多个第一中间分词中,获得所述第一目标分词;或者,若所述多个第一中间分词包括第三分词,且所述第三分词是全称词,则将所述第三分词对应的简称词添加到所述多个第一中间分词中,获得所述第一目标分词;所述对所述多个第二中间分词进行增删处理,获得所述多个第二目标分词,包括:若所述多个第二中间分词包括第四分词,且所述第四分词是简称词,则将所述第四分词对应的全称词添加到所述多个第二中间分词中,获得所述第二目标分词;或者,若所述多个第二中间分词包括第四分词,且所述第四...

【专利技术属性】
技术研发人员:黄正
申请(专利权)人:建信金融科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1