确定歧义词的方法、检索方法及电子设备技术

技术编号:37322864 阅读:19 留言:0更新日期:2023-04-21 23:02
本申请涉及数据检索技术领域,尤其涉及一种确定歧义词的方法、检索方法及电子设备。其中,确定歧义词的方法包括:获取初始主体词;基于初始主体词,对预设文本进行切分和拼接,得到包含初始主体词的目标主体词;其中,所述目标主体词,按照第一切分方式切分时,得到包括初始主体词的多个字词,按照第二切分方式切分时,得到多个连续的非初始主体词;若所述目标主体词在预设文本中出现的次数大于预设值,则确定所述目标主体词为歧义词。如此设置,基于本申请提供的方案,可以自动识别初始主体词的歧义词,相较于背景技术中的人工确定方案,本申请提供的方案,更加的省时省力。更加的省时省力。更加的省时省力。

【技术实现步骤摘要】
确定歧义词的方法、检索方法及电子设备


[0001]本申请涉及数据检索
,尤其涉及一种确定歧义词的方法、检索方法及电子设备。

技术介绍

[0002]在一种些特定的业务场景中,客户使用与自身企业、产品、人员相关的主体词作为检索词通过数据库索引相关数据,以精准的召回与客户生态密切相关的文本数据,从数据中提取有价值的信息。
[0003]但是,在检索时,基于主体词匹配数据的过程中,存在噪声数据干扰的现象,影响召回数据的准确性。这里的噪音数据干扰指的是主体词的歧义词对检索过程中对于检索结果造成的干扰。这里的歧义词指的是,与主体词无关,但在基于检索时会被误认为与主体词密切相关的词语。例如,“建行”作为主体词,进行检索时,虽然“基建行业”是由两个连续的词语“基建”和“行业”构成,但是由于“基建行业”包含“建行”,“基建行业”会被误认为与主体词密切相关,会影响检索结果。这种情况下,“基建行业”为“建行”的歧义词。
[0004]检索时,为了排除这些噪声数据干扰,需要人工确定主体词的歧义词,但是这种人工确定主体词的歧义词的方式费时费力。

技术实现思路

[0005]为至少在一定程度上克服相关技术中人工确定主体词的歧义词的方式费时费力的问题,本申请提供一种确定歧义词的方法、检索方法及电子设备。
[0006]本申请的方案如下:
[0007]根据本申请实施例的第一方面,提供一种确定歧义词的方法,包括:
[0008]获取初始主体词;
[0009]基于初始主体词,对预设文本进行切分和拼接,得到包含初始主体词的目标主体词;其中,所述目标主体词,按照第一切分方式切分时,得到包括初始主体词的多个字词,按照第二切分方式切分时,得到多个连续的非初始主体词;
[0010]若所述目标主体词在预设文本中出现的次数大于预设值,则确定所述目标主体词为歧义词。
[0011]在一些实施例中,基于初始主体词,对预设文本进行切分和拼接,得到包含初始主体词的目标主体词,包括:
[0012]定位预设文本中的初始主体词;
[0013]针对预设文本中的每一个初始主体词,截取初始主体词之前第一预设数量的字至初始主体词之后第二预设数量的字,得到疑似主体词;
[0014]若所述疑似主体词由多个连续的非初始主体词构成,则所述疑似主体词为目标主体词。
[0015]在一些实施例中,包括:
[0016]所述第一预设数量的取值范围为非负整数,所述第二预设数量的取值范围为非负整数,且所述第一预设数量和所述第二预设数量不同时为零。
[0017]在一些实施例中,所述初始主体词包括依次排列的第一部分和第二部分;
[0018]基于初始主体词,对预设文本进行切分和拼接,得到包含初始主体词的目标主体词,包括:
[0019]确定所述预设文本中以所述第一部分为结尾的第一类词语和以所述第二部分为开始的第二类词语;
[0020]对一个第一类词语和一个第二类词语进行拼接,得到目标主体词。
[0021]根据本申请实施例的第二方面,提供一种检索方法,包括:
[0022]获取检索词;
[0023]将所述检索词作为初始主体词,基于如本申请任一实施例提供方法,确定歧义词;
[0024]将所述歧义词视为检索噪声,对所述检索词进行检索,得到检索结果。嗯。
[0025]根据本申请实施例的第三方面,提供一种检索方法,包括:
[0026]获取检索词;
[0027]基于预设数据库,获取所述检索词对应的歧义词;
[0028]其中,所述预设数据库中存储有检索词、以及基于如权利要求1至4任一项所述的方法确定的所述检索词对应的歧义词;
[0029]将所述歧义词视为检索噪声,对所述检索词进行检索,得到检索结果。
[0030]在一些实施例中,还包括:
[0031]每间隔预设时间,更新所述预设数据库内存储的检索词及其对应的歧义词。
[0032]在一些实施例中,还包括:
[0033]显示所述检索词及其对应的歧义词,以供相关人员查看;
[0034]获取相关人员输入的删减指令;
[0035]基于所述删减指令,对所述检索词对应的歧义词进行删减。
[0036]在一些实施例中,显示所述检索词及其对应的歧义词,包括:
[0037]若同一个检索词对应多个歧义词,基于各个歧义词在预设文本中出现的次数由多到少对各个歧义词进行排序;
[0038]以在预设文本中出现的次数多的歧义词在先的原则,显示各所述歧义词。
[0039]根据本申请实施例的第四方面,提供一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一实施例提供的确定歧义词的方法的步骤,或,实现如上述任一实施例提供的检索方法的步骤。
[0040]本申请提供的技术方案中:首先获取初始主体词,之后基于歧义词往往包含初始主体词,且歧义词是由多个非初始主体词构成组成的特征,对预设文本进行切分和拼接,得到包含初始主体词的目标主体词;其中,所述目标主体词,按照第一切分方式切分时,得到包括初始主体词的多个字词,按照第二切分方式切分时,得到多个连续的非初始主体词;此时,目标主体词大概率为歧义词,但是若目标主体词出现的次数较低,则基本不会对数据的检索造成干扰,所以,这一部分出现的次数交底的目标主体词不为歧义词,基于此,若所述目标主体词在预设文本中出现的次数大于预设值,则确定所述目标主体词为歧义词。如此设置,基于本申请提供的方案,可以自动识别初始主体词的歧义词,相较于
技术介绍
中的人
工确定方案,本申请提供的方案,更加的省时省力。
[0041]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
[0042]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
[0043]图1是本申请一个实施例提供的一种确定歧义词的方法的流程示意图;
[0044]图2是本申请一个实施例提供的一种确定歧义词的方法的部分流程示意图;
[0045]图3是本申请一个实施例提供的一种确定歧义词的方法的部分流程示意图;
[0046]图4是本申请一个实施例提供的一种检索方法的流程示意图;
[0047]图5是本申请一个实施例提供的一种前端页面使用展示示意灰度图;
[0048]图6是本申请一个实施例提供的一种检索方法的流程示意图;
[0049]图7是本申请一个实施例提供的一种电子设备的结构示意图。
具体实施方式
[0050]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种确定歧义词的方法,其特征在于,包括:获取初始主体词;基于初始主体词,对预设文本进行切分和拼接,得到包含初始主体词的目标主体词;其中,所述目标主体词,按照第一切分方式切分时,得到包括初始主体词的多个字词,按照第二切分方式切分时,得到多个连续的非初始主体词;若所述目标主体词在预设文本中出现的次数大于预设值,则确定所述目标主体词为歧义词。2.根据权利要求1所述的确定歧义词的方法,其特征在于,基于初始主体词,对预设文本进行切分和拼接,得到包含初始主体词的目标主体词,包括:定位预设文本中的初始主体词;针对预设文本中的每一个初始主体词,截取初始主体词之前第一预设数量的字至初始主体词之后第二预设数量的字,得到疑似主体词;若所述疑似主体词由多个连续的非初始主体词构成,则所述疑似主体词为目标主体词。3.根据权利要求2所述的确定歧义词的方法,其特征在于,包括:所述第一预设数量的取值范围为非负整数,所述第二预设数量的取值范围为非负整数,且所述第一预设数量和所述第二预设数量不同时为零。4.根据权利要求1所述的确定歧义词的方法,其特征在于,所述初始主体词包括依次排列的第一部分和第二部分;基于初始主体词,对预设文本进行切分和拼接,得到包含初始主体词的目标主体词,包括:确定所述预设文本中以所述第一部分为结尾的第一类词语和以所述第二部分为开始的第二类词语;对一个第一类词语和一个第二类词语进行拼接,得到目标主体词。5.一种检索方...

【专利技术属性】
技术研发人员:刘瑞熙李青龙彭璿韬
申请(专利权)人:北京智慧星光信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1