限定词对标方法及装置、计算机可读存储介质制造方法及图纸

技术编号:31480260 阅读:22 留言:0更新日期:2021-12-18 12:13
本申请公开了一种限定词对标方法及装置、计算机可读存储介质,所述限定词对标方法在获取潜在限定词之后,首先获取潜在限定词的分类信息,再获取该潜在限定词分别与预设的标准限定词集中每个标准限定词的相似度,再利用这多个相似度获取对标结果。本申请可先将潜在限定词映射为分类信息对应的大类别之一,然后再在对应该潜在限定词所在大类的标准限定词集中进行进一步对标,该标准限定词集包括多个标准限定词,且这多个标准词限定词与潜在限定词属于同一大类,从而进一步将潜在限定词映射为与其中一个标准限定词对应的小类。因此,本申请仅需要训练一个对应大类的网络模型和一个对应小类的网络模型,能够提高限定词对标的效率和准确性。和准确性。和准确性。

【技术实现步骤摘要】
限定词对标方法及装置、计算机可读存储介质


[0001]本申请涉及数据处理
,特别是涉及一种限定词对标方法及装置、计算机可读存储介质。

技术介绍

[0002]随着数据处理技术的发展,已经能够实现自动化的限定词对标工作。但是现有技术中的限定词对标方法在模型的训练及后期维护方面需要展开大量工作,且误差传递影响大,导致限定词对标的效率和准确性均有待提高。

技术实现思路

[0003]本申请主要解决的技术问题是提供一种限定词对标方法及装置、计算机可读存储介质,能够提高限定词对标的效率和准确性。
[0004]为解决上述技术问题,本申请采用的一个技术方案是:提供一种限定词对标方法,包括:
[0005]获取潜在限定词;
[0006]获取所述潜在限定词的分类信息,以及,将标准库中的所有标准限定词划分为多个标准限定词集,同一个所述标准限定词集中的标准限定词具有相同的分类信息,且每个所述标准限定词集对应不同的分类信息;
[0007]获取所述潜在限定词分别与其中一个标准限定词集中每个标准限定词的相似度;其中,所述其中一个标准限定词集对应的分类信息与所述潜在限定词的分类信息相同;
[0008]利用所述相似度获取对标结果。
[0009]为解决上述技术问题,本申请采用的另一个技术方案是:提供一种限定词对标装置,包括相互耦接的存储器和处理器,所述存储器存储有程序指令,所述处理器能够执行所述程序指令,以实现上述技术方案所述的限定词对标方法。
[0010]为解决上述技术问题,本申请采用的另一个技术方案是:提供一种计算机可读存储介质,所述存储介质存储有程序指令,所述程序指令能够被处理器执行,以实现上述技术方案所述的限定词对标方法。
[0011]本申请的有益效果是:区别于现有技术的情况,本申请提供的限定词对标方法在获取潜在限定词之后,首先获取潜在限定词的分类信息,以及,将标准库中的所有标准限定词划分为多个标准限定词集,同一个标准限定词集中的标准限定词具有相同的分类信息,且每个标准限定词集对应不同的分类信息。再获取该潜在限定词分别与其中一个标准限定词集中每个标准限定词的相似度,再利用这多个相似度获取对标结果,且这其中一个标准限定词集对应的分类信息与潜在限定词的分类信息相同。本申请可先将潜在限定词映射为少数几个大类之一,该大类即为上述分类信息,然后再在对应该潜在限定词所在大类的标准限定词集中进行进一步对标,该标准限定词集包括多个标准限定词,且这多个标准词限定词与潜在限定词属于同一大类。本申请进一步在该大类里面获取潜在限定词与每个标准
限定词的相似度,进而根据相似度获取对标结果,即找出与潜在限定词最接近的标准限定词,从而将潜在限定词标准化。也就是说,本申请进一步在大类里面将潜在限定词映射为与其中一个标准限定词对应的小类,从而构建标准数据项。因此,本申请仅需要训练一个对应大类的网络模型和一个对应小类的网络模型,模型训练任务简洁,便于后期维护,且本申请使用的二级分类结构误差传递影响小,能够提高限定词对标的效率和准确性。
附图说明
[0012]为了更清楚地说明本申请实施方式中的技术方案,下面将对实施方式描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:
[0013]图1为本申请限定词对标方法一实施方式的流程示意图;
[0014]图2为图1中步骤S14一实施方式的流程示意图;
[0015]图3为图1中步骤S11一实施方式的流程示意图;
[0016]图4为图3中步骤S33一实施方式的流程示意图;
[0017]图5为图3中步骤S31一实施方式的流程示意图;
[0018]图6为图5中步骤S51一实施方式的流程示意图;
[0019]图7为图5中步骤S53一实施方式的流程示意图;
[0020]图8为字典树的局部结构示意图;
[0021]图9为本申请限定词对标方法另一实施方式的流程示意图;
[0022]图10为本申请限定词对标装置一实施方式的结构示意图;
[0023]图11为本申请计算机可读存储介质一实施方式的结构示意图。
具体实施方式
[0024]下面将结合本申请实施方式中的附图,对本申请实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本申请一部分实施方式,而不是全部实施方式。基于本申请中的实施方式,本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施方式,都属于本申请保护的范围。
[0025]请参阅图1,图1为本申请限定词对标方法一实施方式的流程示意图,该方法包括如下步骤。
[0026]步骤S11,获取潜在限定词。
[0027]限定词对标工作通常是针对一段待处理文本进行的,本实施方式首先从待处理文本中获取潜在限定词,可能有一个,也可能有多个,视待处理文本的具体情况而定,具体的从待处理文本中获取潜在限定词的过程将在下面描述。
[0028]步骤S12,获取潜在限定词的分类信息,以及,将标准库中的所有标准限定词划分为多个标准限定词集,同一个标准限定词集中的标准限定词具有相同的分类信息,且每个标准限定词集对应不同的分类信息。
[0029]从待处理文本中获取到一个或多个潜在限定词之后,需要先将获取其分类信息。本实施方式中,分类信息为人、事、地、物、时间、描述、以及其它六种分类信息中的一种,也
就是说,将每个潜在限定词均归为这六种分类信息中的一种,即先对潜在限定词进行粗分类。在其他实施方式中,具体的分类信息可以视具体的应用场景进行设置。
[0030]本实施方式通过神经网络模型实现上述粗分类的过程,因此,在上述获取潜在限定词的分类信息的步骤,即步骤S12之前,还包括如下步骤:
[0031]训练第一模型,以使第一模型能够以输入其中的词的分类信息作为输出。
[0032]该第一模型为现有技术中基于FastText模型的神经网络模型,本实施方式对其训练之后,该第一模型能够以输入其中的词的分类信息作为输出。例如,以针对上述六种分类信息的训练样本对第一模型进行训练,再将潜在限定词输出其中,则第一模型能够输出该潜在限定词的分类信息,从而获知该潜在限定词是属于人、事、地、物、时间、描述、以及其它六种分类信息中的哪一个。
[0033]则上述获取潜在限定词的分类信息的步骤包括:
[0034]将潜在限定词输入第一模型,并将第一模型的输出作为潜在限定词的分类信息。
[0035]从而将从待处理文本中获取的潜在限定词映射至多种分类信息中的一种,便于进行后续的进一步细分过程。
[0036]与此同时,本实施方式还将标准库中的所有标准限定词划分为多个标准限定词集。也就是说,现有的标准库中已存在多个标准限定词,本实施方式预先将所有标准限定词进行分类,将其按照标准限定词的类别信息本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种限定词对标方法,其特征在于,包括:获取潜在限定词;获取所述潜在限定词的分类信息,以及,将标准库中的所有标准限定词划分为多个标准限定词集,同一个所述标准限定词集中的标准限定词具有相同的分类信息,且每个所述标准限定词集对应不同的分类信息;获取所述潜在限定词分别与其中一个标准限定词集中每个标准限定词的相似度;其中,所述其中一个标准限定词集对应的分类信息与所述潜在限定词的分类信息相同;利用所述相似度获取对标结果。2.根据权利要求1所述的限定词对标方法,其特征在于,所述获取所述潜在限定词的分类信息的步骤之前,还包括:训练第一模型,以使所述第一模型能够以输入其中的词的分类信息作为输出;所述获取所述潜在限定词的分类信息的步骤,包括:将所述潜在限定词输入所述第一模型,并将所述第一模型的输出作为所述潜在限定词的分类信息。3.根据权利要求2所述的限定词对标方法,其特征在于,所述分类信息为人、事、地、物、时间、描述、以及其它六种分类信息中的一种。4.根据权利要求1所述的限定词对标方法,其特征在于,所述获取所述潜在限定词分别与其中一个标准限定词集中每个标准限定词的相似度的步骤之前,还包括:训练第二模型,以使所述第二模型能够以输入其中的两个词的相似度作为输出;所述获取所述潜在限定词分别与其中一个标准限定词集中每个标准限定词的相似度的步骤,包括:依次将所述潜在限定词与所述标准限定词集中的每个标准限定词组成的词组输入所述第二模型,并将所述第二模型的输出作为与所述标准限定词对应的相似度。5.根据权利要求4所述的限定词对标方法,其特征在于,所述利用所述相似度获取对标结果的步骤,包括:获取所述相似度的最大值;判断所述最大值是否大于预设阈值;若是,则将所述最大值对应的所述标准限定词作为所述对标结果;否则,将无结果作为所述对标结果。6.根据权利要求1所述的限定词对标方法,其特征在于,所述获取潜在限定词的步骤,包括:从待处理文本中获取对标文本;利用分词器将所述对标文本分解为第一词集,以及将标准数据元分解为第二词集;其中所述标准数据元是从预设的标准数据元集中筛选出的与所述对标文本最相关的标准数据元;获取所述第一词集中的相近词,其中所述相近词与所述第二词集中其中一个词的意义相同;将所述第一词集中除所述相近词之外的词作为所述潜在限定词。7.根据权利要求6所述的限定词对标方法,其特征在于,所述获取所述第一词集中的相
近词的步骤,包括:判断所述第一词集与所述第二词集是否包含相同词;若包含,则将所述...

【专利技术属性】
技术研发人员:胡立文陈立力周明伟
申请(专利权)人:浙江大华技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1