限定词对标方法及装置、计算机可读存储介质制造方法及图纸

技术编号：31480260 阅读：22 留言：0更新日期：2021-12-18 12:13

本申请公开了一种限定词对标方法及装置、计算机可读存储介质，所述限定词对标方法在获取潜在限定词之后，首先获取潜在限定词的分类信息，再获取该潜在限定词分别与预设的标准限定词集中每个标准限定词的相似度，再利用这多个相似度获取对标结果。本申请可先将潜在限定词映射为分类信息对应的大类别之一，然后再在对应该潜在限定词所在大类的标准限定词集中进行进一步对标，该标准限定词集包括多个标准限定词，且这多个标准词限定词与潜在限定词属于同一大类，从而进一步将潜在限定词映射为与其中一个标准限定词对应的小类。因此，本申请仅需要训练一个对应大类的网络模型和一个对应小类的网络模型，能够提高限定词对标的效率和准确性。和准确性。和准确性。

全部详细技术资料下载

【技术实现步骤摘要】
限定词对标方法及装置、计算机可读存储介质

[0001]本申请涉及数据处理
，特别是涉及一种限定词对标方法及装置、计算机可读存储介质。

技术介绍

[0002]随着数据处理技术的发展，已经能够实现自动化的限定词对标工作。但是现有技术中的限定词对标方法在模型的训练及后期维护方面需要展开大量工作，且误差传递影响大，导致限定词对标的效率和准确性均有待提高。

技术实现思路

[0003]本申请主要解决的技术问题是提供一种限定词对标方法及装置、计算机可读存储介质，能够提高限定词对标的效率和准确性。
[0004]为解决上述技术问题，本申请采用的一个技术方案是：提供一种限定词对标方法，包括：
[0005]获取潜在限定词；
[0006]获取所述潜在限定词的分类信息，以及，将标准库中的所有标准限定词划分为多个标准限定词集，同一个所述标准限定词集中的标准限定词具有相同的分类信息，且每个所述标准限定词集对应不同的分类信息；
[0007]获取所述潜在限定词分别与其中一个标准限定词集中每个标准限定词的相似度；其中，所述其中一个标准限定词集对应的分类信息与所述潜在限定词的分类信息相同；
[0008]利用所述相似度获取对标结果。
[0009]为解决上述技术问题，本申请采用的另一个技术方案是：提供一种限定词对标装置，包括相互耦接的存储器和处理器，所述存储器存储有程序指令，所述处理器能够执行所述程序指令，以实现上述技术方案所述的限定词对标方法。
[0010]为解决上述技术问题，本...

【技术保护点】

【技术特征摘要】
1.一种限定词对标方法，其特征在于，包括：获取潜在限定词；获取所述潜在限定词的分类信息，以及，将标准库中的所有标准限定词划分为多个标准限定词集，同一个所述标准限定词集中的标准限定词具有相同的分类信息，且每个所述标准限定词集对应不同的分类信息；获取所述潜在限定词分别与其中一个标准限定词集中每个标准限定词的相似度；其中，所述其中一个标准限定词集对应的分类信息与所述潜在限定词的分类信息相同；利用所述相似度获取对标结果。2.根据权利要求1所述的限定词对标方法，其特征在于，所述获取所述潜在限定词的分类信息的步骤之前，还包括：训练第一模型，以使所述第一模型能够以输入其中的词的分类信息作为输出；所述获取所述潜在限定词的分类信息的步骤，包括：将所述潜在限定词输入所述第一模型，并将所述第一模型的输出作为所述潜在限定词的分类信息。3.根据权利要求2所述的限定词对标方法，其特征在于，所述分类信息为人、事、地、物、时间、描述、以及其它六种分类信息中的一种。4.根据权利要求1所述的限定词对标方法，其特征在于，所述获取所述潜在限定词分别与其中一个标准限定词集中每个标准限定词的相似度的步骤之前，还包括：训练第二模型，以使所述第二模型能够以输入其中的两个词的相似度作为输出；所述获取所述潜在限定词分别与其中一个标准限定词集中每个标准限定词的相似度的步骤，包括：依次将所述潜在限定词与所述标准限定词集中的每个标准限定词组成的词组输入所述第二模型，并将所述第二模型的输出作为与所述标准限定词对应的相似度。5.根据权利要求4所述的限定词对标方法，其特征在于，所述利用所述相似度获取对标结果的步骤，包括：获取所述相似度的最大值；判断所述最大值是否大于预设阈值；若是，则将所述最大值对应的所述标准限定词作为所述对标结果；否则，将无结果作为所述对标结果。6.根据权利要求1所述的限定词对标方法，其特征在于，所述获取潜在限定词的步骤，包括：从待处理文本中获取对标文本；利用分词器将所述对标文本分解为第一词集，以及将标准数据元分解为第二词集；其中所述标准数据元是从预设的标准数据元集中筛选出的与所述对标文本最相关的标准数据元；获取所述第一词集中的相近词，其中所述相近词与所述第二词集中其中一个词的意义相同；将所述第一词集中除所述相近词之外的词作为所述潜在限定词。7.根据权利要求6所述的限定词对标方法，其特征在于，所述获取所述第一词集中的相
近词的步骤，包括：判断所述第一词集与所述第二词集是否包含相同词；若包含，则将所述...

【专利技术属性】
技术研发人员：胡立文，陈立力，周明伟，
申请(专利权)人：浙江大华技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人