义原预测方法及系统技术方案

技术编号：29222579 阅读：23 留言：0更新日期：2021-07-10 01:03

本发明专利技术实施例提供一种义原预测方法。该方法包括：将汉字树转换的至少包含字形成分的序列输入至预训练模型内的向量层，通过向量层确定的至少包含掩码字形成分单元的掩码后的向量；将掩码后的向量输入至预训练模型内的神经网络；基于预设的训练目标对神经网络进行训练。本发明专利技术实施例还提供一种义原预测系统。本发明专利技术实施例可以更好地融合中文汉字的内部信息，使用了通过字形增强的中文字符表示来协助义原预测，效果优于现有的不利用外部信息的模型，同时对于低频词的处理也有良好的效果。同时对于低频词的处理也有良好的效果。同时对于低频词的处理也有良好的效果。

全部详细技术资料下载

【技术实现步骤摘要】
义原预测方法及系统

[0001]本专利技术涉及智能语音领域，尤其涉及一种义原预测方法及系统。

技术介绍

[0002]在语言学中，义原被定义为人类语言的最小语义单位，它描述概念的语义意义。将义原预测应用到智能语音中十分必要。通常，会计算词向量之间的余弦相似度，推荐相似度高的词的义原作为目标词的义原；或者通过矩阵分解，可以将义原向量和词向量都编码到相同的低维语义空间中，并计算出归一化的词向量和义原向量之间的余弦相似度，以进行义原预测；又或者预测时利用词内部字符信息(字向量)和外部上下文信息(词向量)。
[0003]在实现本专利技术过程中，专利技术人发现相关技术中至少存在如下问题：
[0004]用字或者词作为输入的基本单元，这样有相同字形成分，但是没有相同字的词之间无法共享信息。比如“森林”和“木头”两个词中都有“木”这个字形成分，但却无法共享信息。中文有许多象形字，字形中往往也蕴含着丰富的字词意思，这是比较重要的。
[0005]用字或者词作为输入基本单元，无法解决集外词的预测问题。并且因为低频词的词向量训...

【技术保护点】

【技术特征摘要】
1.一种用于义原预测的预训练模型的训练方法，包括：将汉字树转换的至少包含字形成分的序列输入至预训练模型内的向量层，通过所述向量层确定的至少包含掩码字形成分单元的掩码后的向量；将所述掩码后的向量输入至所述预训练模型内的神经网络；基于预设的训练目标对所述神经网络进行训练。2.根据权利要求1所述的方法，其中，所述汉字树包括：字形成分的叶子节点和字形结构类型的内部节点；所述方法还包括：将所述汉字树转换的包含字形成分和字形结构的序列输入至预训练模型内的向量层，通过所述向量层确定的至少包含掩码字形结构类型单元、掩码字形成分单元的输入单元向量、区分字形结构类型的单元类型向量的掩码后的向量。3.根据权利要求1所述的方法，其中，所述神经网络包括：掩码多头自注意力网络；所述掩码后的向量还包括：字信息、位置向量以及分隔向量。4.根据权利要求3所述的方法，其中，所述基于预设的训练目标对所述神经网络进行训练包括：在所述训练中，各汉字树对应的字信息在所述掩码多头自注意力网络的训练中参数共享，直至所述掩码多头自注意力网络输出的预测结果趋近于掩码前的向量。5.根据权利要求2所述的方法，其中，所述预设的训练目标包括预设的掩码语言模型；所述汉字树转换的包含字形成分和字形结构的序列包括：通过深度优先算法确定汉字树转换的包含字形成分和字形结构的序列。6.一种义原预测方法，...

【专利技术属性】
技术研发人员：俞凯，吕波尔，陈露，
申请(专利权)人：思必驰科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人