字母向量学习方法、系统、存储介质及电子设备技术方案

技术编号：31162924 阅读：17 留言：0更新日期：2021-12-04 10:34

本申请公开了一种字母向量学习方法、系统、存储介质及电子设备，方法包括：获取字典步骤：整理预训练中文字向量模型中的汉字并形成字典；获取二元组步骤：遍历所述字典中的汉字，获取所述汉字的拼音，并将所述汉字的拼音拆分构成字母串，根据所述汉字和所述字母串构建二元组；计算步骤：根据公式计算所述字母串中每个汉语拼音字母的在所述汉字中所分得的向量；获取字母向量步骤：根据汉字拼音字符串中每个汉语拼音字母在所述汉字中所分得的所述向量，计算获取汉字拼音字母向量。本发明专利技术主要考虑了汉字在发音方面的语义关系，丰富了只基于字或词粒度的向量表示。词粒度的向量表示。词粒度的向量表示。

全部详细技术资料下载

【技术实现步骤摘要】
字母向量学习方法、系统、存储介质及电子设备

[0001]本专利技术属于自然语言处理领域，具体涉及一种字母向量学习方法、系统、存储介质及电子设备。

技术介绍

[0002]Wordembedding最初由英文研究开始，在汉语中的应用只是把算法模型的输入换做了中文语料，将原有模型中的英文单词替换为汉字或词语进行训练。这种方式并未考虑汉语特色，比如汉字在构造过程中会充分考虑读音，也就是汉字的拼音，拼音相同的汉字(即同音字)可能会存在一定的语义关联性，如“他”和“她”都是第三人称，但又分别指代了男“他”和女“她”。

技术实现思路

[0003]本申请实施例提供了一种字母向量学习方法、系统、存储介质及电子设备，以至少解决现有的字母向量学习方法未考虑汉语特色的问题。
[0004]本专利技术提供了一种字母向量学习方法，其中，包括：
[0005]获取字典步骤：整理预训练中文字向量模型中的汉字并形成字典；
[0006]获取二元组步骤：遍历所述字典中的汉字，获取所述汉字的拼音，并将所述汉字的拼音拆分构成字母串，根据所述汉字和所述字母串构建二元组；
[0007]计算步骤：根据公式计算所述字母串中每个汉语拼音字母的在所述汉字中所分得的向量；
[0008]获取字母向量步骤：根据汉字拼音字符串中每个汉语拼音字母在所述汉字中所分得的所述向量，计算获取汉字拼音字母向量。
[0009]上述字母向量学习方法，其中，所述获取字典步骤包括：
[0010]模型获取步骤：获取所述预训练中文字向...

【技术保护点】

【技术特征摘要】
1.一种字母向量学习方法，其特征在于，包括：获取字典步骤：整理预训练中文字向量模型中的汉字并形成字典；获取二元组步骤：遍历所述字典中的汉字，获取所述汉字的拼音，并将所述汉字的拼音拆分构成字母串，根据所述汉字和所述字母串构建二元组；计算步骤：根据公式计算所述字母串中每个汉语拼音字母的在所述汉字中所分得的向量；获取字母向量步骤：根据汉字拼音字符串中每个汉语拼音字母在所述汉字中所分得的所述向量，计算获取汉字拼音字母向量。2.如权利要求1所述的字母向量学习方法，其特征在于，所述获取字典步骤包括：模型获取步骤：获取所述预训练中文字向量模型；整理步骤：整理所述预训练中文字向量模型中的汉字并形成所述字典。3.如权利要求1所述的字母向量学习方法，其特征在于，所述计算步骤包括：倒排步骤：根据所述汉字与所述汉字对应的汉语拼音字母构成的所述字母串，对所述汉语拼音和所述汉字进行倒排；向量计算步骤：根据倒排结果以及向量计算公式计算所述字母串中每个汉语拼音字母的在所述汉字中所分得的向量。4.如权利要求1所述的字母向量学习方法，其特征在于，所述获取二元组步骤包括：如果所述汉字是多音字则所述汉字可以拆分为多个由汉语拼音字母构成的所述字母串。5.一种字母向量学习系统，其特征在于，包括：获取字典模块，所述获取字典模块整理预训练中文字向量模型中的汉字并形成字典；获取二元组模块，所述获取二元组模块遍历所述字典中的汉字，获取所述汉字的拼音，并将所述汉字的拼音拆分构成字母串，根据...

【专利技术属性】
技术研发人员：梁吉光，黄艳香，
申请(专利权)人：上海明略人工智能集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人