字母向量学习方法、系统、存储介质及电子设备技术方案

技术编号:31162924 阅读:17 留言:0更新日期:2021-12-04 10:34
本申请公开了一种字母向量学习方法、系统、存储介质及电子设备,方法包括:获取字典步骤:整理预训练中文字向量模型中的汉字并形成字典;获取二元组步骤:遍历所述字典中的汉字,获取所述汉字的拼音,并将所述汉字的拼音拆分构成字母串,根据所述汉字和所述字母串构建二元组;计算步骤:根据公式计算所述字母串中每个汉语拼音字母的在所述汉字中所分得的向量;获取字母向量步骤:根据汉字拼音字符串中每个汉语拼音字母在所述汉字中所分得的所述向量,计算获取汉字拼音字母向量。本发明专利技术主要考虑了汉字在发音方面的语义关系,丰富了只基于字或词粒度的向量表示。词粒度的向量表示。词粒度的向量表示。

【技术实现步骤摘要】
字母向量学习方法、系统、存储介质及电子设备


[0001]本专利技术属于自然语言处理领域,具体涉及一种字母向量学习方法、系统、存储介质及电子设备。

技术介绍

[0002]Wordembedding最初由英文研究开始,在汉语中的应用只是把算法模型的输入换做了中文语料,将原有模型中的英文单词替换为汉字或词语进行训练。这种方式并未考虑汉语特色,比如汉字在构造过程中会充分考虑读音,也就是汉字的拼音,拼音相同的汉字(即同音字)可能会存在一定的语义关联性,如“他”和“她”都是第三人称,但又分别指代了男“他”和女“她”。

技术实现思路

[0003]本申请实施例提供了一种字母向量学习方法、系统、存储介质及电子设备,以至少解决现有的字母向量学习方法未考虑汉语特色的问题。
[0004]本专利技术提供了一种字母向量学习方法,其中,包括:
[0005]获取字典步骤:整理预训练中文字向量模型中的汉字并形成字典;
[0006]获取二元组步骤:遍历所述字典中的汉字,获取所述汉字的拼音,并将所述汉字的拼音拆分构成字母串,根据所述汉字和所述字母串构建二元组;
[0007]计算步骤:根据公式计算所述字母串中每个汉语拼音字母的在所述汉字中所分得的向量;
[0008]获取字母向量步骤:根据汉字拼音字符串中每个汉语拼音字母在所述汉字中所分得的所述向量,计算获取汉字拼音字母向量。
[0009]上述字母向量学习方法,其中,所述获取字典步骤包括:
[0010]模型获取步骤:获取所述预训练中文字向量模型;
[0011]整理步骤:整理所述预训练中文字向量模型中的汉字并形成所述字典。
[0012]上述字母向量学习方法,其中,所述计算步骤包括:
[0013]倒排步骤:根据所述汉字与所述汉字对应的汉语拼音字母构成的所述字母串,对所述汉语拼音和所述汉字进行倒排;
[0014]向量计算步骤:根据倒排结果以及向量计算公式计算所述字母串中每个汉语拼音字母的在所述汉字中所分得的向量。
[0015]上述字母向量学习方法,其中,所述获取二元组步骤包括:
[0016]如果所述汉字是多音字则所述汉字可以拆分为多个由汉语拼音字母构成的所述字母串。
[0017]本专利技术还提供了一种字母向量学习系统,其中,包括:
[0018]获取字典模块,所述获取字典模块整理预训练中文字向量模型中的汉字并形成字典;
[0019]获取二元组模块,所述获取二元组模块遍历所述字典中的汉字,获取所述汉字的拼音,并将所述汉字的拼音拆分构成字母串,根据所述汉字和所述字母串构建二元组;
[0020]计算模块,所述计算模块根据公式计算所述字母串中每个汉语拼音字母的在所述汉字中所分得的向量;
[0021]获取字母向量模块,所述获取字母向量模块根据汉字拼音字符串中每个汉语拼音字母在所述汉字中所分得的所述向量,计算获取汉字拼音字母向量。
[0022]上述字母向量学习系统,其中,所述获取字典模块包括:
[0023]模型获取单元,所述模型获取单元获取所述预训练中文字向量模型;
[0024]整理单元,所述整理单元整理所述预训练中文字向量模型中的汉字并形成所述字典。
[0025]上述字母向量学习系统,其中,所述计算模块包括:
[0026]倒排单元,所述倒排单元根据所述汉字与所述汉字对应的汉语拼音字母构成的所述字母串,对所述汉语拼音和所述汉字进行倒排;
[0027]向量计算单元,所述向量计算单元根据倒排结果以及向量计算公式计算所述字母串中每个汉语拼音字母的在所述汉字中所分得的向量。
[0028]上述字母向量学习系统,其中,所述获取二元组模块包括:
[0029]如果所述汉字是多音字则所述汉字可以拆分为多个由汉语拼音字母构成的所述字母串。
[0030]一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如上述任一所述的字母向量学习方法。
[0031]一种存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如上述任一所述的字母向量学习方法。
[0032]本专利技术的有益效果在于:
[0033]本专利技术属于深度学习技术中的自然语言处理领域。本公开提供了一种基于字拼音的汉语拼音字母向量学习方法与装置,主要考虑了汉字在发音方面的语义关系,丰富了只基于字或词粒度的向量表示。
附图说明
[0034]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
[0035]在附图中:
[0036]图1是本专利技术的字母向量学习方法的流程图;
[0037]图2是本专利技术的分步骤S1的流程图;
[0038]图3是本专利技术的分步骤S3的流程图;
[0039]图4是本专利技术的字母向量学习系统的结构示意图;
[0040]图5是根据本专利技术实施例的电子设备的框架图。
具体实施方式
[0041]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0042]显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的
技术实现思路
的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
[0043]在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
[0044]除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属
内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种字母向量学习方法,其特征在于,包括:获取字典步骤:整理预训练中文字向量模型中的汉字并形成字典;获取二元组步骤:遍历所述字典中的汉字,获取所述汉字的拼音,并将所述汉字的拼音拆分构成字母串,根据所述汉字和所述字母串构建二元组;计算步骤:根据公式计算所述字母串中每个汉语拼音字母的在所述汉字中所分得的向量;获取字母向量步骤:根据汉字拼音字符串中每个汉语拼音字母在所述汉字中所分得的所述向量,计算获取汉字拼音字母向量。2.如权利要求1所述的字母向量学习方法,其特征在于,所述获取字典步骤包括:模型获取步骤:获取所述预训练中文字向量模型;整理步骤:整理所述预训练中文字向量模型中的汉字并形成所述字典。3.如权利要求1所述的字母向量学习方法,其特征在于,所述计算步骤包括:倒排步骤:根据所述汉字与所述汉字对应的汉语拼音字母构成的所述字母串,对所述汉语拼音和所述汉字进行倒排;向量计算步骤:根据倒排结果以及向量计算公式计算所述字母串中每个汉语拼音字母的在所述汉字中所分得的向量。4.如权利要求1所述的字母向量学习方法,其特征在于,所述获取二元组步骤包括:如果所述汉字是多音字则所述汉字可以拆分为多个由汉语拼音字母构成的所述字母串。5.一种字母向量学习系统,其特征在于,包括:获取字典模块,所述获取字典模块整理预训练中文字向量模型中的汉字并形成字典;获取二元组模块,所述获取二元组模块遍历所述字典中的汉字,获取所述汉字的拼音,并将所述汉字的拼音拆分构成字母串,根据...

【专利技术属性】
技术研发人员:梁吉光黄艳香
申请(专利权)人:上海明略人工智能集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1