拼音预测方法、系统、存储介质及电子设备技术方案

技术编号:41371331 阅读:26 留言:0更新日期:2024-05-20 10:17
本发明专利技术提供一种拼音预测方法、系统、存储介质及电子设备,所述方法包括以下步骤:获取待处理文本;基于语义依存分析算法获取所述待处理文本的注意力调节矩阵;将所述注意力调节矩阵和所述待处理文本输入预训练模型,获取所述待处理文本中每个字的语义向量;将所述待处理文本中的多音字的语义向量映射至拼音标签空间,获取可选拼音标签集合中各个拼音标签的可能性分数;根据所述可能性分数获取所述可选拼音标签集合中各个拼音标签的预测概率,选取预测概率最大的拼音标签作为所述多音字的预测拼音。本发明专利技术的拼音预测方法、系统、存储介质及电子设备基于预训练模型和语义依存分析算法,实现拼音的准确预测。

【技术实现步骤摘要】

本专利技术属于深度学习的,特别是涉及一种拼音预测方法、系统、存储介质及电子设备


技术介绍

1、拼音是学习汉语的第一步,是所有汉语学习者不可忽视的内容。现有技术中,拼音预测方法主要包括以下两种:

2、一、基于规则的拼音预测方法

3、在该方法中,先将句子进行分词,得到词组列表。然后遍历词组列表中的每一个词,查询拼音库中该词的结果。假如拼音库中没有覆盖当前词组,则会将该词组翻译成单个字,返回单字的最常见读音。但是对于多音字,总选择最常见读音是不合理的,需要根据上下文语境来判断正确的读音。例如:“我中奖了”,分词结果为[“我”,“中奖”,“了”]。假如拼音词组库中有“中奖”这个词组,则直接返回拼音库中的结果“zhong4jiang3”(“4”,”3”代表声调),否则,将“中奖”分成单个字[“中”,“奖”],返回最常见拼音“zhong1jiang3”。那么,这里多音字“中”的拼音就出错了。

4、因此,上述方式在脱离上下文语义、多音字的词性信息和位置信息的情况下,多音字的拼音标注准确率差强人意。

5、二、基于深度学习的本文档来自技高网...

【技术保护点】

1.一种拼音预测方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的拼音预测方法,其特征在于:还包括对所述待处理文本进行预处理,以基于预处理后的待处理文本生成所述注意力调节矩阵。

3.根据权利要求1所述的拼音预测方法,其特征在于:基于语义依存分析算法获取所述待处理文本的注意力调节矩阵包括以下步骤:

4.根据权利要求1所述的拼音预测方法,其特征在于:将所述注意力调节矩阵和所述待处理文本输入预训练模型,获取所述待处理文本中每个字的语义向量包括以下步骤:

5.根据权利要求1所述的拼音预测方法,其特征在于:根据Z=WC获取可选拼音标签...

【技术特征摘要】

1.一种拼音预测方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的拼音预测方法,其特征在于:还包括对所述待处理文本进行预处理,以基于预处理后的待处理文本生成所述注意力调节矩阵。

3.根据权利要求1所述的拼音预测方法,其特征在于:基于语义依存分析算法获取所述待处理文本的注意力调节矩阵包括以下步骤:

4.根据权利要求1所述的拼音预测方法,其特征在于:将所述注意力调节矩阵和所述待处理文本输入预训练模型,获取所述待处理文本中每个字的语义向量包括以下步骤:

5.根据权利要求1所述的拼音预测方法,其特征在于:根据z=wc获取可选拼音标签集合中各个拼音标签的可能性分数,其中z表示可选拼音标签集合中各个标签对应的可能性分数...

【专利技术属性】
技术研发人员:请求不公布姓名
申请(专利权)人:北京蜜度信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1