文本输入法以及相关装置制造方法及图纸

技术编号:33130806 阅读:15 留言:0更新日期:2022-04-17 00:47
本申请公开了一种文本输入法以及相关装置,包括:获取字符串和融合候选词向量库;将字符串输入解码模型,得到字符串的解码词;其中,解码模型用于获取字符串的语义特征,利用字符串的语义特征和融合候选词向量库,得到字符串的解码词;融合候选词向量库中包括多个候选语义特征,候选语义特征是候选字的融合语义特征,候选字的融合语义特征是候选字的通用语义特征与候选字的人名语义特征的加权融合,解码词为字符串中各字符的候选字的组合。这样可以基于神经网络一体化建模,实现通用输入与人名输入的统一建模协同解码,并且在保障解码效果的同时,避免给用户引入更多操作成本,从而改善人名解码效果,提升人名输入效率。提升人名输入效率。提升人名输入效率。

【技术实现步骤摘要】
文本输入法以及相关装置


[0001]本申请属于人工智能
,具体涉及一种文本输入法以及相关装置。

技术介绍

[0002]随着电子设备在人们的生活工作中越来越高的普及率,输入法作为人与电子设备的交互入口,发挥着越来越重要的作用,极大地方便了人们的输入过程。但是,人名输入作为日常输入中的一个常见场景,由于与通用输入差异较大,除极少数常用人名外,难以直接获取想要的人名解码候选结果,进而给人名输入造成了极大不便。
[0003]目前,当前输入法中输入人名主要还是基于通用引擎解码,当相应人名在词典中,则可解码出相应人名;如果不在词典中,则用户只能通过单字过滤,逐字输入人名。主要存在以下几种缺陷:(1)直接使用通用引擎解码,解码出人名结果数量太少,除少数在词典中的高频人名外,几乎都要用户自主选字组合而成,严重影响输入效率;(2)分别构建通用解码引擎与人名解码引擎,需要进行两次解码,效率低下,且需用户进行手动切换,输入体验不够智能;(3)判断人名输入概率依赖通用解码引擎人名解码能力或上下文文本内容;(4)直接使用常用姓、名等资源匹配解码不充分,解码结果严重依赖姓、名等资源丰富度,且依赖音节切分等解码前置步骤效果。因此,有必要提出一种新的方法来解决上述问题。

技术实现思路

[0004]本申请主要解决的技术问题是提供一种文本输入法以及相关装置,可以实现通用输入与人名输入的统一建模协同解码。
[0005]为解决上述技术问题,本申请采用的一个技术方案是:提供一种文本输入法,包括:获取字符串和融合候选词向量库;其中,所述字符串包括按键序列、语言序列及笔画序列;将所述字符串输入解码模型,得到所述字符串的解码词;其中,所述解码模型用于获取所述字符串的语义特征,利用所述字符串的语义特征和所述融合候选词向量库,得到所述字符串的解码词;所述融合候选词向量库中包括多个候选语义特征,所述候选语义特征是候选字的融合语义特征,所述候选字的融合语义特征是候选字的通用语义特征与候选字的人名语义特征的加权融合,所述解码词为所述字符串中各字符的候选字的组合。
[0006]其中,所述解码模型还用于获取所述字符串为人名字符串的概率值,将所述概率值作为候选字的人名语义特征的权重系数,以加权融合候选字的通用语义特征与候选字的人名语义特征,候选字的通用语义特征的权重系数与候选字的人名语义特征的权重系数的和为1。
[0007]其中,所述解码模型包括端到端神经网络结构,所述端到端神经网络结构包括预测模块,所述预测模块包括编码器以及与所述编码器连接的分类网络,所述编码器用于对所述字符串进行编码得到所述字符串的语义特征,所述分类网络用于获取所述字符串为人名字符串的概率值。
[0008]其中,所述端到端神经网络结构还包括解码模块;所述解码模块用于逐字符地从
所述融合候选词向量库中获取匹配当前字符的候选语义特征,匹配当前字符的候选语义特征为多个;融合前一字符的解码信息计算匹配当前字符的各个候选语义特征的概率。
[0009]其中,所述编码器的网络结构为BiLSTM或压缩的预训练语言表征训练模型BERT;所述分类网络的网络结构为包括全连接层的分类网络;所述解码模块的网络结构为长短期记忆网络LSTM或transformer模型。
[0010]其中,所述文本输入法还包括:获取样本语料,所述样本语料为拼音串,所述拼音串携带文本标签和概率标签,所述文本标签用于标识所述拼音串对应的文本,所述概率标签用于标识所述拼音串对应的文本是通用文本还是人名文本;将所述样本语料输入初始端到端神经网络,计算端到端神经网络的损失,所述损失为概率损失与文本损失的加权融合;基于所述损失,迭代更新端到端神经网络的参数,直至满足训练截止条件。
[0011]其中,所述文本输入法还包括:构建基础候选词向量库,所述基础候选词向量库包括通用词库和人名词库,所述通用词库中包括多个通用语义特征,所述人名词库中包括多个人名语义特征;所述获取融合候选词向量库包括:从所述基础候选词向量库中获取所述字符串中各字符的候选字的通用语义特征和人名语义特征;加权融合候选字的通用语义特征与候选字的人名语义特征,得到候选字的融合语义特征,构成所述融合候选词向量库。
[0012]其中,所述构建基础候选词向量库包括:获取通用文本语料和人名文本语料;将所述通用文本语料输入第一语言模型获取所述通用文本语料中各个字的通用语义特征,将所述人名文本语料输入第二语言模型获取所述人名文本语料中各个字的人名语义特征,形成所述基础候选词向量库。
[0013]为解决上述技术问题,本申请采用的另一个技术方案是:提供一种文本输入装置,包括:获取模块,用于获取字符串和融合候选词向量库;解码词模块,与所述获取模块连接,用于将所述字符串输入解码模型,得到所述字符串的解码词;其中,所述解码模型用于获取所述字符串的语义特征,利用所述字符串的语义特征和所述融合候选词向量库,得到所述字符串的解码词;所述融合候选词向量库中包括多个候选语义特征,所述候选语义特征是候选字的融合语义特征,所述候选字的融合语义特征是候选字的通用语义特征与候选字的人名语义特征的加权融合,所述解码词为所述字符串中各字符的候选字的组合。
[0014]为解决上述技术问题,本申请采用的又一个技术方案是:提供一种电子设备,包括相互耦接的存储器和处理器,所述存储器中存储有程序指令,所述处理器用于执行所述程序指令以实现上述任一实施例所提及的文本输入法。
[0015]为解决上述技术问题,本申请采用的又一个技术方案是:提供一种存储装置,存储有能够被处理器运行的程序指令,所述程序指令用于实现上述任一实施例所提及的文本输入法。
[0016]区别于现有技术的情况,本申请的有益效果是:本申请提供的文本输入法包括:先获取字符串和融合候选词向量库,再将字符串输入解码模型,得到字符串的解码词;其中,解码模型用于获取字符串的语义特征,利用字符串的语义特征和融合候选词向量库,得到字符串的解码词;融合候选词向量库中包括多个候选语义特征,候选语义特征是候选字的融合语义特征,候选字的融合语义特征是候选字的通用语义特征与候选字的人名语义特征的加权融合,解码词为字符串中各字符的候选字的组合。通过这种设计方式,基于神经网络一体化建模,实现通用输入与人名输入的统一建模协同解码,达到一个模型完成通用输入
解码与人名输入解码,更智能的选择展示更多合理结构,并且在保障解码效果的同时,避免给用户引入更多操作成本,从而改善人名解码效果,提升人名输入效率。
附图说明
[0017]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图,其中:
[0018]图1是本申请文本输入法一实施方式的流程示意图;
[0019]图2是图1中步骤S1对应的一实施方式的流程示意图;
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本输入法,其特征在于,包括:获取字符串和融合候选词向量库;其中,所述字符串包括按键序列、语言序列及笔画序列;将所述字符串输入解码模型,得到所述字符串的解码词;其中,所述解码模型用于获取所述字符串的语义特征,利用所述字符串的语义特征和所述融合候选词向量库,得到所述字符串的解码词;所述融合候选词向量库中包括多个候选语义特征,所述候选语义特征是候选字的融合语义特征,所述候选字的融合语义特征是候选字的通用语义特征与候选字的人名语义特征的加权融合,所述解码词为所述字符串中各字符的候选字的组合。2.根据权利要求1所述的文本输入法,其特征在于,所述解码模型还用于获取所述字符串为人名字符串的概率值,将所述概率值作为候选字的人名语义特征的权重系数,以加权融合候选字的通用语义特征与候选字的人名语义特征,候选字的通用语义特征的权重系数与候选字的人名语义特征的权重系数的和为1。3.根据权利要求2所述的文本输入法,其特征在于,所述解码模型包括端到端神经网络结构,所述端到端神经网络结构包括预测模块,所述预测模块包括编码器以及与所述编码器连接的分类网络,所述编码器用于对所述字符串进行编码得到所述字符串的语义特征,所述分类网络用于获取所述字符串为人名字符串的概率值。4.根据权利要求3所述的文本输入法,其特征在于,所述端到端神经网络结构还包括解码模块;所述解码模块用于逐字符地从所述融合候选词向量库中获取匹配当前字符的候选语义特征,匹配当前字符的候选语义特征为多个;融合前一字符的解码信息计算匹配当前字符的各个候选语义特征的概率。5.根据权利要求4所述的文本输入法,其特征在于,所述编码器的网络结构为BiLSTM或压缩的预训练语言表征模型BERT;所述分类网络的网络结构为包括全连接层的分类网络;所述解码模块的网络结构为长短期记忆网络LSTM或transformer模型。6.根据权利要求3所述的文本输入法,其特征在于,所述文本输入法还包括:获取样本语料,所述样本语料为拼音串,所述拼音串携带文本标签和概率标签,所述文本标签用于标识所述拼音串对应的文本,所述概率标...

【专利技术属性】
技术研发人员:王永灿丁克玉
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1