输入法字库构建方法及相关方法技术

技术编号:39648373 阅读:9 留言:0更新日期:2023-12-09 11:16
本申请公开了一种输入法字库构建方法及相关方法

【技术实现步骤摘要】
输入法字库构建方法及相关方法、装置、设备


[0001]本申请涉及文字输入
,特别是涉及一种输入法字库构建方法及相关方法

装置

设备


技术介绍

[0002]随着电子信息技术的飞速发展,输入法已经在手机

平板电脑

车机

学习机等众多设备中得到广泛应用

[0003]目前,现有的输入法主要通过构建包含拼音

笔画等要素与文字之间的映射关系,来支持用户通过输入拼音

笔画等要素来得到相应文字

但是,这种构建方式一方面需要准备每个文字完整的拼音

笔画等要素,较为复杂,另一方面由于某些文字,如生僻字,还可能存在笔画较多

甚至难以轻易获取其拼音等现实问题

上述种种,均会加剧输入法字库构建的复杂度

出错率以及成本,从而影响后续基于该字库的文字输入

有鉴于此,如何降低输入法字库构建的复杂度

出错率和成本,成为亟待解决的问题


技术实现思路

[0004]本申请主要解决的技术问题是提供一种输入法字库构建方法及相关想法

装置

设备,能够降低输入法字库构建的复杂度

出错率和成本

[0005]为了解决上述技术问题,本申请第一方面提供了一种输入法字库构建方法,包括:获取表征待编码文字构成要素的编码序列;其中,编码序列至少包含编码元素和编码元素的检索字符串,且检索字符串包括第一字符串

第二字符串中至少一者,第一字符串表征编码元素的发音

第二字符串表征编码元素的笔画;基于各个待编码文字的编码序列,构建字库树;其中,字库树中各文字路径对应于不同待编码文字,文字路径上节点或节点之间的连接边顺序附有编码序列中编码元素及其检索字符串

[0006]为了解决上述技术问题,本申请第一方面提供了一种文字输入方法,包括:获取字库树,并获取用户的输入字符;其中,字库树由上述第一方面中的输入法字库构建方法得到;基于输入字符和字库树进行解码,得到若干候选文字

[0007]为了解决上述技术问题,本申请第三方面提供了一种输入法字库构建装置,包括:获取模块和构建模块,获取模块,用于获取表征待编码文字构成要素的编码序列;其中,编码序列至少包含编码元素和编码元素的检索字符串,且检索字符串包括第一字符串

第二字符串中至少一者,第一字符串表征编码元素的发音

第二字符串表征编码元素的笔画;构建模块,用于基于各个待编码文字的编码序列,构建字库树;其中,字库树中各文字路径对应于不同待编码文字,文字路径上节点或节点之间的连接边顺序附有编码序列中编码元素及其检索字符串

[0008]为了解决上述技术问题,本申请第四方面提供了一种文字输入装置,包括:获取模块和解码模块,获取模块,用于获取字库树,并获取用户的输入字符;其中,字库树由上述第三方面中的输入法字库构建装置得到;解码模块,用于基于输入字符和字库树进行解码,得
到若干候选文字

[0009]为了解决上述技术问题,本申请第五方面提供了一种电子设备,包括相互耦接的存储器和处理器,存储器中存储有程序指令,处理器用于执行程序指令以实现上述第一方面的输入法字库构建方法,或实现上述第二方面的文字输入方法

[0010]为了解决上述技术问题,本申请第六方面提供了一种计算机可读存储介质,存储有能够被处理器运行的程序指令,程序指令用于实现上述第一方面的输入法字库构建方法,或实现上述第二方面的文字输入方法

[0011]上述方案,获取表征待编码文字构成要素的编码序列,且编码序列至少包括编码元素和编码元素的检索字符串,检索字符串包括第一字符串

第二字符串中至少一者,第一字符串表征编码元素的发音,第二字符串表征编码元素的笔画,基于此再基于各个待编码文字的编码序列,构建字库树,且字库树中各文字路径对应于不同待编码文字,文字路径上节点或节点之间的连接边顺序附有编码序列中编码元素及其检索字符串,故无需为待编码文字准备完整的发音

笔画等要素,而仅需准备待编码文字构成要素的编码序列即可,从而能够大大降低输入法字库构建的复杂度,特别是在待编码文字为生僻字的情况下,相较于待编码文字本身完整的笔画或拼音,其构成要素表征发音的第一字符串或表征笔画的第二字符串,更容易得到,且出错率也更低,从而能够大大降低输入法字库构建的成本和出错率

故此,能够降低输入法字库构建的复杂度

出错率和成本

附图说明
[0012]图1是本申请输入法字库构建方法一实施例的流程示意图;
[0013]图2是字库树一实施例的结构示意图;
[0014]图
3a
是自定义来源涉及的待编码文字存储结构一实施例的示意图;
[0015]图
3b
是字库树另一实施例的结构示意图;
[0016]图4是本申请输入法字库构建方法另一实施例的流程示意图;
[0017]图5是本申请文字输入方法一实施例的流程示意图;
[0018]图6是本申请输入法字库构建装置一实施例的框架示意图;
[0019]图7是本申请文字输入装置一实施例的框架示意图;
[0020]图8是本申请电子设备一实施例的框架示意图;
[0021]图9是本申请计算机可读存储介质一实施例的框架示意图

具体实施方式
[0022]下面结合说明书附图,对本申请实施例的方案进行详细说明

[0023]以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构

接口

技术之类的具体细节,以便透彻理解本申请

[0024]本文中术语“系统”和“网络”在本文中常被可互换使用

本文中术语“和
/
或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,
A

/

B
,可以表示:单独存在
A
,同时存在
A

B
,单独存在
B
这三种情况

另外,本文中片段“/”,一般表示前后关联对象是一种“或”的关系

此外,本文中的“多”表示两个或者多于两个

[0025]请参阅图1,图1是本申请输入法字库构建方法一实施例的流程示意图

具体而言,
可以包括如下步骤:
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种输入法字库构建方法,其特征在于,包括:获取表征待编码文字构成要素的编码序列;其中,所述编码序列至少包含编码元素和所述编码元素的检索字符串,且所述检索字符串包括第一字符串

第二字符串中至少一者,所述第一字符串表征所述编码元素的发音

所述第二字符串表征所述编码元素的笔画;基于各个所述待编码文字的编码序列,构建字库树;其中,所述字库树中各文字路径对应于不同所述待编码文字,所述文字路径上节点或节点之间的连接边顺序附有所述编码序列中所述编码元素及其检索字符串
。2.
根据权利要求1所述的方法,其特征在于,在所述获取表征待编码文字构成要素的编码序列之后,以及在所述基于各个所述待编码文字的编码序列,构建字库树之前,所述方法还包括:确定所述待编码文字的编码序列的获取来源;所述基于各个所述待编码文字的编码序列,构建字库树,包括:将所述获取来源相同的编码序列,划分至同一数据集合;基于所述数据集合,构建属于对应所述获取来源的字库树
。3.
根据权利要求2所述的方法,其特征在于,所述获取来源包括固定来源,属于所述固定来源的字库树包含从路径根节点至路径结束节点的若干文字路径,所述基于所述数据集合,构建属于对应所述获取来源的字库树,包括:对于所述固定来源所涉及的待编码文字,为对应所述文字路径中从所述路径根节点至解码结束节点之间相邻节点的各个连接边,顺序赋予对应所述编码序列中各个所述编码元素及其检索字符串,并为所述解码结束节点与所述路径结束节点之间的连接边赋予所述待编码文字,以构建得到所述待编码文字对应的文字路径;其中,对应位置上具有相同所述编码元素的多个所述编码序列分别对应的待编码文字,各自在所述字库树中的文字路径共享与所述对应位置相关的连接边
。4.
根据权利要求3所述的方法,其特征在于,所述方法还包括:对于所述固定来源所涉及的待编码文字,为对应所述文字路径中各个所述节点赋予节点属性;其中,所述节点属性至少包括节点类型,且所述节点类型包括路径根节点

解码节点

解码结束节点

路径结束节点中任一者
。5.
根据权利要求2所述的方法,其特征在于,所述获取来源包括自定义来源,属于所述自定义来源的字库树包含从路径根节点开始且彼此独立的若干文字路径,所述基于所述数据集合,构建属于对应所述获取来源的字库树,包括:对于所述自定义来源所涉及的待编码文字,为对应所述文字路径中从所述路径根节点开始的各个解码节点,顺序赋予对应所述编码序列中各个所述编码元素及其检索字符串,并为对应所述文字路径的解码结束节点赋予对应所述待编码文字在存储空间的存储地址
。6.
根据权利要求2至5任一项所述的方法,其特征在于,所述确定所述待编码文字的编码序列的获取来源,包括以下至少一者:响应于所述编码序列通过网络抓取

日志解析

人工标注中至少一者得到,确定所述编码序列的获取来源为固定来源;响应于所述编码序列由用户逐个所述编码元素输入得到,确定所述编码序列的获取来源为自定义来源

7.
根据权利要求2至5任一项所述的方法,其特征在于,所述获取来源至少包括自定义来源,在所述基于各个所述待编码文字的编码序列,构建字库树之后,所述方法还包括:将属于所述自定义来源的字库树上传至服务器;其中,所述服务器将接收到的字库树以及与所述接收到的字库树属于相同用户的备份字库树进行合并,作为新的备份字库树,并将所述新的备份字库树下发至所述用户的终端设备
。8.
一种文字输入方法,其特征在于,包括:...

【专利技术属性】
技术研发人员:管延伟丁克玉
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1