【技术实现步骤摘要】
样本生成、模型训练和轨迹识别方法、装置、设备和介质
[0001]本公开涉及人工智能
,尤其涉及自然语言处理、深度学习技术,具体涉及一种样本生成、模型训练和轨迹识别方法、装置、设备和介质。
技术介绍
[0002]随着智能终端的全面普及,如何进行方便快捷的人机交互显得日趋重要。相比于键盘等传统的输入方式,手写输入无需改变用户的书写习惯,且无需记忆任何编码,能够使用户按照最自然方便的方式进行文字输入,易学易用,可用性和适应性好。
技术实现思路
[0003]本公开提供了一种样本生成、模型训练和轨迹识别方法、装置、设备和介质。
[0004]根据本公开的一方面,提供了一种训练样本生成方法,包括:
[0005]根据预设编码库,确定训练汉字的编码结果;其中,所述预设编码库基于五笔编码语料中的编码字符生成;
[0006]将所述编码结果作为所述训练汉字的训练标签;
[0007]根据所述训练汉字的书写轨迹和所述训练汉字的训练标签,生成训练样本。
[0008]根据本公开的另一方面,还提供 ...
【技术保护点】
【技术特征摘要】
1.一种训练样本生成方法,包括:根据预设编码库,确定训练汉字的编码结果;其中,所述预设编码库基于五笔编码语料中的编码字符生成;将所述编码结果作为所述训练汉字的训练标签;根据所述训练汉字的书写轨迹和所述训练汉字的训练标签,生成训练样本。2.根据权利要求1所述的方法,其中,所述方法还包括:将所述五笔编码语料中各语料汉字的五笔编码拆分;根据拆分结果,构建预设编码库;根据候选字符序列在所述五笔编码语料中的出现频次,更新所述预设编码库;其中,所述候选字符序列由至少两个单个编码字符组成。3.根据权利要求2所述的方法,其中,所述拆分结果包括单个编码字符和相邻字符序列;其中,所述根据拆分结果,构建预设编码库,包括:生成包括各所述单个编码字符的预设编码库;其中,所述根据候选字符序列在所述五笔编码语料中的出现频次,更新所述预设编码库,包括:将相邻字符序列作为所述候选字符序列;将在所述五笔编码语料中的出现频次满足预设频次条件的候选字符序列,添加至所述预设编码库中,以更新所述预设编码库。4.根据权利要求2所述的方法,其中,所述拆分结果包括单个编码字符;其中,所述根据拆分结果,构建预设编码库,包括:将所述至少两个单个编码字符组合,得到所述候选字符序列,并生成包括所述单个编码字符和所述候选字符序列的预设编码库;其中,所述根据候选字符序列在所述五笔编码语料中的出现频次,更新所述预设编码库,包括:根据所述候选字符序列在所述五笔编码语料中的出现频次,确定从所述预设编码库中移除所述候选字符序列产生的似然概率损失;根据所述似然概率损失,更新所述预设编码库。5.根据权利要求4所述的方法,其中,所述根据所述候选字符序列在所述五笔编码语料中的出现频次,确定从所述预设编码库中移除所述候选字符序列产生的似然概率损失,包括:根据所述候选字符序列在所述五笔编码语料中的出现频次,确定所述预设编码库的第一似然概率;确定移除所述候选字符序列后的预设编码库的第二似然概率;将所述第一似然概率和所述第二似然概率的差值,作为所述候选字符序列产生的似然概率损失。6.根据权利要求5所述的方法,其中,所述根据所述候选字符序列在所述五笔编码语料中的出现频次,确定所述预设编码库的第一似然概率,包括:根据所述候选字符序列在所述五笔编码语料中的出现频次,确定所述候选字符序列的
参考概率;将所述预设编码库中不同候选字符序列的参考概率的最大和值,作为所述第一似然概率。7.根据权利要求4所述的方法,其中,所述根据所述似然概率损失,更新所述预设编码库,包括:从所述预设编码库中剔除似然概率损失满足预设损失条件的候选字符序列,以更新所述预设编码库。8.一种轨迹识别模型训练方法,包括:获取训练样本;其中,所述训练样本基于权利要求1
‑
7任一项所述的训练样本生成方法得到;根据所述训练样本中训练汉字的书写轨迹和所述训练汉字的训练标签,对预先构建的神经网络模型进行训练,得到轨迹识别模型。9.根据权利要求8所述的方法,其中,所述根据所述训练样本中训练汉字的书写轨迹和所述训练汉字的训练标签,对预先构建的神经网络模型进行训练,包括:根据所述训练汉字的汉字数量,确定所述训练汉字的训练书写模式;根据所述训练汉字的书写轨迹、所述训练汉字的训练标签和所述训练汉字的训练书写模式,对预先构建的神经网络模型进行训练。10.根据权利要求9所述的方法,其中,所述根据所述训练汉字的书写轨迹、所述训练汉字的训练标签和所述训练汉字的训练书写模式,对预先构建的神经网络模型进行训练,包括:根据所述训练汉字的训练书写模式和所述训练汉字的训练标签,确定所述训练汉字的标签编码特征;根据所述训练汉字的所述标签编码特征和所述训练汉字的书写轨迹对应的内容编码特征,对预先构建的神经网络模型进行训练。11.根据权利要求10所述的方法,其中,所述根据所述训练汉字的训练书写模式和所述训练汉字的训练标签,确定所述训练汉字的标签编码特征,包括:对所述训练汉字的训练标签进行编码,得到所述训练汉字的初始编码特征;对所述训练汉字的所述训练书写模式进行编码,得到所述训练汉字的模式编码特征;将所述训练汉字的所述初始编码特征与所述训练汉字的所述模式编码特征进行特征融合,得到所述训练汉字的所述标签编码...
【专利技术属性】
技术研发人员:高云泽,王小平,饶鹏昊,盛芬芬,梁鸣心,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。