【技术实现步骤摘要】
文本信息生成方法、装置、计算机设备和存储介质
[0001]本申请涉及人工智能领域,特别是涉及一种文本信息生成方法、装置、计算机设备和存储介质。
技术介绍
[0002]随着互联网技术以及现代信息处理技术的发展,每一个人在使用计算机设备时均需要进行文本信息的输入,进行文本信息的输入的方法至少可以包括简拼输入方法、全拼输入方法、以及基于语言识别的输入方法等,基于不同的习惯进行文本信息的输入的方法也不同。
[0003]目前,在用户基于简拼输入方法输入简拼字母序列后,通常将简拼字母序列转换成匹配的全拼拼音序列,并使用词频或者其他命中规则对候选全拼拼音序列赋予权重,最后再将全拼拼音序列转换至到文本信息,以完成对文本信息的输入。然而,前述每个步骤均依赖于前一步骤的结果,因此每个步骤所产生的误差会逐步累计,由此降所得到的文本信息的准确度。因此,如何提升对文本信息生成的准确度是亟需解决的问题。
技术实现思路
[0004]基于此,有必要针对上述技术问题,提供一种能够提升文本信息生成的准确度的文本信息生成方法、装置、计算机设备和存储介质。
[0005]第一方面,本申请提供了一种文本信息生成方法。所述方法包括:
[0006]获取简拼字母序列,并确定简拼字母序列的字母序列信息,简拼字母序列由字母组成;
[0007]基于字母序列信息确定多个数据特征信息,各数据特征信息对应不同数据特征信息维度;
[0008]确定各数据特征信息的数据特征信息类型,数据特征信息类型用于描述数据特征信息在对应的数 ...
【技术保护点】
【技术特征摘要】
1.一种文本信息生成方法,其特征在于,所述方法包括:获取简拼字母序列,并确定所述简拼字母序列的字母序列信息,所述简拼字母序列由字母组成;基于所述字母序列信息确定多个数据特征信息,各所述数据特征信息对应不同数据特征信息维度;确定各所述数据特征信息的数据特征信息类型,所述数据特征信息类型用于描述所述数据特征信息在对应的数据特征信息维度下的类型;基于所述简拼字母序列以及数据特征信息类型,通过文本信息生成模型获取与所述简拼字母序列匹配的目标文本信息。2.根据权利要求1所述的方法,其特征在于,所述确定所述简拼字母序列的字母序列信息,包括:基于所述简拼字母序列确定所述简拼字母序列的语义特征信息;基于所述语义特征信息以及所述简拼字母序列确定所述字母序列信息。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:获取描述数据信息,所述描述数据信息包括对象信息和场景信息中至少一项;所述基于所述简拼字母序列确定所述简拼字母序列的语义特征信息,包括:基于所述简拼字母序列以及所述描述数据信息,确定所述语义特征信息。4.根据权利要求2所述的方法,其特征在于,所述基于所述语义特征信息以及所述简拼字母序列确定所述字母序列信息,包括:基于所述简拼字母序列确定所述简拼字母序列所包括的字母数量;基于所述语义特征信息以及所述字母数量确定所述简拼字母序列的频率信息,所述简拼字母序列的频率信息用于描述所述简拼字母序列在预设语料中的出现频率;其中,所述字母序列信息包括所述字母数量以及所述简拼字母序列的频率信息。5.根据权利要求4所述的方法,其特征在于,基于所述字母序列信息确定多个数据特征信息,包括:基于所述字母数量确定所述简拼字母序列的字母数量数据特征信息;基于所述简拼字母序列的频率信息,确定所述简拼字母序列的频率数据特征信息。6.根据权利要求5所述的方法,其特征在于,所述确定各所述数据特征信息的数据特征信息类型,包括:对所述字母数量数据特征信息进行数量分类处理,得到所述字母数量数据特征信息的字母数量类型;对所述频率数据特征信息进行频率分类处理,得到所述频率数据特征信息的频率类型。7.根据权利要求1所述的方法,其特征在于,所述文本信息生成模型的获取方法包括:获取文本信息,所述文本信息由多个文本字符组成;基于所述文本信息获取样本数据,所述样本数据包括所述文本信息对应的文本简拼字母序列以及多个样本数据特征信息类型,所述文本简拼字母序列包括各所述文本字符对应的首字母,所述样本数据特征信息类型用于描述样本数据特征信息在对应的数据特征信息维度下的类型;
基于所述样本数据通过初始文本信息生成模型得到所述样本数据对应的预测文本信息;基...
【专利技术属性】
技术研发人员:周昊,冉邱,周杰,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。