文本信息生成方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:39324182 阅读:7 留言:0更新日期:2023-11-12 16:03
本申请涉及一种文本信息生成方法、装置、计算机设备、存储介质和计算机程序产品。方法包括:获取简拼字母序列,并确定简拼字母序列的字母序列信息,简拼字母序列由字母组成;基于字母序列信息确定多个数据特征信息,各数据特征信息对应不同数据特征信息维度;确定各数据特征信息的数据特征信息类型,数据特征信息类型用于描述数据特征信息在对应的数据特征信息维度下的类型;基于简拼字母序列以及数据特征信息类型,通过文本信息生成模型获取与简拼字母序列匹配的目标文本信息。采用本方法能够提升文本信息的准确度。够提升文本信息的准确度。够提升文本信息的准确度。

【技术实现步骤摘要】
文本信息生成方法、装置、计算机设备和存储介质


[0001]本申请涉及人工智能领域,特别是涉及一种文本信息生成方法、装置、计算机设备和存储介质。

技术介绍

[0002]随着互联网技术以及现代信息处理技术的发展,每一个人在使用计算机设备时均需要进行文本信息的输入,进行文本信息的输入的方法至少可以包括简拼输入方法、全拼输入方法、以及基于语言识别的输入方法等,基于不同的习惯进行文本信息的输入的方法也不同。
[0003]目前,在用户基于简拼输入方法输入简拼字母序列后,通常将简拼字母序列转换成匹配的全拼拼音序列,并使用词频或者其他命中规则对候选全拼拼音序列赋予权重,最后再将全拼拼音序列转换至到文本信息,以完成对文本信息的输入。然而,前述每个步骤均依赖于前一步骤的结果,因此每个步骤所产生的误差会逐步累计,由此降所得到的文本信息的准确度。因此,如何提升对文本信息生成的准确度是亟需解决的问题。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够提升文本信息生成的准确度的文本信息生成方法、装置、计算机设备和存储介质。
[0005]第一方面,本申请提供了一种文本信息生成方法。所述方法包括:
[0006]获取简拼字母序列,并确定简拼字母序列的字母序列信息,简拼字母序列由字母组成;
[0007]基于字母序列信息确定多个数据特征信息,各数据特征信息对应不同数据特征信息维度;
[0008]确定各数据特征信息的数据特征信息类型,数据特征信息类型用于描述数据特征信息在对应的数据特征信息维度下的类型;
[0009]基于简拼字母序列以及数据特征信息类型,通过文本信息生成模型获取与简拼字母序列匹配的目标文本信息。
[0010]在其中一个实施例中,确定简拼字母序列的字母序列信息,包括:
[0011]基于简拼字母序列确定简拼字母序列的语义特征信息;
[0012]基于语义特征信息以及简拼字母序列确定字母序列信息。
[0013]在其中一个实施例中,方法还包括:
[0014]获取描述数据信息,描述数据信息包括对象信息和场景信息中至少一项;
[0015]基于简拼字母序列确定简拼字母序列的语义特征信息,包括:
[0016]基于简拼字母序列以及描述数据信息,确定语义特征信息。
[0017]在其中一个实施例中,基于语义特征信息以及简拼字母序列确定字母序列信息,包括:
[0018]基于简拼字母序列确定简拼字母序列所包括的字母数量;
[0019]基于语义特征信息以及字母数量确定简拼字母序列的频率信息,简拼字母序列的频率信息用于描述简拼字母序列在预设语料中的出现频率。
[0020]在其中一个实施例中,基于字母序列信息确定多个数据特征信息,包括:
[0021]基于字母数量确定简拼字母序列的字母数量数据特征信息;
[0022]基于简拼字母序列的频率信息,确定简拼字母序列的频率数据特征信息。
[0023]在其中一个实施例中,确定各数据特征信息的数据特征信息类型,包括:
[0024]对字母数量数据特征信息进行数量分类处理,得到字母数量数据特征信息的字母数量类型;
[0025]对频率数据特征信息进行频率分类处理,得到频率数据特征信息的频率类型。
[0026]在其中一个实施例中,文本信息生成模型的获取方法包括:
[0027]获取文本信息,文本信息由多个文本字符组成;
[0028]基于文本信息获取样本数据,样本数据包括文本信息对应的文本简拼字母序列以及多个样本数据特征信息类型,文本简拼字母序列包括各文本字符对应的首字母,样本数据特征信息类型用于描述样本数据特征信息在对应的数据特征信息维度下的类型;
[0029]基于样本数据通过初始文本信息生成模型得到样本数据对应的预测文本信息;
[0030]基于预测文本信息以及文本信息,更新初始文本信息生成模型的模型参数,以得到文本信息生成模型。
[0031]在其中一个实施例中,基于文本信息获取样本数据,包括:
[0032]对文本信息进行字音转化处理,获取文本简拼字母序列;
[0033]对文本信息进行字音转化处理,获取文本简拼字母序列,并确定文本字母序列信息;
[0034]基于文本字母序列信息确定各样本数据特征信息类型。
[0035]在其中一个实施例中,对文本信息进行字音转化处理,获取文本简拼字母序列,包括:
[0036]对文本信息进行字音转化处理为文本全拼拼音序列,文本全拼拼音序列包括各文本字符的全拼拼音;
[0037]对全拼拼音样本序列进行简拼采样得到文本简拼字母序列。
[0038]在其中一个实施例中,确定文本字母序列信息,包括:
[0039]确定文本简拼字母序列中各文本字符对应的首字母的文本字母数量;
[0040]确定文本信息的频率信息,文本信息的频率信息用于描述文本信息在预设语料中的出现频率;
[0041]其中,文本字母序列信息包括文本字母数量以及文本信息的频率信息。
[0042]在其中一个实施例中,基于文本字母序列信息确定各样本数据特征信息类型,包括:
[0043]对文本字母数量进行数据特征信息处理,获取文本字母数量数据特征信息,并对文本信息的频率信息进行数据特征信息处理,获取文本频率数据特征信息;
[0044]对文本字母数量数据特征信息进行数据特征信息分类处理得到数量类型,并对文本频率数据特征信息进行数据特征信息分类处理得到频率类型。
[0045]第二方面,本申请还提供了一种文本信息生成装置。所述装置包括:
[0046]获取模块,用于获取简拼字母序列,并确定简拼字母序列的字母序列信息,简拼字母序列由字母组成;
[0047]确定模块,用于基于字母序列信息确定多个数据特征信息,各数据特征信息对应不同数据特征信息维度;并确定各数据特征信息的数据特征信息类型,数据特征信息类型用于描述数据特征信息在对应的数据特征信息维度下的类型;
[0048]文本信息生成模块,用于基于简拼字母序列以及数据特征信息类型,通过文本信息生成模型获取与简拼字母序列匹配的目标文本信息。
[0049]第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
[0050]获取简拼字母序列,并确定简拼字母序列的字母序列信息,简拼字母序列由字母组成;
[0051]基于字母序列信息确定多个数据特征信息,各数据特征信息对应不同数据特征信息维度;
[0052]确定各数据特征信息的数据特征信息类型,数据特征信息类型用于描述数据特征信息在对应的数据特征信息维度下的类型;
[0053]基于简拼字母序列以及数据特征信息类型,通过文本信息生成模型获取与简拼字母序列匹配的目标文本信息。
[0054]第四方面,本申请还本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本信息生成方法,其特征在于,所述方法包括:获取简拼字母序列,并确定所述简拼字母序列的字母序列信息,所述简拼字母序列由字母组成;基于所述字母序列信息确定多个数据特征信息,各所述数据特征信息对应不同数据特征信息维度;确定各所述数据特征信息的数据特征信息类型,所述数据特征信息类型用于描述所述数据特征信息在对应的数据特征信息维度下的类型;基于所述简拼字母序列以及数据特征信息类型,通过文本信息生成模型获取与所述简拼字母序列匹配的目标文本信息。2.根据权利要求1所述的方法,其特征在于,所述确定所述简拼字母序列的字母序列信息,包括:基于所述简拼字母序列确定所述简拼字母序列的语义特征信息;基于所述语义特征信息以及所述简拼字母序列确定所述字母序列信息。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:获取描述数据信息,所述描述数据信息包括对象信息和场景信息中至少一项;所述基于所述简拼字母序列确定所述简拼字母序列的语义特征信息,包括:基于所述简拼字母序列以及所述描述数据信息,确定所述语义特征信息。4.根据权利要求2所述的方法,其特征在于,所述基于所述语义特征信息以及所述简拼字母序列确定所述字母序列信息,包括:基于所述简拼字母序列确定所述简拼字母序列所包括的字母数量;基于所述语义特征信息以及所述字母数量确定所述简拼字母序列的频率信息,所述简拼字母序列的频率信息用于描述所述简拼字母序列在预设语料中的出现频率;其中,所述字母序列信息包括所述字母数量以及所述简拼字母序列的频率信息。5.根据权利要求4所述的方法,其特征在于,基于所述字母序列信息确定多个数据特征信息,包括:基于所述字母数量确定所述简拼字母序列的字母数量数据特征信息;基于所述简拼字母序列的频率信息,确定所述简拼字母序列的频率数据特征信息。6.根据权利要求5所述的方法,其特征在于,所述确定各所述数据特征信息的数据特征信息类型,包括:对所述字母数量数据特征信息进行数量分类处理,得到所述字母数量数据特征信息的字母数量类型;对所述频率数据特征信息进行频率分类处理,得到所述频率数据特征信息的频率类型。7.根据权利要求1所述的方法,其特征在于,所述文本信息生成模型的获取方法包括:获取文本信息,所述文本信息由多个文本字符组成;基于所述文本信息获取样本数据,所述样本数据包括所述文本信息对应的文本简拼字母序列以及多个样本数据特征信息类型,所述文本简拼字母序列包括各所述文本字符对应的首字母,所述样本数据特征信息类型用于描述样本数据特征信息在对应的数据特征信息维度下的类型;
基于所述样本数据通过初始文本信息生成模型得到所述样本数据对应的预测文本信息;基...

【专利技术属性】
技术研发人员:周昊冉邱周杰
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1