文本处理方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:27195042 阅读:15 留言:0更新日期:2021-01-31 11:47
本申请涉及一种文本处理方法、装置、计算机设备和存储介质。所述方法包括:获取第一训练文本;若所述第一训练文本的长度大于长度阈值,则对所述第一训练文本中的语义无关词进行去除处理,得到处理文本;获取所述处理文本中各个分词对应的词向量,得到初始词向量序列;根据所述初始词向量序列进行统计,得到所述第一训练文本中的去除词对应的统计词向量;根据所述去除词在所述第一训练文本中的位置将所述统计词向量加入到所述初始词向量序列中,得到目标词向量序列;根据所述目标词向量序列对文本识别模型进行训练,得到训练后的文本识别模型。采用本方法能够提高文本识别模型的识别准确度。准确度。准确度。

【技术实现步骤摘要】
文本处理方法、装置、计算机设备和存储介质


[0001]本申请涉及人工智能
,特别是涉及一种文本处理方法、装置、计算机设备和存储介质。

技术介绍

[0002]随着科学技术的发展,在很多情况下都需要进行文本识别,例如识别文本所对应的意图或者对文本进行翻译等。
[0003]传统技术中,在训练文本识别模型时,可以获取训练文本,通过训练文本以及对应的标签训练文本识别模型,得到文本识别模型之后,可以基于文本识别模型对文本进行文本识别,然而经常出现训练得到的文本识别模型的准确度比较低的问题。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种文本处理方法、装置、计算机设备和存储介质。
[0005]一种文本处理方法,所述方法包括:获取第一训练文本;若所述第一训练文本的长度大于长度阈值,则对所述第一训练文本中的语义无关词进行去除处理,得到处理文本;获取所述处理文本中各个分词对应的词向量,得到初始词向量序列;根据所述初始词向量序列进行统计,得到所述第一训练文本中的去除词对应的统计词向量;根据所述去除词在所述第一训练文本中的位置将所述统计词向量加入到所述初始词向量序列中,得到目标词向量序列;根据所述目标词向量序列对文本识别模型进行训练,得到训练后的文本识别模型。
[0006]在一些实施例中,所述若所述第一训练文本的长度大于长度阈值,则对所述第一训练文本中的语义无关词进行去除处理,得到处理文本包括:若所述第一训练文本的长度大于长度阈值,则获取所述第一训练文本中的目标实体,所述目标实体包括所述第一训练文本中的首实体或者所述第一训练文本中的尾实体的至少一个;将所述第一训练文本中,所述目标实体对应的端部词作为不满足语义要求的语义无关词;对所述第一训练文本中的语义无关词进行去除处理,得到处理文本。
[0007]在一些实施例中,所述将所述第一训练文本中,所述目标实体对应的端部词作为不满足语义要求的语义无关词包括以下步骤的至少一个;若所述目标实体包括所述第一训练文本中的首实体,则将所述第一训练文本中,所述首实体之前的词作为不满足语义要求的语义无关词;若所述目标实体包括所述第一训练文本中的尾实体,则将所述第一训练文本中,所述尾实体之后的词作为不满足语义要求的语义无关词。
[0008]在一些实施例中,所述根据所述初始词向量序列进行统计,得到所述第一训练文本中的去除词对应的统计词向量包括:对所述初始词向量序列的各个词向量中,相同位置的向量值进行统计,得到各个向量维度对应的统计值;根据所述向量维度对应的统计值确定所述统计词向量中对应维度的向量值,得到所述统计词向量。
[0009]在一些实施例中,所述统计值包括均值以及标准差,所述根据所述向量维度对应
的统计值确定所述统计词向量中对应维度的向量值,各个维度对应的向量值组成所述统计词向量包括:将所述标准差与对应的向量维度的目标系数相乘,得到乘积;将所述均值减去所述乘积,得到所述统计词向量中对应维度的向量值。
[0010]在一些实施例中,得到所述目标系数的步骤包括:获取所述初始词向量序列中,所述向量维度对应的向量值在各个数值范围的分布数量;根据各个所述数值范围的分布数量确定所述目标系数。
[0011]在一些实施例中,所述处理文本中各个分词对应的词向量是基于训练后的词向量模型得到的,训练词向量模型的步骤包括:获取第二训练文本,获取所述第二训练文本中的专有实体;获取预设的词语条件概率,作为所述专有实体与对应的近邻实体之间的词语条件概率,所述专有实体对应的近邻实体为所述第二训练文本中,与所述专有实体的距离小于距离阈值的实体;根据所述词语条件概率以及所述第二训练文本对词向量模型进行训练,得到训练后的词向量模型。
[0012]一种文本处理装置,所述装置包括:第一训练文本获取模块,用于获取第一训练文本;处理文本得到模块,用于若所述第一训练文本的长度大于长度阈值,对所述第一训练文本中的语义无关词进行去除处理,得到处理文本;初始词向量序列得到模块,用于获取所述处理文本中各个分词对应的词向量,得到初始词向量序列;统计词向量得到模块,用于根据所述初始词向量序列进行统计,得到所述第一训练文本中的去除词对应的统计词向量;目标词向量序列得到模块,用于根据所述去除词在所述第一训练文本中的位置将所述统计词向量加入到所述初始词向量序列中,得到目标词向量序列;训练模块,用于根据所述目标词向量序列对文本识别模型进行训练,得到训练后的文本识别模型。
[0013]在一些实施例中,所述处理文本得到模块包括:目标实体获取单元,用于若所述第一训练文本的长度大于长度阈值,则获取所述第一训练文本中的目标实体,所述目标实体包括所述第一训练文本中的首实体或者所述第一训练文本中的尾实体的至少一个;语义无关词获取单元,用于将所述第一训练文本中,所述目标实体对应的端部词作为不满足语义要求的语义无关词;去除单元,用于对所述第一训练文本中的语义无关词进行去除处理,得到处理文本。
[0014]在一些实施例中,所述语义无关词获取单元,用于执行以下步骤的至少一个;若所述目标实体包括所述第一训练文本中的首实体,则将所述第一训练文本中,所述首实体之前的词作为不满足语义要求的语义无关词;若所述目标实体包括所述第一训练文本中的尾实体,则将所述第一训练文本中,所述尾实体之后的词作为不满足语义要求的语义无关词。
[0015]在一些实施例中,所述统计词向量得到模块包括:统计值得到单元,用于对所述初始词向量序列的各个词向量中,相同位置的向量值进行统计,得到各个向量维度对应的统计值;统计词向量得到单元,用于根据所述向量维度对应的统计值确定所述统计词向量中对应维度的向量值,得到所述统计词向量。
[0016]在一些实施例中,所述统计值包括均值以及标准差,所述统计词向量得到单元用于:将所述标准差与对应的向量维度的目标系数相乘,得到乘积;将所述均值减去所述乘积,得到所述统计词向量中对应维度的向量值。
[0017]在一些实施例中,得到所述目标系数的模块用于:获取所述初始词向量序列中,所述向量维度对应的向量值在各个数值范围的分布数量;根据各个所述数值范围的分布数量
确定所述目标系数。
[0018]在一些实施例中,所述处理文本中各个分词对应的词向量是基于训练后的词向量模型得到的,训练词向量模型的模块包括:专有实体获取模块,用于获取第二训练文本,获取所述第二训练文本中的专有实体;词语条件概率获取模块,用于获取预设的词语条件概率,作为所述专有实体与对应的近邻实体之间的词语条件概率,所述专有实体对应的近邻实体为所述第二训练文本中,与所述专有实体的距离小于距离阈值的实体;词向量模型得到模块,用于根据所述词语条件概率以及所述第二训练文本对词向量模型进行训练,得到训练后的词向量模型。
[0019]一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取第一训练文本;若所述第一训练文本的长度大于长度阈值,则对所述第一训练文本中的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,其特征在于,所述方法包括:获取第一训练文本;若所述第一训练文本的长度大于预设长度阈值,则对所述第一训练文本中的语义无关词进行去除处理,得到处理文本;获取所述处理文本中各个分词对应的词向量,得到初始词向量序列;根据所述初始词向量序列进行统计,得到所述第一训练文本中的去除词对应的统计词向量;根据所述去除词在所述第一训练文本中的位置将所述统计词向量加入到所述初始词向量序列中,得到目标词向量序列;根据所述目标词向量序列对文本识别模型进行训练,得到训练后的文本识别模型。2.根据权利要求1所述的方法,其特征在于,所述若所述第一训练文本的长度大于预设长度阈值,则对所述第一训练文本中的语义无关词进行去除处理,得到处理文本包括:若所述第一训练文本的长度大于预设长度阈值,则获取所述第一训练文本中的目标实体,所述目标实体包括所述第一训练文本中的首实体或者所述第一训练文本中的尾实体的至少一个;将所述第一训练文本中,所述目标实体对应的端部词作为不满足语义要求的语义无关词;对所述第一训练文本中的语义无关词进行去除处理,得到处理文本。3.根据权利要求2所述的方法,其特征在于,所述将所述第一训练文本中,所述目标实体对应的端部词作为不满足语义要求的语义无关词包括以下步骤的至少一个;若所述目标实体包括所述第一训练文本中的首实体,则将所述第一训练文本中,所述首实体之前的词作为不满足语义要求的语义无关词;若所述目标实体包括所述第一训练文本中的尾实体时,则将所述第一训练文本中,所述尾实体之后的词作为不满足语义要求的语义无关词。4.根据权利要求1所述的方法,其特征在于,所述根据所述初始词向量序列进行统计,得到所述第一训练文本中的去除词对应的统计词向量包括:对所述初始词向量序列的各个词向量中,相同位置的向量值进行统计,得到各个向量维度对应的统计值;根据所述向量维度对应的统计值确定所述统计词向量中对应维度的向量值,得到所述统计词向量。5.根据权利要求4所述的方法,其特征在于,所述统计值包括均值以及标准差,所述根据所述向量维度对应的统计值确定...

【专利技术属性】
技术研发人员:郑哲李松如张秋实刘云峰
申请(专利权)人:深圳追一科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1