文本处理方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：27195042 阅读：15 留言：0更新日期：2021-01-31 11:47

本申请涉及一种文本处理方法、装置、计算机设备和存储介质。所述方法包括：获取第一训练文本；若所述第一训练文本的长度大于长度阈值，则对所述第一训练文本中的语义无关词进行去除处理，得到处理文本；获取所述处理文本中各个分词对应的词向量，得到初始词向量序列；根据所述初始词向量序列进行统计，得到所述第一训练文本中的去除词对应的统计词向量；根据所述去除词在所述第一训练文本中的位置将所述统计词向量加入到所述初始词向量序列中，得到目标词向量序列；根据所述目标词向量序列对文本识别模型进行训练，得到训练后的文本识别模型。采用本方法能够提高文本识别模型的识别准确度。准确度。准确度。

全部详细技术资料下载

【技术实现步骤摘要】
文本处理方法、装置、计算机设备和存储介质

[0001]本申请涉及人工智能
，特别是涉及一种文本处理方法、装置、计算机设备和存储介质。

技术介绍

[0002]随着科学技术的发展，在很多情况下都需要进行文本识别，例如识别文本所对应的意图或者对文本进行翻译等。
[0003]传统技术中，在训练文本识别模型时，可以获取训练文本，通过训练文本以及对应的标签训练文本识别模型，得到文本识别模型之后，可以基于文本识别模型对文本进行文本识别，然而经常出现训练得到的文本识别模型的准确度比较低的问题。

技术实现思路

[0004]基于此，有必要针对上述技术问题，提供一种文本处理方法、装置、计算机设备和存储介质。
[0005]一种文本处理方法，所述方法包括：获取第一训练文本；若所述第一训练文本的长度大于长度阈值，则对所述第一训练文本中的语义无关词进行去除处理，得到处理文本；获取所述处理文本中各个分词对应的词向量，得到初始词向量序列；根据所述初始词向量序列进行统计，得到所述第一训练文本中的去除词对应的统计词向量；根据所述去除词在所述第一训练文本中的位置将所述统计词向量加入到所述初始词向量序列中，得到目标词向量序列；根据所述目标词向量序列对文本识别模型进行训练，得到训练后的文本识别模型。
[0006]在一些实施例中，所述若所述第一训练文本的长度大于长度阈值，则对所述第一训练文本中的语义无关词进行去除处理，得到处理文本包括：若所述第一训练文本的长度大于长度阈值，则获取所述第一训练文本中的目标实体，所述目标...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法，其特征在于，所述方法包括：获取第一训练文本；若所述第一训练文本的长度大于预设长度阈值，则对所述第一训练文本中的语义无关词进行去除处理，得到处理文本；获取所述处理文本中各个分词对应的词向量，得到初始词向量序列；根据所述初始词向量序列进行统计，得到所述第一训练文本中的去除词对应的统计词向量；根据所述去除词在所述第一训练文本中的位置将所述统计词向量加入到所述初始词向量序列中，得到目标词向量序列；根据所述目标词向量序列对文本识别模型进行训练，得到训练后的文本识别模型。2.根据权利要求1所述的方法，其特征在于，所述若所述第一训练文本的长度大于预设长度阈值，则对所述第一训练文本中的语义无关词进行去除处理，得到处理文本包括：若所述第一训练文本的长度大于预设长度阈值，则获取所述第一训练文本中的目标实体，所述目标实体包括所述第一训练文本中的首实体或者所述第一训练文本中的尾实体的至少一个；将所述第一训练文本中，所述目标实体对应的端部词作为不满足语义要求的语义无关词；对所述第一训练文本中的语义无关词进行去除处理，得到处理文本。3.根据权利要求2所述的方法，其特征在于，所述将所述第一训练文本中，所述目标实体对应的端部词作为不满足语义要求的语义无关词包括以下步骤的至少一个；若所述目标实体包括所述第一训练文本中的首实体，则将所述第一训练文本中，所述首实体之前的词作为不满足语义要求的语义无关词；若所述目标实体包括所述第一训练文本中的尾实体时，则将所述第一训练文本中，所述尾实体之后的词作为不满足语义要求的语义无关词。4.根据权利要求1所述的方法，其特征在于，所述根据所述初始词向量序列进行统计，得到所述第一训练文本中的去除词对应的统计词向量包括：对所述初始词向量序列的各个词向量中，相同位置的向量值进行统计，得到各个向量维度对应的统计值；根据所述向量维度对应的统计值确定所述统计词向量中对应维度的向量值，得到所述统计词向量。5.根据权利要求4所述的方法，其特征在于，所述统计值包括均值以及标准差，所述根据所述向量维度对应的统计值确定...

【专利技术属性】
技术研发人员：郑哲，李松如，张秋实，刘云峰，
申请(专利权)人：深圳追一科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人