用于处理文本的方法、装置、电子设备和介质制造方法及图纸

技术编号：34208538 阅读：63 留言：0更新日期：2022-07-20 12:31

本公开的实施例公开了用于处理文本的方法、装置、电子设备和介质。该方法的一具体实施方式包括：获取待处理文本；将该待处理文本输入预设的文本向量提取模型，生成与该待处理文本对应的隐向量，其中，该预设的文本向量提取模型中包括预训练文本编码模型和预先训练的编码器；基于该隐向量对该待处理文本进行处理，生成处理结果。该实施方式实现了在减少有监督训练所需标注样本的基础上提高文本向量的表征效果，进而提高应用文本向量的文本处理任务的质量。任务的质量。任务的质量。

全部详细技术资料下载

【技术实现步骤摘要】
用于处理文本的方法、装置、电子设备和介质

[0001]本公开的实施例涉及计算机
，具体涉及用于处理文本的方法、装置、电子设备和介质。

技术介绍

[0002]随着文本处理技术的发展，各种文本编码的方案也不断被提出。现有技术主要包括：(1)经典方案，如编辑距离、jaccard相似度、最长公共子序列等；(2)基于深度学习的方案，如无监督的word2vec、glove，以及有监督的BERT、sentence
‑
BERT等。
[0003]现有技术中，采用有监督学习的模型往往能够取得比无监督学习的模型更好的效果。然而有监督学习通常需要大量的标注数据来做训练，标注数据的获得往往需要较高的成本，甚至在某些场景下很难获得优质的标注数据。因而，如何降低标注成本且取得较好的文本编码效果成为需要解决的问题。

技术实现思路

[0004]本公开的实施例提出了用于处理文本的方法、装置、电子设备和介质。
[0005]第一方面，本公开的实施例提供了一种用于处理文本的方法，该方法包括：获取待处理文本；将待处理文本输入预设的文本向量提取模型，生成与待处理文本对应的隐向量，其中，预设的文本向量提取模型中包括预训练文本编码模型和预先训练的编码器；基于隐向量对待处理文本进行处理，生成处理结果。
[0006]在一些实施例中，上述将待处理文本输入预设的文本向量提取模型，生成与待处理文本对应的隐向量，包括：将待处理文本输入至预训练文本编码模型，生成与待处理文本对应的初始文本向量；将初始文本向量输入至预先...

【技术保护点】

【技术特征摘要】
1.一种用于处理文本的方法，包括：获取待处理文本；将所述待处理文本输入预设的文本向量提取模型，生成与所述待处理文本对应的隐向量，其中，所述预设的文本向量提取模型中包括预训练文本编码模型和预先训练的编码器；基于所述隐向量对所述待处理文本进行处理，生成处理结果。2.根据权利要求1所述的方法，其中，所述将所述待处理文本输入预设的文本向量提取模型，生成与所述待处理文本对应的隐向量，包括：将所述待处理文本输入至所述预训练文本编码模型，生成与所述待处理文本对应的初始文本向量；将所述初始文本向量输入至所述预先训练的编码器，生成与所述初始文本向量对应的隐向量。3.根据权利要求1所述的方法，其中，所述预先训练的编码器包括自编码器的编码部分，所述自编码器通过以下步骤训练得到：获取样本文本向量集合；将所述样本文本向量集合中的样本文本向量输入至初始自编码器的编码部分，生成样本隐向量；将所述样本隐向量输入至所述初始自编码器的解码部分，生成解码向量；基于所述解码向量与对应的样本文本向量之间的差异，调整所述初始自编码器的参数；将满足训练结束条件的参数调整后的初始自编码器确定为所述预先训练的自编码器。4.根据权利要求3所述的方法，其中，所述获取样本文本向量集合，包括：获取与所述待处理文本相关联的文本集合作为关联文本集合；将所述关联文本集合中的文本输入至所述预训练文本编码模型，生成与输入的各文本对应的文本预编码向量；将所述输入的各文本对应的文本预编码向量所形成的集合确定为所述样本文本向量集合。5.根据权利要求1
‑
4之一所述的方法，其中，所述待处理文本包括第一文本和第二文本；以及所述基于所述...

【专利技术属性】
技术研发人员：吴跃，
申请(专利权)人：京东科技控股股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人