用于处理文本的方法、装置、电子设备和介质制造方法及图纸

技术编号:34208538 阅读:63 留言:0更新日期:2022-07-20 12:31
本公开的实施例公开了用于处理文本的方法、装置、电子设备和介质。该方法的一具体实施方式包括:获取待处理文本;将该待处理文本输入预设的文本向量提取模型,生成与该待处理文本对应的隐向量,其中,该预设的文本向量提取模型中包括预训练文本编码模型和预先训练的编码器;基于该隐向量对该待处理文本进行处理,生成处理结果。该实施方式实现了在减少有监督训练所需标注样本的基础上提高文本向量的表征效果,进而提高应用文本向量的文本处理任务的质量。任务的质量。任务的质量。

【技术实现步骤摘要】
用于处理文本的方法、装置、电子设备和介质


[0001]本公开的实施例涉及计算机
,具体涉及用于处理文本的方法、装置、电子设备和介质。

技术介绍

[0002]随着文本处理技术的发展,各种文本编码的方案也不断被提出。现有技术主要包括:(1)经典方案,如编辑距离、jaccard相似度、最长公共子序列等;(2)基于深度学习的方案,如无监督的word2vec、glove,以及有监督的BERT、sentence

BERT等。
[0003]现有技术中,采用有监督学习的模型往往能够取得比无监督学习的模型更好的效果。然而有监督学习通常需要大量的标注数据来做训练,标注数据的获得往往需要较高的成本,甚至在某些场景下很难获得优质的标注数据。因而,如何降低标注成本且取得较好的文本编码效果成为需要解决的问题。

技术实现思路

[0004]本公开的实施例提出了用于处理文本的方法、装置、电子设备和介质。
[0005]第一方面,本公开的实施例提供了一种用于处理文本的方法,该方法包括:获取待处理文本;将待处理文本输入预设的文本向量提取模型,生成与待处理文本对应的隐向量,其中,预设的文本向量提取模型中包括预训练文本编码模型和预先训练的编码器;基于隐向量对待处理文本进行处理,生成处理结果。
[0006]在一些实施例中,上述将待处理文本输入预设的文本向量提取模型,生成与待处理文本对应的隐向量,包括:将待处理文本输入至预训练文本编码模型,生成与待处理文本对应的初始文本向量;将初始文本向量输入至预先训练的编码器,生成与初始文本向量对应的隐向量。
[0007]在一些实施例中,上述预先训练的编码器包括自编码器的编码部分,上述自编码器通过以下步骤训练得到:获取样本文本向量集合;将样本文本向量集合中的样本文本向量输入至初始自编码器的编码部分,生成样本隐向量;将样本隐向量输入至初始自编码器的解码部分,生成解码向量;基于解码向量与对应的样本文本向量之间的差异,调整初始自编码器的参数;将满足训练结束条件的参数调整后的初始自编码器确定为预先训练的自编码器。
[0008]在一些实施例中,上述获取样本文本向量集合,包括:获取与待处理文本相关联的文本集合作为关联文本集合;将关联文本集合中的文本输入至预训练文本编码模型,生成与输入的各文本对应的文本预编码向量;将输入的各文本对应的文本预编码向量所形成的集合确定为样本文本向量集合。
[0009]在一些实施例中,上述待处理文本包括第一文本和第二文本;以及上述基于隐向量对待处理文本进行处理,生成处理结果,包括:生成用于表征第一文本与第二文本之间的相似度的处理结果,其中,处理结果包括第一文本和第二文本分别对应的隐向量之间的相
似度。
[0010]在一些实施例中,上述第一文本和第二文本分别包括待匹配文本和与待匹配文本对应的候选文本集合中的候选文本;以及该方法还包括:根据所生成的待匹配文本与候选文本集合中的候选文本之间的相似度从候选文本集合中选取目标数目个候选文本;将所选取的目标数目个候选文本发送至目标终端。
[0011]在一些实施例中,上述基于隐向量对待处理文本进行处理,生成处理结果,包括:将隐向量输入至预先训练的分类器,生成待处理文本对应的文本类别作为处理结果。
[0012]第二方面,本公开的实施例提供了一种用于处理文本的装置,该装置包括:获取单元,被配置成获取待处理文本;生成单元,被配置成将待处理文本输入预设的文本向量提取模型,生成与待处理文本对应的隐向量,其中,预设的文本向量提取模型中包括预训练文本编码模型和预先训练的编码器;处理单元,被配置成基于隐向量对待处理文本进行处理,生成处理结果。
[0013]在一些实施例中,上述生成单元被进一步配置成:将待处理文本输入至预训练文本编码模型,生成与待处理文本对应的初始文本向量;将初始文本向量输入至预先训练的编码器,生成与初始文本向量对应的隐向量。
[0014]在一些实施例中,上述预先训练的编码器包括自编码器的编码部分,上述自编码器通过以下步骤训练得到:获取样本文本向量集合;将样本文本向量集合中的样本文本向量输入至初始自编码器的编码部分,生成样本隐向量;将样本隐向量输入至初始自编码器的解码部分,生成解码向量;基于解码向量与对应的样本文本向量之间的差异,调整初始自编码器的参数;将满足训练结束条件的参数调整后的初始自编码器确定为预先训练的自编码器。
[0015]在一些实施例中,上述获取样本文本向量集合,包括:获取与待处理文本相关联的文本集合作为关联文本集合;将关联文本集合中的文本输入至预训练文本编码模型,生成与输入的各文本对应的文本预编码向量;将输入的各文本对应的文本预编码向量所形成的集合确定为样本文本向量集合。
[0016]在一些实施例中,上述待处理文本包括第一文本和第二文本;以及上述处理单元被进一步配置成:生成用于表征第一文本与第二文本之间的相似度的处理结果,其中,处理结果包括第一文本和第二文本分别对应的隐向量之间的相似度。
[0017]在一些实施例中,上述第一文本和第二文本分别包括待匹配文本和与待匹配文本对应的候选文本集合中的候选文本;以及该用于处理文本的装置还包括:选取单元,被配置成:根据所生成的待匹配文本与候选文本集合中的候选文本之间的相似度从候选文本集合中选取目标数目个候选文本;发送单元,被配置成:将所选取的目标数目个候选文本发送至目标终端。
[0018]第三方面,本公开的实施例提供了一种电子设备,该电子设备包括:一个或多个处理器;存储装置,其上存储有一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。
[0019]第四方面,本公开的实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面中任一实现方式描述的方法。
[0020]本公开的实施例提供的用于处理文本的方法、装置、电子设备和介质,通过将预训
练文本编码模型与预先训练的编码器相结合,利用编码器来优化预训练模型所生成的向量,从而在减少有监督训练所需标注样本的基础上提高文本向量的表征效果,进而提高应用文本向量的文本处理任务的质量。
附图说明
[0021]通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显:
[0022]图1是本公开的一个实施例可以应用于其中的示例性系统架构图;
[0023]图2是根据本公开的用于处理文本的方法的一个实施例的流程图;
[0024]图3是根据本公开的实施例的用于处理文本的方法的一个应用场景的示意图;
[0025]图4是根据本公开的用于处理文本的方法的又一个实施例的流程图;
[0026]图5是根据本公开的用于处理文本的装置的一个实施例的结构示意图;
[0027]图6是适于用来实现本公开的实施例的电子设备的结构示意图。
具体实施方式
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于处理文本的方法,包括:获取待处理文本;将所述待处理文本输入预设的文本向量提取模型,生成与所述待处理文本对应的隐向量,其中,所述预设的文本向量提取模型中包括预训练文本编码模型和预先训练的编码器;基于所述隐向量对所述待处理文本进行处理,生成处理结果。2.根据权利要求1所述的方法,其中,所述将所述待处理文本输入预设的文本向量提取模型,生成与所述待处理文本对应的隐向量,包括:将所述待处理文本输入至所述预训练文本编码模型,生成与所述待处理文本对应的初始文本向量;将所述初始文本向量输入至所述预先训练的编码器,生成与所述初始文本向量对应的隐向量。3.根据权利要求1所述的方法,其中,所述预先训练的编码器包括自编码器的编码部分,所述自编码器通过以下步骤训练得到:获取样本文本向量集合;将所述样本文本向量集合中的样本文本向量输入至初始自编码器的编码部分,生成样本隐向量;将所述样本隐向量输入至所述初始自编码器的解码部分,生成解码向量;基于所述解码向量与对应的样本文本向量之间的差异,调整所述初始自编码器的参数;将满足训练结束条件的参数调整后的初始自编码器确定为所述预先训练的自编码器。4.根据权利要求3所述的方法,其中,所述获取样本文本向量集合,包括:获取与所述待处理文本相关联的文本集合作为关联文本集合;将所述关联文本集合中的文本输入至所述预训练文本编码模型,生成与输入的各文本对应的文本预编码向量;将所述输入的各文本对应的文本预编码向量所形成的集合确定为所述样本文本向量集合。5.根据权利要求1

4之一所述的方法,其中,所述待处理文本包括第一文本和第二文本;以及所述基于所述...

【专利技术属性】
技术研发人员:吴跃
申请(专利权)人:京东科技控股股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1