一种文本表示向量生成方法、装置以及设备制造方法及图纸

技术编号：40965346 阅读：21 留言：0更新日期：2024-04-18 20:45

本说明书实施例公开了一种文本表示向量生成方法、装置以及设备，对于一些技术语义较强的领域，有助于更可靠、更高效而节省成本地进行该领域下的业务文本聚类。方案包括：利用训练过的文本生成模型，对原始文本进行处理，生成所述原始文本的语义相似文本，所述文本生成模型中包含多层用于加噪以及降噪的处理结构；利用所述原始文本和所述语义相似文本，训练文本表示模型；利用训练过的所述文本表示模型，对目标文本进行处理，生成对应的可用于文本聚类的文本表示向量。

全部详细技术资料下载

【技术实现步骤摘要】

本说明书涉及机器学习，尤其涉及一种文本表示向量生成方法、装置以及设备。

技术介绍

1、在实际业务需求的大量文本聚类场景中，每个场景往往具有自己与众不同的一套常用术语和习惯表述方式，尤其对于一些技术语义较强的领域，大量的专业术语将使得公共数据集训练的基础模型无所适从。

2、目前的解决方案是采用与该领域密切相关的数据集，对模型进行适当的预训练，以提升该领域下业务文本的聚类效果。然而，对于绝大部分具有一定技术语义的业务领域，并不存在相应的已标注数据集，和其文本表述与常用术语近似。此时，如果要通过人工打标，为每个业务领域的文本都定制对应的高质量标注数据集，需要消耗大量的人工与时间成本。

3、基于此，对于一些技术语义较强的领域，需要有助于更高效而节省成本地进行该领域下的业务文本聚类的方案。

技术实现思路

1、本说明书一个或多个实施例提供一种文本表示向量生成方法、装置、设备以及存储介质，用以解决如下技术问题：对于一些技术语义较强的领域，需要有助于更高效而节省成本地进行该领域下的...

【技术保护点】

1.一种文本表示向量生成方法，包括：

2.如权利要求1所述的方法，所述利用训练过的所述文本表示模型，对目标文本进行处理，生成对应的可用于文本聚类的文本表示向量，具体包括：

3.如权利要求1所述的方法，所述文本生成模型按照如下方式进行训练：

4.如权利要求3所述的方法，所述将每层处理后输出的隐藏状态向量，通过所述对应的编码器进行加噪处理，具体包括：

5.如权利要求4所述的方法，所述在下一层的处理中进行降噪处理，具体包括：

6.如权利要求3所述的方法，所述解码器是根据预训练生成模型的解码器构造的，所述对应的编码器是根据变分自编码器构...

【技术特征摘要】

1.一种文本表示向量生成方法，包括：

2.如权利要求1所述的方法，所述利用训练过的所述文本表示模型，对目标文本进行处理，生成对应的可用于文本聚类的文本表示向量，具体包括：

3.如权利要求1所述的方法，所述文本生成模型按照如下方式进行训练：

4.如权利要求3所述的方法，所述将每层处理后输出的隐藏状态向量，通过所述对应的编码器进行加噪处理，具体包括：

5.如权利要求4所述的方法，所述在下一层的处理中进行降噪处理，具体包括：

6.如权利要求3所述的方法，所述解码器是根据预训练生成模型的解码器构造的，所述对应的编码器是根据变分自编码器构造的。

7.如权利要求3所述的方法，所述生成结果、所述对照文本以对应的词汇id序列表示；

8.如权利要求3所述的方法，所述训练数据集为涉及多个业务领域的泛用训练数据集；

9.如权利要求1所述的方法，所述利用训练过的所述文本表示模型，对目标文本进行处理，生成对应的可用于文本聚类的文本表示向量，具体包括：

10.如权利要求1所述的方法，所述生成对应的可用于文本聚类的文本表示向量，具体包括：

11.一种文本表示向量生成装置，包括：

12.如权利要求11所述的装置，所述文本表示向量生成模块，利用训练过的所述文本表示模型，分别对多个目标业务文本进行处理，相应生成对应的多个业务文本表示向...

【专利技术属性】
技术研发人员：王珍懿，宁海燕，凌青，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人