基于人工智能的文本向量生成方法、装置、设备及介质制造方法及图纸

技术编号：34567528 阅读：19 留言：0更新日期：2022-08-17 12:57

本申请涉及人工智能技术领域，揭示了一种基于人工智能的文本向量生成方法、装置、设备及介质，其中方法包括：获取目标文本；将所述目标文本输入预设的文本向量生成模型进行文本向量生成，得到所述目标文本对应的目标文本向量；其中，所述文本向量生成模型是采用孪生技术和停止梯度技术，对预设的初始模型训练得到的模型；所述初始模型依次包括：特征提取初始单元、平均池化初始单元和线性映射初始单元。通过在初始模型中添加线性映射初始单元和通过停止梯度技术，使初始模型可以学习到文本有意义的表示向量，而且避免了将所有数据的表示都学习到非常相似，从而解决了孪生网络的奔溃解，从而提高了确定的目标文本向量的准确性。从而提高了确定的目标文本向量的准确性。从而提高了确定的目标文本向量的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
基于人工智能的文本向量生成方法、装置、设备及介质

[0001]本申请涉及到人工智能
，特别是涉及到一种基于人工智能的文本向量生成方法、装置、设备及介质。

技术介绍

[0002]无论是在推荐算法还是在搜索算法，对文本和/或图像的表示学习是非常重要的任务。以搜索算法为例，算法的核心是，根据查询的对象的表示向量，通过余弦相似度，匹配数据库中被查询的对象的表示向量，因此表示向量至关重要。
[0003]在无监督的表示学习中，孪生网络是标配结构。孪生网络是指将数据输入到两个相同的编码器提取特征，最后判断两组数据是否相似。然而孪生网络往往存在奔溃解，导致将所有数据的表示都学习到非常相似。

技术实现思路

[0004]本申请的主要目的为提供一种基于人工智能的文本向量生成方法、装置、设备及介质，旨在解决现有技术的孪生网络往往存在奔溃解，导致将所有数据的表示都学习到非常相似的技术问题。
[0005]为了实现上述专利技术目的，本申请提出一种基于人工智能的文本向量生成方法，所述方法包括：
[0006]获取目标文本；
[0007]将所述目标文本输入预设的文本向量生成模型进行文本向量生成，得到所述目标文本对应的目标文本向量；
[0008]其中，所述文本向量生成模型是采用孪生技术和停止梯度技术，对预设的初始模型训练得到的模型；
[0009]所述初始模型依次包括：特征提取初始单元、平均池化初始单元和线性映射初始单元。
[0010]进一步的，所述将所述目标文本输入预设的文本向

【技术保护点】

【技术特征摘要】
1.一种基于人工智能的文本向量生成方法，其特征在于，所述方法包括：获取目标文本；将所述目标文本输入预设的文本向量生成模型进行文本向量生成，得到所述目标文本对应的目标文本向量；其中，所述文本向量生成模型是采用孪生技术和停止梯度技术，对预设的初始模型训练得到的模型；所述初始模型依次包括：特征提取初始单元、平均池化初始单元和线性映射初始单元。2.根据权利要求1所述的基于人工智能的文本向量生成方法，其特征在于，所述将所述目标文本输入预设的文本向量生成模型进行文本向量生成，得到所述目标文本对应的目标文本向量的步骤，包括：将所述目标文本输入所述文本向量生成模型的特征提取单元进行特征提取，得到第一特征；将所述第一特征输入所述文本向量生成模型的平均池化单元进行平均池化，得到第二特征；将所述第二特征输入所述文本向量生成模型的线性映射单元进行文本向量生成，得到所述目标文本对应的所述目标文本向量。3.根据权利要求1所述的基于人工智能的文本向量生成方法，其特征在于，所述将所述目标文本输入预设的文本向量生成模型进行文本向量生成，得到所述目标文本对应的目标文本向量的步骤之前，还包括：获取多个训练样本，其中，各个所述训练样本中的每个所述训练样本包括：第一文本样本、第二文本样本和文本相似标签；将所述初始模型分别作为孪生网络的第一分支模型及第二分支模型，并根据预设的相似度算法和所述停止梯度技术确定所述孪生网络的相似度计算层的算法；根据各个所述训练样本，对所述孪生网络进行训练，将训练结束的所述孪生网络中的所述第一分支模型或所述第二分支模型作为所述文本向量生成模型。4.根据权利要求3所述的基于人工智能的文本向量生成方法，其特征在于，所述获取多个训练样本的步骤之前，还包括：获取多个待处理文本；将各个所述待处理文本中的任一个所述待处理文本作为待分析文本；从预设的翻译模型对库中获取一个翻译模型对作为目标翻译模型对；采用所述目标翻译模型对中的第一语言翻译模型，对所述待分析文本进行翻译，得到翻译后文本；采用所述目标翻译模型对中的第一语言回译模型，对所述翻译后文本进行翻译，得到回译后文本；将所述待分析文本作为所述待分析文本对应的所述训练样本的所述第一文本样本；将所述回译后文本作为所述待分析文本对应的所述训练样本的所述第二文本样本；将预设的相同文本标识作为所述待分析文本对应的所述训练样本的所述文本相似标签。5.根据权利要求3所述的基于人工智能的文本向量生成方法，其特征在于，所述根据各
个所述训练样本，对所述孪生网络进行训练，将训练结束的所述孪生网络中的所述第一分支模型或所述第二分支模型作为所述文本向量生成模型的步骤，包括：从各个所述训练样本中获取任一个所述训练样本作为目标训练样本；将所述目标训练样本中的所述第一文本样本输入所述孪生网络中的所述第一分支模型，...

【专利技术属性】
技术研发人员：唐小初，舒畅，陈又新，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人