文本向量表征模型的训练和文本聚类制造技术

技术编号:30525113 阅读:12 留言:0更新日期:2021-10-27 23:09
本公开关于一种文本向量表征模型的训练方法和装置及文本聚类方法和装置。所述训练方法包括:获取文本样本;将文本样本转换为第一文本输入矩阵和经过掩码处理后的第二文本输入矩阵;将第一文本输入矩阵输入至所述文本向量表征模型,以获取第一文本向量表征;将第二文本输入矩阵输入至辅助文本向量表征模型,以获取第二文本向量表征;根据第一文本向量表征与第二文本向量表征之间的相似度损失值来更新所述文本向量表征模型的参数,以对所述文本向量表征模型进行训练。向量表征模型进行训练。向量表征模型进行训练。

【技术实现步骤摘要】
文本向量表征模型的训练和文本聚类


[0001]本公开涉及自然语言处理(NLP)
,更具体地说,涉及一种文本向量表征模型的训练方法和装置及文本聚类方法和装置。

技术介绍

[0002]通常利用文本样本(例如,海量的商品标题)对传统的自然语言处理(NLP)模型进行训练,然后利用训练后的NLP模型获取输入文本的文本向量表征,但是,通常训练得到的NLP模型的实际应用效果欠佳。例如,通过传统的NLP模型获取的文本向量表征的整体数据噪点偏高,文本向量表征的准确率和召回率整体偏低。当利用通过传统的NLP模型获取的文本向量表征进行文本聚类时,文本聚类后得到的文本聚类索引的整体数据噪点偏高,文本聚类索引的召回率和准确率也偏低。因此,需要改善用于获取文本向量表征的机器学习模型的训练方法以及相应的文本聚类方法。

技术实现思路

[0003]本公开提供一种文本向量表征模型的训练方法和装置及文本聚类方法和装置,以至少解决上述相关技术中的问题,也可不解决任何上述问题。
[0004]根据本公开实施例的第一方面,提供一种文本向量表征模型的训练方法,所述训练方法包括:获取文本样本;将文本样本转换为第一文本输入矩阵和经过掩码处理后的第二文本输入矩阵;将第一文本输入矩阵输入至所述文本向量表征模型,以获取第一文本向量表征;将第二文本输入矩阵输入至辅助文本向量表征模型,以获取第二文本向量表征;根据第一文本向量表征与第二文本向量表征之间的相似度损失值来更新所述文本向量表征模型的参数,以对所述文本向量表征模型进行训练。
[0005]可选地,所述训练方法还包括:基于所述文本向量表征模型的更新后的参数来更新所述辅助文本向量表征模型的参数。
[0006]可选地,所述训练方法还包括:通过将每次迭代训练得到的更新参数后的所述文本向量表征模型和更新参数后的所述辅助文本向量表征模型用于下一次迭代训练,来迭代执行如上所述的训练方法,直到所述文本向量表征模型收敛,得到训练后的所述文本向量表征模型。
[0007]可选地,所述将文本样本转换为第一文本输入矩阵和经过掩码处理后的第二文本输入矩阵,包括:
[0008]将文本样本转换为索引向量,所述索引向量中的每个索引元素分别表示文本样本中对应的单个字符或用于满足索引向量长度限制的补余元素;将索引向量转换为第一文本输入矩阵;对索引向量进行掩码处理,将掩码处理后的索引向量转换为所述第二文本输入矩阵。
[0009]可选地,所述索引向量和所述掩码处理后的索引向量通过与相同的预定词向量矩阵进行映射,来分别转换为所述第一文本输入矩阵和所述第二文本输入矩阵。
[0010]可选地,基于所述文本向量表征模型的更新后的参数来更新所述辅助文本向量表征模型的参数包括:基于所述文本向量表征模型的更新后的参数,利用指数移动平均算法确定所述辅助文本向量表征模型的参数更新函数;利用所述参数更新函数更新所述辅助文本向量表征模型的参数。
[0011]可选地,第一文本向量表征与第二文本向量表征之间的相似度损失值是通过以下步骤得到的:确定第一文本向量表征与第二文本向量表征之间的相似度;基于所述相似度,确定第一文本向量表征与第二文本向量表征之间的相似度损失值。
[0012]可选地,所述训练方法还包括:对所述第一文本向量表征进行线性映射;将所述第一文本向量表征替换为线性映射后的第一文本向量表征。
[0013]根据本公开实施例的第二方面,提供一种文本聚类方法,所述文本聚类方法包括:获取文本;将文本转换成文本输入矩阵;将文本输入矩阵输入至文本向量表征模型,以获取文本向量表征;对所述文本向量表征进行文本聚类,以获取与所述文本对应的文本聚类索引,其中,所述文本向量表征模型是使用如上所述的文本向量表征模型的训练方法训练得到的。
[0014]可选地,所述对文本向量表征进行文本聚类包括:基于所述文本向量表征的L2距离对所述文本向量表征进行文本聚类。
[0015]可选地,所述对文本向量表征进行文本聚类包括:利用具有噪声的基于密度的文本聚类算法对所述文本向量表征进行文本聚类。
[0016]根据本公开实施例的第三方面,提供一种向量表征模型的训练装置,包括:文本获取单元,被配置为获取文本样本;转换单元,被配置为将文本样本转换为第一文本输入矩阵和经过掩码处理后的第二文本输入矩阵;文本向量表征获取单元,被配置为将第一文本输入矩阵输入至所述文本向量表征模型,以获取第一文本向量表征,并且将第二文本输入矩阵输入至辅助文本向量表征模型,以获取第二文本向量表征;训练单元,被配置为根据第一文本向量表征与第二文本向量表征之间的相似度损失值来更新所述文本向量表征模型的参数,以对所述文本向量表征模型进行训练。
[0017]可选地,所述训练单元还被配置为:基于所述文本向量表征模型的更新后的参数来更新所述辅助文本向量表征模型的参数。
[0018]可选地,所述训练单元还被配置为:通过将每次迭代训练得到的更新参数后的所述文本向量表征模型和更新参数后的所述辅助文本向量表征模型用于下一次迭代训练,来迭代执行如上所述的操作,直到所述文本向量表征模型收敛,得到训练后的所述文本向量表征模型。
[0019]可选地,所述转换单元被配置为:将文本样本转换为索引向量,所述索引向量中的每个索引元素分别表示文本样本中对应的单个字符或用于满足索引向量长度限制的补余元素;将索引向量转换为第一文本输入矩阵;对索引向量进行掩码处理,将掩码处理后的索引向量转换为所述第二文本输入矩阵。
[0020]可选地,所述索引向量和所述掩码处理后的索引向量通过与相同的预定词向量矩阵进行映射,来分别转换为所述第一文本输入矩阵和所述第二文本输入矩阵。
[0021]可选地,所述训练单元被配置为:基于所述文本向量表征模型的更新后的参数,利用指数移动平均算法确定所述辅助文本向量表征模型的参数更新函数;利用所述参数更新
函数更新所述辅助文本向量表征模型的参数。
[0022]可选地,所述训练单元被配置为:确定第一文本向量表征与第二文本向量表征之间的相似度;基于所述相似度,确定第一文本向量表征与第二文本向量表征之间的相似度损失值。
[0023]可选地,所述文本向量表征获取单元还被配置为:对所述第一文本向量表征进行线性映射;将所述第一文本向量表征替换为线性映射后的第一文本向量表征。
[0024]根据本公开实施例的第四方面,提供一种文本聚类装置,包括:文本获取单元,被配置为获取文本;转换单元,被配置为将文本转换成文本输入矩阵;文本向量表征获取单元,被配置为将文本输入矩阵输入至文本向量表征模型,以获取文本向量表征;文本聚类单元,被配置为对所述文本向量表征进行文本聚类,以获取与所述文本对应的文本聚类索引,其中,所述文本向量表征模型是使用如上所述的文本向量表征模型的训练方法训练得到的。
[0025]可选地,文本聚类单元被配置为:基于所述文本向量表征的L2距离对所述文本向量表征进行文本聚类。
[0026]可选地,文本聚类单元被配置本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本向量表征模型的训练方法,其特征在于,包括:获取文本样本;将文本样本转换为第一文本输入矩阵和经过掩码处理后的第二文本输入矩阵;将第一文本输入矩阵输入至所述文本向量表征模型,以获取第一文本向量表征;将第二文本输入矩阵输入至辅助文本向量表征模型,以获取第二文本向量表征;根据第一文本向量表征与第二文本向量表征之间的相似度损失值来更新所述文本向量表征模型的参数,以对所述文本向量表征模型进行训练。2.如权利要求1所述的训练方法,其特征在于,所述训练方法还包括:基于所述文本向量表征模型的更新后的参数来更新所述辅助文本向量表征模型的参数。3.如权利要求2所述的训练方法,其特征在于,所述训练方法还包括:通过将每次迭代训练得到的更新参数后的所述文本向量表征模型和更新参数后的所述辅助文本向量表征模型用于下一次迭代训练,来迭代执行如权利要求2所述的训练方法,直到所述文本向量表征模型收敛,得到训练后的所述文本向量表征模型。4.如权利要求2所述的训练方法,其特征在于,基于所述文本向量表征模型的更新后的参数来更新所述辅助文本向量表征模型的参数包括:基于所述文本向量表征模型的更新后的参数,利用指数移动平均算法确定所述辅助文本向量表征模型的参数更新函数;利用所述参数更新函数更新所述辅助文本向量表征模型的参数。5.一种文本聚类方法,其特征在于,包括:获取文本;将文本转换成文本输入矩阵;将文本输入矩阵输入至文本向量表征模型,以获取文本向量表征;对所述文本向量表征进行文本聚类,以获取与所述文本对应的文本聚类索引,其中,所述文本向量表征模型是使用如权利要求1至4中任一项所述的文本向量表征模型的训练方法训练得到的。6.一种文本向量表征模型的训练装置,其特征在于,包括:...

【专利技术属性】
技术研发人员:尚航吕廷迅
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1