文本向量表征模型的训练和文本聚类制造技术

技术编号：30525113 阅读：12 留言：0更新日期：2021-10-27 23:09

本公开关于一种文本向量表征模型的训练方法和装置及文本聚类方法和装置。所述训练方法包括：获取文本样本；将文本样本转换为第一文本输入矩阵和经过掩码处理后的第二文本输入矩阵；将第一文本输入矩阵输入至所述文本向量表征模型，以获取第一文本向量表征；将第二文本输入矩阵输入至辅助文本向量表征模型，以获取第二文本向量表征；根据第一文本向量表征与第二文本向量表征之间的相似度损失值来更新所述文本向量表征模型的参数，以对所述文本向量表征模型进行训练。向量表征模型进行训练。向量表征模型进行训练。

全部详细技术资料下载

【技术实现步骤摘要】
文本向量表征模型的训练和文本聚类

[0001]本公开涉及自然语言处理(NLP)
，更具体地说，涉及一种文本向量表征模型的训练方法和装置及文本聚类方法和装置。

技术介绍

[0002]通常利用文本样本(例如，海量的商品标题)对传统的自然语言处理(NLP)模型进行训练，然后利用训练后的NLP模型获取输入文本的文本向量表征，但是，通常训练得到的NLP模型的实际应用效果欠佳。例如，通过传统的NLP模型获取的文本向量表征的整体数据噪点偏高，文本向量表征的准确率和召回率整体偏低。当利用通过传统的NLP模型获取的文本向量表征进行文本聚类时，文本聚类后得到的文本聚类索引的整体数据噪点偏高，文本聚类索引的召回率和准确率也偏低。因此，需要改善用于获取文本向量表征的机器学习模型的训练方法以及相应的文本聚类方法。

技术实现思路

[0003]本公开提供一种文本向量表征模型的训练方法和装置及文本聚类方法和装置，以至少解决上述相关技术中的问题，也可不解决任何上述问题。
[0004]根据本公开实施例的第一方面，提供一种文本向量表征模型的训练方法，所述训练方法包括：获取文本样本；将文本样本转换为第一文本输入矩阵和经过掩码处理后的第二文本输入矩阵；将第一文本输入矩阵输入至所述文本向量表征模型，以获取第一文本向量表征；将第二文本输入矩阵输入至辅助文本向量表征模型，以获取第二文本向量表征；根据第一文本向量表征与第二文本向量表征之间的相似度损失值来更新所述文本向量表征模型的参数，以对所述文本向量表征模型进行训练。
[000...

【技术保护点】

【技术特征摘要】
1.一种文本向量表征模型的训练方法，其特征在于，包括：获取文本样本；将文本样本转换为第一文本输入矩阵和经过掩码处理后的第二文本输入矩阵；将第一文本输入矩阵输入至所述文本向量表征模型，以获取第一文本向量表征；将第二文本输入矩阵输入至辅助文本向量表征模型，以获取第二文本向量表征；根据第一文本向量表征与第二文本向量表征之间的相似度损失值来更新所述文本向量表征模型的参数，以对所述文本向量表征模型进行训练。2.如权利要求1所述的训练方法，其特征在于，所述训练方法还包括：基于所述文本向量表征模型的更新后的参数来更新所述辅助文本向量表征模型的参数。3.如权利要求2所述的训练方法，其特征在于，所述训练方法还包括：通过将每次迭代训练得到的更新参数后的所述文本向量表征模型和更新参数后的所述辅助文本向量表征模型用于下一次迭代训练，来迭代执行如权利要求2所述的训练方法，直到所述文本向量表征模型收敛，得到训练后的所述文本向量表征模型。4.如权利要求2所述的训练方法，其特征在于，基于所述文本向量表征模型的更新后的参数来更新所述辅助文本向量表征模型的参数包括：基于所述文本向量表征模型的更新后的参数，利用指数移动平均算法确定所述辅助文本向量表征模型的参数更新函数；利用所述参数更新函数更新所述辅助文本向量表征模型的参数。5.一种文本聚类方法，其特征在于，包括：获取文本；将文本转换成文本输入矩阵；将文本输入矩阵输入至文本向量表征模型，以获取文本向量表征；对所述文本向量表征进行文本聚类，以获取与所述文本对应的文本聚类索引，其中，所述文本向量表征模型是使用如权利要求1至4中任一项所述的文本向量表征模型的训练方法训练得到的。6.一种文本向量表征模型的训练装置，其特征在于，包括：...

【专利技术属性】
技术研发人员：尚航，吕廷迅，
申请(专利权)人：北京达佳互联信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人