垃圾信息检测方法、装置、电子设备及存储介质制造方法及图纸

技术编号：38345570 阅读：6 留言：0更新日期：2023-08-02 09:25

本发明专利技术涉及人工智能，揭露一种垃圾信息检测方法，包括：将线性变换公式中的协方差矩阵分解为分解矩阵，根据分解矩阵和超参数对线性变换公式进行公式优化，得到白化公式，基于白化公式对初始信息检测模型编码的编码句向量集进行白化操作，得到白化句向量集；对白化句向量集中的任意两个白化句向量进行对比学习，得到对比样本结果，利用对比样本结果中的正样本对构建对应的损失函数训练更新初始信息检测模型，得到标准信息检测模型并对信息验证集进行检测，得到垃圾信息检测结果。此外，本发明专利技术还涉及区块链技术，分解矩阵可存储于区块链的节点。本发明专利技术还提出一种垃圾信息检测装置、电子设备以及存储介质。本发明专利技术可以提高垃圾信息检测的准确度。检测的准确度。检测的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
垃圾信息检测方法、装置、电子设备及存储介质

[0001]本专利技术涉及人工智能领域，尤其涉及一种垃圾信息检测方法、装置、电子设备及存储介质。

技术介绍

[0002]随着移动互联网业务的迅速发展，以及通信技术的快速普及，使得人们生活中的信息量日趋巨大，信息的传播与获取也更加便捷。与此同时，垃圾信息的肆意传播也干扰了人们的正常生活。因此，需要提出一种垃圾信息检测方法进行检测及过滤，以促进移动互联网的绿色、健康发展。
[0003]现有技术中，通常使用关键字匹配或者朴素贝叶斯分类方法对垃圾信息进行检测，这种检测方法虽然识别率较高，但考虑的仅是单个字或词对检测结果的影响，不涉及句子之间和上下文意思的理解，因此对一些故意逃避使用特定关键字的信息，拦截效果不是很好，存在漏识别问题，故需要提出一种准确度更高的垃圾信息检测方法。

技术实现思路

[0004]本专利技术提供一种垃圾信息检测方法、装置、电子设备及存储介质，其主要目的在于提高垃圾信息检测的准确度。
[0005]为实现上述目的，本专利技术提供的一种垃圾信息检测方法，包括：
[0006]获取信息样本集，按照预设划分比例将所述信息样本集拆分为信息测试集及信息验证集，将所述信息测试集输入至初始信息检测模型中，得到编码句向量集；
[0007]获取所述编码句向量集对应的线性变换公式，对所述线性变换公式中的协方差矩阵进行矩阵分解，得到分解矩阵，根据所述分解矩阵和预设超参数对所述线性变换公式进行公式优化，得到白化公式，并基于所述白化公式对所述编...

【技术保护点】

【技术特征摘要】
1.一种垃圾信息检测方法，其特征在于，所述方法包括：获取信息样本集，按照预设划分比例将所述信息样本集拆分为信息测试集及信息验证集，将所述信息测试集输入至初始信息检测模型中，得到编码句向量集；获取所述编码句向量集对应的线性变换公式，对所述线性变换公式中的协方差矩阵进行矩阵分解，得到分解矩阵，根据所述分解矩阵和预设超参数对所述线性变换公式进行公式优化，得到白化公式，并基于所述白化公式对所述编码句向量集进行白化操作，得到白化句向量集；利用对比学习算法对所述白化句向量集中的任意两个白化句向量进行对比学习，得到对比样本结果，根据所述对比样本结果中的正样本对构建对应的损失函数，并利用所述损失函数训练更新所述初始信息检测模型，得到标准信息检测模型；将所述信息验证集输入至所述标准信息检测模型中，得到垃圾信息检测结果。2.如权利要求1所述的垃圾信息检测方法，其特征在于，所述对所述线性变换公式中的协方差矩阵进行矩阵分解，得到分解矩阵，包括：获取所述协方差矩阵对应的转换矩阵，建立所述转换矩阵和预设单位矩阵之间的矩阵等式；在所述矩阵等式的左边乘上第一预设数，在所述矩阵等式的右边乘上第二预设数，得到标准矩阵；对所述标准矩阵进行奇异值分解，得到分解矩阵。3.如权利要求1所述的垃圾信息检测方法，其特征在于，所述根据所述分解矩阵和预设超参数对所述线性变换公式进行公式优化，得到白化公式，包括：将所述分解矩阵替换所述线性变换公式中的协方差矩阵，得到初始优化公式；将所述预设超参数引入至所述初始优化公式中，得到白化公式。4.如权利要求1所述的垃圾信息检测方法，其特征在于，所述利用对比学习算法对所述白化句向量集中的任意两个白化句向量进行对比学习，得到对比样本结果，包括：定义正样本标签及对应的负样本标签，识别所述白化句向量集中的白化句向量对应的类型，根据类型将所述白化句向量分配至所述正样本标签下，得到多个正样本；对多个所述正样本中的任意两个正样本进行组合，得到多个正样本对；将所述白化句向量集中除去所述正样本对的白化句向量分配至所述负样本标签中，得到多个负样本，并将多个所述负样本组合为负样本对；将多个所述正样本对和多个所述负样本对进行汇总，得到对比样本结果。5.如权利要求1所述的垃圾信息检测方法，其特征在于，所述根据所述对比样本结果中的正样本对构建对应的损失函数，包括：所述损失函数为：所述损失函数为：
其中，TotalLoss为损失函数值，InNCEloss为单个损失函数值，和为所述正样本对中的正样本，τ为温度参数，exp为指数函数，为所述正样本对的余弦相似度，N1为所述负样本的数量，a为预设固定参数，M为...

【专利技术属性】
技术研发人员：舒畅，陈又新，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人