一种基于生成式大模型的恶意短信变体字还原方法技术

技术编号：39307062 阅读：8 留言：0更新日期：2023-11-12 15:54

一种基于生成式大模型的恶意短信变体字还原方法，方法包括：构建用于表征不同汉字间对抗关系的对抗图；构建并训练大规模预训练语言模型，将变体字文本以及变体字文本中每个字的对抗图信息组合成模板prompt，然后将模板prompt作为大规模预训练语言模型的输入，输出是将变体字还原后的短信文本、以及从输入变体字文本中提取的变体词与正常词的映射关系；获取待还原的变体字文本，生成对应的模板prompt，然后将生成的模板prompt输入训练后的大规模预训练语言模型，输出获得还原后的短信文本、以及从待还原的变体字文本中提取的变体词与正常词的映射关系。本发明专利技术涉及自然语言处理领域，能有效提高恶意短信变体字还原的准确性和效率。性和效率。性和效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于生成式大模型的恶意短信变体字还原方法

[0001]本专利技术涉及一种基于生成式大模型的恶意短信变体字还原方法，涉及自然语言处理领域。

技术介绍

[0002]恶意短信是指利用手机短信发送诈骗、骚扰、广告等不良信息的行为，是一种常见且严重的网络安全问题。为了逃避检测和拦截，网络犯罪分子经常使用变体字发送恶意短信。变体字是指与标准汉字在形、音、义上有一定差异的字符，使得恶意短信的文本表达更加隐蔽和模糊，给恶意信息检测引擎带来了巨大的挑战。因此，恶意短信变体字还原是一项具有重要意义且具有挑战性的任务。
[0003]目前，针对恶意短信变体字的识别和还原方法主要有两类：基于规则的方法和基于机器学习的方法。基于规则的方法是根据预先定义的变体字对应关系表进行替换，优点是简单快速，缺点是需要人工维护变体字表，无法覆盖所有可能的变体字，并且容易出现误替换的情况。基于机器学习的方法是利用神经网络等模型进行变体字识别和还原，优点是可以自动学习变体字规律，缺点是需要大量的标注数据进行训练，而且模型的表示能力和生成能力有限，无法处理复杂和多样的变体字。
[0004]因此，如何有效提高恶意短信变体字还原的准确性和效率，已成为技术人员重点关注的技术问题。

技术实现思路

[0005]有鉴于此，本专利技术的目的是提供一种基于生成式大模型的恶意短信变体字还原方法，能有效提高恶意短信变体字还原的准确性和效率。
[0006]为了达到上述目的，本专利技术提供了一种基于生成式大模型的恶意短信变体字还原方法，包括有：...

【技术保护点】

【技术特征摘要】
1.一种基于生成式大模型的恶意短信变体字还原方法，其特征在于，包括有：步骤一、构建用于表征不同汉字间对抗关系的对抗图：为每个字构建一个节点，计算标注文本中每个字的读音相似字和字形相似字，然后在每个字和其读音相似字、字形相似字的对应节点之间构建一条用于表征相似关系的连接边；步骤二、构建、并训练大规模预训练语言模型，将变体字文本以及变体字文本中每个字的对抗图信息组合成模板prompt，然后将模板prompt作为大规模预训练语言模型的输入，输出是将变体字还原后的短信文本、以及从输入的变体字文本中提取的变体词与正常词的映射关系；步骤三、获取待还原的变体字文本，生成对应的模板prompt，然后将生成的模板prompt输入训练后的大规模预训练语言模型，从而输出获得还原后的短信文本、以及从待还原的变体字文本中提取的变体词与正常词的映射关系。2.根据权利要求1所述的方法，其特征在于，步骤一进一步包括有：步骤11、获取标注文本，然后逐一读取标注文本中的每个字；步骤12、将所读取字转化成拼音，然后根据拼音计算所读取字和字典中每个字的读音相似度，并从字典中选取读音相似度大于一定阈值的字作为所读取字的读音相似字，然后在对抗图中查找所读取字和其读音相似字的对应节点，在所读取字和其读音相似字的节点间构建一条连接边，即读音相似字是所读取字的邻居节点；步骤13、将所读取字转换成固定大小的图片，通过卷积神经网络学习得到所读取字的字形表示向量，然后根据字形表示向量计算所读取字和字典中每个字的字形相似度，并从字典中选取字形相似度大于一定阈值的字作为所读取字的字形相似字，最后在对抗图中查找所读取字和其字形相似字的对应节点，在所读取字和其字形相似字的节点间构建一条连接边，即字形相似字是所读取字的邻居节点。3.根据权利要求2所述的方法，其特征在于，步骤12中，计算所读取字C1和字典中每个字C2的读音相似度，进一步包括有：步骤121、将C1、C2的声母和韵母分别通过语言模型映射到高维空间中的坐标点，从而获得C1、C2的声母和韵母的表示向量，然后通过欧式距离计算C1、C2的声母相似度ss(cs1，cs2)和韵母相似度sy(cy1，...

【专利技术属性】
技术研发人员：廖建新，张坤旭，赵海秀，张少杰，王彦青，
申请(专利权)人：新讯数字科技杭州有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人