一种基于生成式大模型的恶意短信变体字还原方法技术

技术编号:39307062 阅读:8 留言:0更新日期:2023-11-12 15:54
一种基于生成式大模型的恶意短信变体字还原方法,方法包括:构建用于表征不同汉字间对抗关系的对抗图;构建并训练大规模预训练语言模型,将变体字文本以及变体字文本中每个字的对抗图信息组合成模板prompt,然后将模板prompt作为大规模预训练语言模型的输入,输出是将变体字还原后的短信文本、以及从输入变体字文本中提取的变体词与正常词的映射关系;获取待还原的变体字文本,生成对应的模板prompt,然后将生成的模板prompt输入训练后的大规模预训练语言模型,输出获得还原后的短信文本、以及从待还原的变体字文本中提取的变体词与正常词的映射关系。本发明专利技术涉及自然语言处理领域,能有效提高恶意短信变体字还原的准确性和效率。性和效率。性和效率。

【技术实现步骤摘要】
一种基于生成式大模型的恶意短信变体字还原方法


[0001]本专利技术涉及一种基于生成式大模型的恶意短信变体字还原方法,涉及自然语言处理领域。

技术介绍

[0002]恶意短信是指利用手机短信发送诈骗、骚扰、广告等不良信息的行为,是一种常见且严重的网络安全问题。为了逃避检测和拦截,网络犯罪分子经常使用变体字发送恶意短信。变体字是指与标准汉字在形、音、义上有一定差异的字符,使得恶意短信的文本表达更加隐蔽和模糊,给恶意信息检测引擎带来了巨大的挑战。因此,恶意短信变体字还原是一项具有重要意义且具有挑战性的任务。
[0003]目前,针对恶意短信变体字的识别和还原方法主要有两类:基于规则的方法和基于机器学习的方法。基于规则的方法是根据预先定义的变体字对应关系表进行替换,优点是简单快速,缺点是需要人工维护变体字表,无法覆盖所有可能的变体字,并且容易出现误替换的情况。基于机器学习的方法是利用神经网络等模型进行变体字识别和还原,优点是可以自动学习变体字规律,缺点是需要大量的标注数据进行训练,而且模型的表示能力和生成能力有限,无法处理复杂和多样的变体字。
[0004]因此,如何有效提高恶意短信变体字还原的准确性和效率,已成为技术人员重点关注的技术问题。

技术实现思路

[0005]有鉴于此,本专利技术的目的是提供一种基于生成式大模型的恶意短信变体字还原方法,能有效提高恶意短信变体字还原的准确性和效率。
[0006]为了达到上述目的,本专利技术提供了一种基于生成式大模型的恶意短信变体字还原方法,包括有:
[0007]步骤一、构建用于表征不同汉字间对抗关系的对抗图:为每个字构建一个节点,计算标注文本中每个字的读音相似字和字形相似字,然后在每个字和其读音相似字、字形相似字的对应节点之间构建一条用于表征相似关系的连接边;
[0008]步骤二、构建、并训练大规模预训练语言模型,将变体字文本以及变体字文本中每个字的对抗图信息组合成模板prompt,然后将模板prompt作为大规模预训练语言模型的输入,输出是将变体字还原后的短信文本、以及从输入的变体字文本中提取的变体词与正常词的映射关系;
[0009]步骤三、获取待还原的变体字文本,生成对应的模板prompt,然后将生成的模板prompt输入训练后的大规模预训练语言模型,从而输出获得还原后的短信文本、以及从待还原的变体字文本中提取的变体词与正常词的映射关系。
[0010]与现有技术相比,本专利技术的有益效果是:本专利技术使用大规模预训练语言模型,并在模板prompt中加入对抗图信息作为上下文知识,可以有效还原包含变体字的恶意短信,极
大的提高恶意短信变体字还原的准确性和效率;本专利技术在使用模板prompt时使用对抗图信息作为额外的输入,以捕获汉字间的读音和字形关系,通过音形相似关系使得模型可以更好的理解变体字和正常字之间的相似关系,增强大模型对变体字规律的理解和掌握;本专利技术模型输出包括变体字还原后的短信文本、以及变体词与正常词的映射关系两部分,通过将变体词识别扩充变体词词库和变体字还原两部分的功能合并,采用大模型作为一个端到端的系统,不仅有效地还原包含变体字的恶意短信,而且还可以通过模型不断输出获得新的变体词与正常词的映射关系,方便快捷地扩充变体词词库,有效地解决了人工扩展词库的滞后性,充分应用于仍采用变体词规则替换的垃圾短信系统,对垃圾短信迅速拦截。
附图说明
[0011]图1是本专利技术一种基于生成式大模型的恶意短信变体字还原方法流程图。
[0012]图2是图1步骤一的具体步骤流程图。
[0013]图3是图2步骤12中计算所读取字C1和字典中每个字C2的读音相似度的具体步骤流程图。
具体实施方式
[0014]为使本专利技术的目的、技术方案和优点更加清楚,下面结合附图对本专利技术作进一步的详细描述。
[0015]恶意短信的检测和拦截是一项具有挑战性的任务,因为恶意短信的表达方式复杂多样。其中一个主要难点是,网络犯罪分子为了逃避检测,经常使用变体字发送恶意短信。变体字是指与标准汉字在形、音、义上有一定差异的字符,如异体字、俗字、错别字、简化字、繁体字等。变体字的变换方法多种多样,如同音或近音、相似形状、拼音分词、英文谐音、符号字母、文本加特殊符号等,如表1所示。这些变体字使得恶意短信的文本表达更加隐蔽和模糊,给恶意信息检测引擎带来了巨大的挑战。
[0016]表1变体字对抗类型
[0017][0018]如图1所示,本专利技术一种基于生成式大模型的恶意短信变体字还原方法,包括有:
[0019]步骤一、构建用于表征不同汉字间对抗关系的对抗图:为每个字构建一个节点,计算标注文本中每个字的读音相似字和字形相似字,然后在每个字和其读音相似字、字形相似字的对应节点之间构建一条用于表征相似关系的连接边;
[0020]步骤二、构建、并训练大规模预训练语言模型,将变体字文本以及变体字文本中每个字的对抗图信息组合成模板prompt,然后将模板prompt作为大规模预训练语言模型的输入,输出是将变体字还原后的短信文本、以及从输入的变体字文本中提取的变体词与正常词的映射关系;
[0021]步骤三、获取待还原的变体字文本,生成对应的模板prompt,然后将生成的模板prompt输入训练后的大规模预训练语言模型,从而输出获得还原后的短信文本、以及从待还原的变体字文本中提取的变体词与正常词的映射关系。
[0022]大规模预训练语言模型可以具体使用ChatGLM

6B,在模型基础上使用本专利技术设计的prompt做垂直领域的微调,在模型的输入和输出端添加特定的模板(prompt),来引导模型生成期望的结果。输入端添加待还原文本和对抗图信息,对抗图信息是基于汉字间的读音和字形相似度构建的无向图,用来显示建模汉字间的对抗关系,检索待还原文本中每个字在对抗图信息中的邻居节点,即与该字有相似读音或字形的其他字,并将它们作为提示词,与待还原文本共同作为提示词。输出除了获得还原后的短信文本,还可以提取出变体词与正常词的映射关系,从而将获取的变体词与正常词的映射关系不断补充写入变体词词库中。
[0023]如图2所示,步骤一进一步包括有:
[0024]步骤11、获取标注文本,然后逐一读取标注文本中的每个字;
[0025]步骤12、将所读取字转化成拼音,然后根据拼音计算所读取字和字典中每个字的读音相似度,并从字典中选取读音相似度大于一定阈值的字作为所读取字的读音相似字,然后在对抗图中查找所读取字和其读音相似字的对应节点,在所读取字和其读音相似字的节点间构建一条连接边,即读音相似字是所读取字的邻居节点;
[0026]步骤13、将所读取字转换成固定大小的图片,通过卷积神经网络学习得到所读取字的字形表示向量,然后根据字形表示向量计算所读取字和字典中每个字的字形相似度,并从字典中选取字形相似度大于一定阈值的字作为所读取字的字形相似字,最后在对抗图中查找所读取字和其字形相似字的对应节点,在所读取字和其字形本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于生成式大模型的恶意短信变体字还原方法,其特征在于,包括有:步骤一、构建用于表征不同汉字间对抗关系的对抗图:为每个字构建一个节点,计算标注文本中每个字的读音相似字和字形相似字,然后在每个字和其读音相似字、字形相似字的对应节点之间构建一条用于表征相似关系的连接边;步骤二、构建、并训练大规模预训练语言模型,将变体字文本以及变体字文本中每个字的对抗图信息组合成模板prompt,然后将模板prompt作为大规模预训练语言模型的输入,输出是将变体字还原后的短信文本、以及从输入的变体字文本中提取的变体词与正常词的映射关系;步骤三、获取待还原的变体字文本,生成对应的模板prompt,然后将生成的模板prompt输入训练后的大规模预训练语言模型,从而输出获得还原后的短信文本、以及从待还原的变体字文本中提取的变体词与正常词的映射关系。2.根据权利要求1所述的方法,其特征在于,步骤一进一步包括有:步骤11、获取标注文本,然后逐一读取标注文本中的每个字;步骤12、将所读取字转化成拼音,然后根据拼音计算所读取字和字典中每个字的读音相似度,并从字典中选取读音相似度大于一定阈值的字作为所读取字的读音相似字,然后在对抗图中查找所读取字和其读音相似字的对应节点,在所读取字和其读音相似字的节点间构建一条连接边,即读音相似字是所读取字的邻居节点;步骤13、将所读取字转换成固定大小的图片,通过卷积神经网络学习得到所读取字的字形表示向量,然后根据字形表示向量计算所读取字和字典中每个字的字形相似度,并从字典中选取字形相似度大于一定阈值的字作为所读取字的字形相似字,最后在对抗图中查找所读取字和其字形相似字的对应节点,在所读取字和其字形相似字的节点间构建一条连接边,即字形相似字是所读取字的邻居节点。3.根据权利要求2所述的方法,其特征在于,步骤12中,计算所读取字C1和字典中每个字C2的读音相似度,进一步包括有:步骤121、将C1、C2的声母和韵母分别通过语言模型映射到高维空间中的坐标点,从而获得C1、C2的声母和韵母的表示向量,然后通过欧式距离计算C1、C2的声母相似度ss(cs1,cs2)和韵母相似度sy(cy1,...

【专利技术属性】
技术研发人员:廖建新张坤旭赵海秀张少杰王彦青
申请(专利权)人:新讯数字科技杭州有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1