一种基于统计语言模型的加密方法技术

技术编号:37555319 阅读:13 留言:0更新日期:2023-05-15 07:39
本发明专利技术公开了一种基于统计语言模型的加密方法,包括:建立基础统计语言模型;获取包含若干语言资料的语言资料集;将所述语言资料集作为训练数据对所述基础统计语言模型进行训练,得到目标统计语言模型;根据所述目标统计语言模型对待加密的文本进行加密。通过本发明专利技术给出的技术方案,建立统计语言模型,并根据该模型对数据进行加密,尤其是文本数据进行加密,能提高加密数据的逻辑性与通顺性,进一步提高加密数据的欺骗性,降低因加密后的数据文件变成乱码导致被不法分子当作破解焦点导致的数据泄露风险,提高数据安全性,同时本发明专利技术给出的统计语言模型还可以应用于对音频资料的加密,适用范围较广。适用范围较广。适用范围较广。

【技术实现步骤摘要】
一种基于统计语言模型的加密方法


[0001]本专利技术涉及语言加密
,特别涉及一种基于统计语言模型的加密方法。

技术介绍

[0002]随着社会文明的进步,越来越多的人开始重视个人隐私的保护,对个人隐私数据进行加密便是隐私保护技术手段之一。就当下计算机技术而言,绝大多数数据都可以转换为文本进行存储,主流的数据加密方式依然为建立密钥,根据密钥对化为文本的隐私数据进行加密,获得加密数据信息。这种加密方式具备着加密简单及加密速度较快的优点,但其缺陷同样明显,那就是加密后的数据通常为乱码,容易被察觉数据的加密痕迹,进而导致加密数据信息被不法分子作为攻击焦点,隐私数据的泄露风险提高。

技术实现思路

[0003]本专利技术旨在至少一定程度上解决上述技术中的技术问题之一。为此,本专利技术的目的在于提出一种基于统计语言模型的加密方法,旨在于将可读的数据信息,伪装加密为另一种无关的可读的数据信息,降低加密数据被破解的风险,提高数据安全性。
[0004]为达到上述目的,本专利技术实施例提出了一种基于统计语言模型的加密方法,包括:
[0005]建立基础统计语言模型;
[0006]获取包含若干语言资料的语言资料集;
[0007]将所述语言资料集作为训练数据对所述基础统计语言模型进行训练,得到目标统计语言模型;
[0008]根据所述目标统计语言模型对待加密的文本进行加密。
[0009]优选的,在将所述语言资料集作为训练数据对所述基础统计语言模型进行训练前,包括:
[0010]获取所述语言资料集中每个语言资料的类型信息;
[0011]根据所述类型信息将所述语言资料集划分为若干个语言资料子集,并对所述语言资料子集的类型信息进行标注。
[0012]优选的,在将所述语言资料集作为训练数据对所述基础统计语言模型进行训练前,还包括:对所述语言资料集中的语言资料进行筛选。
[0013]优选的,得到目标统计语言模型的方法,包括:
[0014]获取所述语言资料集中的语言资料子集的数量N;
[0015]复制所述基础统计语言模型,获得N个基础统计语言模型;
[0016]将所述语言资料子集与所述基础统计语言模型进行一对一映射;
[0017]将所述语言资料子集作为训练数据对映射的基础统计语言模型进行训练,获得类别统计语言模型,并根据所述语言资料子集的类型信息对所述类别统计语言模型进行标注;
[0018]重复以上方法,获得N个不同的类别统计语言模型,并将所述N个不同的类别统计
语言模型组合为目标统计语言模型。
[0019]优选的,将所述语言资料子集作为训练数据对映射的基础统计语言模型进行训练,获得类别统计语言模型,包括:
[0020]基于贪婪算法建立语言资料拆分算法;
[0021]根据所述语言资料拆分算法将所述语言资料子集拆分为若干个语言资料单元,并根据所述语言资料单元建立语言资料单元集;所述语言资料为文字信息或可以转换为文字信息的数据资料,所述语言资料单元为字或词语;
[0022]在所述语言资料单元集中第一次选择任意种语言资料单元,作为前置资料单元;在所述语言资料单元集中第二次选择任意种语言资料单元,作为后置资料单元;
[0023]有序连接所述前置资料单元与所述后置资料单元,得到关联单元;
[0024]统计所述前置资料单元在所述语言资料集中的第一相对频率;统计所述后置资料单元在所述语言资料集中的第二相对频率;
[0025]将所述第一相对频率及第二相对频率代入关联度计算公式,得到所述后置资料单元与所述前置资料单元的关联度;
[0026]重复以上方法,计算每种前置资料单元与每种后置资料单元之间的关联度,得到语言资料单元之间的关联度行列表;
[0027]将所述关联度行列表植入所述基础统计语言模型中,获得类别统计语言模型。
[0028]优选的,在根据所述语言资料拆分算法将所述语言资料子集拆分为若干个语言资料单元后,包括:
[0029]获取所述语言资料单元的词性信息;
[0030]获取词性信息为专有名词的语言资料单元,并对其进行通用性修正;所述通用性修正包括名词拆分、字段替换及名词重组。
[0031]优选的,根据所述目标统计语言模型对待加密文本进行加密,包括:
[0032]将所述待加密文本拆分为若干个待加密文本关联单元;所述待加密文本关联单元中包含若干个待加密文本单元;
[0033]根据所述待加密文本关联单元建立待加密文本关联单元集;
[0034]将所述待加密文本关联单元集输入所述目标统计语言模型集,所述目标统计语言模型集根据所述关联度行列表,得到所述待加密文本关联单元的目标关联度;
[0035]所述目标统计语言模型集根据所述目标关联度获得若干个目标关联单元;
[0036]根据自然语言的语法规则将待加密文本关联单元替换为所述目标关联单元;
[0037]将所述待加密文本关联单元进行连接,获得目标加密文本。
[0038]优选的,在将所述待加密文本关联单元集输入所述目标统计语言模型集前,还包括:对所述目标统计语言模型集进行修正;
[0039]对所述目标统计语言模型集进行修正,包括:
[0040]获取所述待加密文本单元集的属性信息;所述属性信息包括待加密文本单元的种类及每种待加密文本单元的数量;
[0041]根据所述属性信息分别计算所述待加密文本单元集与所述目标统计语言模型中每个类别统计语言模型的适配度,并与预设适配度作比较;
[0042]筛选出适配度小于所述预设适配度的类别统计语言模型,作为待屏蔽类别统计语
言模型;
[0043]对所述待屏蔽类别统计语言模型进行屏蔽操作,得到修正后的目标统计语言模型集。
[0044]优选的,所述统计语言模型的用途还包括:
[0045]获取待加密的目标语音资料;
[0046]对所述目标语音资料进行解码,得到原始语音数字信号;
[0047]利用语音端点检测技术将所述原始语音数字信号划分为有效语音信号及无效语音信号;
[0048]对所述有效语音信号进行声学处理,得到处理语音信号;所述声学处理包括高频分量振幅补偿、重叠分帧及信号加窗;
[0049]根据语音特征提取算法提取所述处理语音信号的语音特征;
[0050]根据所述语音特征中的共振峰分布信息将所述处理语音信号进行纵向切分,并记录切分方式;
[0051]根据所述切分方式将所述原始语音数字信号纵向切分为若干个音素信号,并确定每个音素信号对应的音素字母;
[0052]根据音素字母拼读规则将每个音素信号对应的音素字母进行组合,得到若干个音素字母组;
[0053]获取每个所述语言资料单元对应的音素字母组,作为标准音素字母组;
[0054]将所述音素字母组与所述标准音素字母组进行匹配关联,得到第一关联关系表;
[005本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于统计语言模型的加密方法,其特征在于,包括:建立基础统计语言模型;获取包含若干语言资料的语言资料集;将所述语言资料集作为训练数据对所述基础统计语言模型进行训练,得到目标统计语言模型;根据所述目标统计语言模型对待加密的文本进行加密。2.如权利要求1所述的基于统计语言模型的加密方法,其特征在于,在将所述语言资料集作为训练数据对所述基础统计语言模型进行训练前,包括:获取所述语言资料集中每个语言资料的类型信息;根据所述类型信息将所述语言资料集划分为若干个语言资料子集,并对所述语言资料子集的类型信息进行标注。3.如权利要求1所述的基于统计语言模型的加密方法,其特征在于,在将所述语言资料集作为训练数据对所述基础统计语言模型进行训练前,还包括:对所述语言资料集中的语言资料进行筛选。4.如权利要求2所述的基于统计语言模型的加密方法,其特征在于,得到目标统计语言模型的方法,包括:获取所述语言资料集中的语言资料子集的数量N;复制所述基础统计语言模型,获得N个基础统计语言模型;将所述语言资料子集与所述基础统计语言模型进行一对一映射;将所述语言资料子集作为训练数据对映射的基础统计语言模型进行训练,获得类别统计语言模型,并根据所述语言资料子集的类型信息对所述类别统计语言模型进行标注;重复以上方法,获得N个不同的类别统计语言模型,并将所述N个不同的类别统计语言模型组合为目标统计语言模型。5.如权利要求4所述的基于统计语言模型的加密方法,其特征在于,将所述语言资料子集作为训练数据对映射的基础统计语言模型进行训练,获得类别统计语言模型,包括:基于贪婪算法建立语言资料拆分算法;根据所述语言资料拆分算法将所述语言资料子集拆分为若干个语言资料单元,并根据所述语言资料单元建立语言资料单元集;所述语言资料为文字信息或可以转换为文字信息的数据资料,所述语言资料单元为字或词语;在所述语言资料单元集中第一次选择任意种语言资料单元,作为前置资料单元;在所述语言资料单元集中第二次选择任意种语言资料单元,作为后置资料单元;有序连接所述前置资料单元与所述后置资料单元,得到关联单元;统计所述前置资料单元在所述语言资料集中的第一相对频率;统计所述后置资料单元在所述语言资料集中的第二相对频率;将所述第一相对频率及第二相对频率代入关联度计算公式,得到所述后置资料单元与所述前置资料单元的关联度;重复以上方法,计算每种前置资料单元与每种后置资料单元之间的关联度,得到语言资料单元之间的关联度行列表;将所述关联度行列表植入所述基础统计语言模型中,获得类别统计语言模型。
6.如权利要求5所述的基于统计语言模型的加密方法,其特征在于,在根据所述语言资料拆分算法将所述语言资料子集拆分为若干个语言资料单元后,包括:获取所述语言资料单元的词性信息;获取词性信息为专有名词的语言资料单元,并对其进行通用性修正...

【专利技术属性】
技术研发人员:李超王亚东
申请(专利权)人:南京邮电大学盐城大数据研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1