一种基于统计语言模型的加密方法技术

技术编号：37555319 阅读：13 留言：0更新日期：2023-05-15 07:39

本发明专利技术公开了一种基于统计语言模型的加密方法，包括：建立基础统计语言模型；获取包含若干语言资料的语言资料集；将所述语言资料集作为训练数据对所述基础统计语言模型进行训练，得到目标统计语言模型；根据所述目标统计语言模型对待加密的文本进行加密。通过本发明专利技术给出的技术方案，建立统计语言模型，并根据该模型对数据进行加密，尤其是文本数据进行加密，能提高加密数据的逻辑性与通顺性，进一步提高加密数据的欺骗性，降低因加密后的数据文件变成乱码导致被不法分子当作破解焦点导致的数据泄露风险，提高数据安全性，同时本发明专利技术给出的统计语言模型还可以应用于对音频资料的加密，适用范围较广。适用范围较广。适用范围较广。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于统计语言模型的加密方法

[0001]本专利技术涉及语言加密
，特别涉及一种基于统计语言模型的加密方法。

技术介绍

[0002]随着社会文明的进步，越来越多的人开始重视个人隐私的保护，对个人隐私数据进行加密便是隐私保护技术手段之一。就当下计算机技术而言，绝大多数数据都可以转换为文本进行存储，主流的数据加密方式依然为建立密钥，根据密钥对化为文本的隐私数据进行加密，获得加密数据信息。这种加密方式具备着加密简单及加密速度较快的优点，但其缺陷同样明显，那就是加密后的数据通常为乱码，容易被察觉数据的加密痕迹，进而导致加密数据信息被不法分子作为攻击焦点，隐私数据的泄露风险提高。

技术实现思路

[0003]本专利技术旨在至少一定程度上解决上述技术中的技术问题之一。为此，本专利技术的目的在于提出一种基于统计语言模型的加密方法，旨在于将可读的数据信息，伪装加密为另一种无关的可读的数据信息，降低加密数据被破解的风险，提高数据安全性。
[0004]为达到上述目的，本专利技术实施例提出了一种基于统计语言模型的加密方法，包括：
[0005]建立基础统计语言模型；
[0006]获取包含若干语言资料的语言资料集；
[0007]将所述语言资料集作为训练数据对所述基础统计语言模型进行训练，得到目标统计语言模型；
[0008]根据所述目标统计语言模型对待加密的文本进行加密。
[0009]优选的，在将所述语言资料集作为训练数据对所述基础统计语言模型进行训练前，包括：
[0...

【技术保护点】

【技术特征摘要】
1.一种基于统计语言模型的加密方法，其特征在于，包括：建立基础统计语言模型；获取包含若干语言资料的语言资料集；将所述语言资料集作为训练数据对所述基础统计语言模型进行训练，得到目标统计语言模型；根据所述目标统计语言模型对待加密的文本进行加密。2.如权利要求1所述的基于统计语言模型的加密方法，其特征在于，在将所述语言资料集作为训练数据对所述基础统计语言模型进行训练前，包括：获取所述语言资料集中每个语言资料的类型信息；根据所述类型信息将所述语言资料集划分为若干个语言资料子集，并对所述语言资料子集的类型信息进行标注。3.如权利要求1所述的基于统计语言模型的加密方法，其特征在于，在将所述语言资料集作为训练数据对所述基础统计语言模型进行训练前，还包括：对所述语言资料集中的语言资料进行筛选。4.如权利要求2所述的基于统计语言模型的加密方法，其特征在于，得到目标统计语言模型的方法，包括：获取所述语言资料集中的语言资料子集的数量N；复制所述基础统计语言模型，获得N个基础统计语言模型；将所述语言资料子集与所述基础统计语言模型进行一对一映射；将所述语言资料子集作为训练数据对映射的基础统计语言模型进行训练，获得类别统计语言模型，并根据所述语言资料子集的类型信息对所述类别统计语言模型进行标注；重复以上方法，获得N个不同的类别统计语言模型，并将所述N个不同的类别统计语言模型组合为目标统计语言模型。5.如权利要求4所述的基于统计语言模型的加密方法，其特征在于，将所述语言资料子集作为训练数据对映射的基础统计语言模型进行训练，获得类别统计语言模型，包括：基于贪婪算法建立语言资料拆分算法；根据所述语言资料拆分算法将所述语言资料子集拆分为若干个语言资料单元，并根据所述语言资料单元建立语言资料单元集；所述语言资料为文字信息或可以转换为文字信息的数据资料，所述语言资料单元为字或词语；在所述语言资料单元集中第一次选择任意种语言资料单元，作为前置资料单元；在所述语言资料单元集中第二次选择任意种语言资料单元，作为后置资料单元；有序连接所述前置资料单元与所述后置资料单元，得到关联单元；统计所述前置资料单元在所述语言资料集中的第一相对频率；统计所述后置资料单元在所述语言资料集中的第二相对频率；将所述第一相对频率及第二相对频率代入关联度计算公式，得到所述后置资料单元与所述前置资料单元的关联度；重复以上方法，计算每种前置资料单元与每种后置资料单元之间的关联度，得到语言资料单元之间的关联度行列表；将所述关联度行列表植入所述基础统计语言模型中，获得类别统计语言模型。
6.如权利要求5所述的基于统计语言模型的加密方法，其特征在于，在根据所述语言资料拆分算法将所述语言资料子集拆分为若干个语言资料单元后，包括：获取所述语言资料单元的词性信息；获取词性信息为专有名词的语言资料单元，并对其进行通用性修正...

【专利技术属性】
技术研发人员：李超，王亚东，
申请(专利权)人：南京邮电大学盐城大数据研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人