一种文本安全分割方法技术

技术编号:22387815 阅读:97 留言:0更新日期:2019-10-29 06:38
本发明专利技术公开了一种文本安全分割方法,该方法包括:步骤A:使用基于分层狄利克雷过程模型的文本分割方法将原文本分割成不同主题的段落;步骤B:将原文本看成是密钥空间中的一个密钥,将此密钥向子空间作映射投影即得到子密钥,也就是从原文本得到了它的子文本;步骤C:以恢复文本所需的子文本个数作为输入,经过提取参数、创建子文本访问表、填充原文本步骤后,得到原文本。本发明专利技术为重要文本的存储和传输提供了安全保证。

A method of text security segmentation

【技术实现步骤摘要】
一种文本安全分割方法
本专利技术属于文本分割领域,尤其涉及一种文本安全分割方法。
技术介绍
随着网络的快速发展,人们逐渐跨入全新的网络时代,各种电子文本信息更是以爆炸性的速度增长。海量信息带来便利的同时,也为文本安全存储带来了巨大的挑战。密钥分存是近代的一个重要话题,它旨在解决这样的问题,即如何将密钥合理划分成几个子密钥来分配,使得只有利用其中达到指定数目的任意几个子密钥才能将原密钥回复,从而解出明文。文本分割的任务隶属于文本处理范畴,所以对于文本处理的典型步骤文本分割都是必不可少的。传统的文本分割旨在将一个较大尺寸的文本均匀分割成几个较小尺寸的子文本,以便于通过网络软件的文本传输系统进行文本传输。从功能和目的来讲传统的文本分割对文本起了化大为小,便于传输的作用。从实现方面来讲,传统文本分割方法只是简单的均匀分割,易于实现。从效率角度而言,传统文本分割方法的时间复杂度为()。目前,在理论思想上,文本分割技术主要分为四类:基于词汇聚集的思想、基于统计的思想、基于语言特征信息的思想以及将三者结合的思想,这些思想为很多分割算法奠定了坚实的基础。越来越多的学者探索将能反应文本语义信息的主题模本文档来自技高网...

【技术保护点】
1.一种文本安全分割方法,其特征在于,该方法包括以下具体步骤:步骤A:使用基于分层狄利克雷过程模型的文本分割方法将原文本分割成不同主题的段落;步骤B:将原文本看成是密钥空间中的一个密钥,将此密钥向子空间作映射投影即得到子密钥,也就是从原文本得到了子文本;步骤C:以恢复文本所需的子文本个数作为输入,经过提取参数、创建子文本访问表、填充原文本步骤后,得到原文本。

【技术特征摘要】
1.一种文本安全分割方法,其特征在于,该方法包括以下具体步骤:步骤A:使用基于分层狄利克雷过程模型的文本分割方法将原文本分割成不同主题的段落;步骤B:将原文本看成是密钥空间中的一个密钥,将此密钥向子空间作映射投影即得到子密钥,也就是从原文本得到了子文本;步骤C:以恢复文本所需的子文本个数作为输入,经过提取参数、创建子文本访问表、填充原文本步骤后,得到原文本。2.如权利要求1所述的方法,其特征在于,步骤A,使用基于分层狄利克雷过程模型的文本分割方法,具体的实现步骤为:S11,对文本进行预处理S111,对文本进行词语切分和词性的标注,去除文本中的虚词、数词和量词,提取名词、动词、形容词和代词,最终得到一个切分好的带词性标注的文本;S12,基于分层狄利克雷模型的文本分割S121,分层狄利克雷模型在每次迭代过程中都会采样为每个词分配主题ID代替词表示文本,主题向量的形式表示为:S=(t1,t2,...,tz),ti,(i=1,2,...,z)为某主题ID在文本中出现的频率;z为分层狄利克雷模型自动聚类产生的主题个数;S122,原文本的每句话都已用主题向量表示,在向量间隙的左侧和右侧使用名为块的K个主题向量,应用余弦相似性以基于每个向量间隙处的相邻块的主题频率计算相似性得分Score,具体算法为:Score=(Si*Sj)/(|Si|*|Sj|)其中Si和Sj分别表示相邻块j和i的主题向量;当Score接近1时表示相邻块的高相似度,当Score接近零时表示相邻块的低相似度;S123,根据相邻块的相似度进行边界识别,通过计算向量间隙的深度值来描述间隙锐度:dp=1/2(hl(p)-Score+hr(p)-Score)其中函数hl(p)表示向量间隙索引p左侧的最高相似性得分,hr(p)表示向量间隙索引p右侧的最高相似性得分,然后基于深度搜索所有局部最大位置;在下一步中,对这些获得的最大值得分进行排序,如果给出段N的数量作为输入参数,则使用N个最高深度值,否则使用仅当深度值大于μ-σ/2时,那么该阀值就能预测出边界,其中平均值μ和标准偏差σ基于深度值的整体计算,最终将原文本分割成N个不同主题的段落。3.如权...

【专利技术属性】
技术研发人员:王剑何欣卢文达周洋陈政波邱兰馨刘秀徐亦白赖晓翰周梦兰包迅格冯烛明魏骁戚浩金王勇王彬栩杨跃平张全邢雅菲于晓蝶潘富城冉清文琚小明
申请(专利权)人:华东师范大学国网浙江省电力有限公司国网浙江省电力有限公司宁波供电公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1