当前位置: 首页 > 专利查询>中国人民解放军战略支援部队信息工程大学专利>正文

基于多模型协同的非结构化文本数据安全属性挖掘方法及系统技术方案

技术编号：41260443 阅读：4 留言：0更新日期：2024-05-11 09:18

本发明专利技术涉及网络信息安全访问控制技术领域，特别涉及一种基于多模型协同的非结构化文本数据安全属性挖掘方法及系统，对原始文本数据进行预处理，并提取预处理后文本数据中的候选属性；将候选属性和文本数据分别对应映射到词向量空间和文本向量空间，提取多维属性特征；将多维属性特征作为模型输入，利用属性挖掘模型获取文本数据资源的安全属性，其中，属性挖掘模型采用多模型投票方法协同训练；将安全属性映射到词汇语义网，基于词汇语义网的相关词关联对安全属性进行约简处理，依据约简处理结果确定文本数据资源安全属性的词语层次。本发明专利技术通过多模型协同实现访问控制数据资源安全属性的自动化、智能化挖掘，为实现精准访问控制提供属性基础。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及网络信息安全访问控制，特别涉及一种基于多模型协同的非结构化文本数据安全属性挖掘方法及系统。

技术介绍

1、随着网络与信息技术的飞速发展，大数据已成为国家重要战略资源。但人们在利用大数据资源所创造的巨大价值的同时，也面临着严峻的数据安全问题。作为大数据资源的重要组成部分，非结构化数据(unstructured data)具有动态性、分布式、多源异构等特点，使得数据安全共享的场景和需求变得异常复杂。与结构化数据资源相比，非结构化数据的安全属性描述更加困难，这为细粒度的访问控制实施提出了挑战。作为有效保障数据安全共享的重要手段，访问控制技术通过对用户权限的管理，防止对资源的未授权访问，使数据资源在合法范围内使用。针对开放环境下动态、海量数据资源的访问授权与管理，人们提出利用基于属性的访问控制(attribute based access control,abac)，将数据资源的属性作为访问控制的判决要素，并利用实体所具有的属性集合来灵活判决是否赋予其相应的访问权限，能够实现细粒度与高效权限判决。

2、基于属性的访问控制需要获取数据资源的安全属性，除数据资源的生成时间、资源格式等固有属性外，与资源内容相关的业务属性也成为了访问控制的重要依据。但由于非结构化数据资源具有海量、动态、多源异构等特性，针对非结构化数据资源安全属性标记的属性工程成为了一项劳动密集性的任务，难以通过自顶向下方法借助安全专家所具备的知识实现针对数据资源业务属性的生成与管理。因此，如何构建兼顾准确性与效率的非结构化数据资源的安全属性挖掘方法，

技术实现思路

1、为此，本专利技术提供一种基于多模型协同的非结构化文本数据安全属性挖掘方法及系统，解决现有大数据环境下安全属性挖掘方法大多为单模型方法、鲁棒性和容错能力不高、缺少语义层面优化、挖掘出的安全属性可解释性与可用性不强等问题，通过多模型协同实现访问控制数据资源安全属性的自动化、智能化挖掘，为实现精准访问控制提供属性基础。

2、按照本专利技术所提供的设计方案，一方面，提供一种基于多模型协同的非结构化文本数据安全属性挖掘方法，用于数据访问控制权限管理，包含：

3、对原始文本数据进行预处理，并提取预处理后文本数据中的候选属性；

4、将候选属性和文本数据分别对应映射到词向量空间和文本向量空间，提取多维属性特征，所述多维属性特征包括文本数据自身资源特征、候选属性自身属性特征及文本数据与候选属性之间交互特征；

5、将多维属性特征作为模型输入，利用已训练的属性挖掘模型获取文本数据资源的安全属性，其中，属性挖掘模型采用多模型投票方法协同训练；

6、将安全属性映射到词汇语义网，基于词汇语义网的相关词关联对安全属性进行约简处理，并依据约简处理结果确定文本数据资源安全属性的词语层次。

7、作为本专利技术基于多模型协同的非结构化文本数据安全属性挖掘方法，进一步地，对原始文本数据进行预处理，包含：

8、对原始文本数据进行预处理操作，以获取与处理后的规范化文本数据，其中，预处理操作至少包括文本清洗、文本分词、词性标注和依存分析。

9、作为本专利技术基于多模型协同的非结构化文本数据安全属性挖掘方法，进一步地，提取预处理后文本数据中的候选属性，包含：

10、设置用于文本数据中候选属性提取的目标算法，利用目标算法对文本数据资源进行候选属性提取，其中，目标算法包括tf-idf算法、textrank算法和k-medoids+bert算法；

11、基于粗糙集理论赋权对目标算法提取结果进行加权处理，根据加权处理结果得到文本数据中topk个候选属性。

12、作为本专利技术基于多模型协同的非结构化文本数据安全属性挖掘方法，进一步地，利用目标算法对文本数据资源进行候选属性提取，包含：

13、利用tf-idf算法对文本数据资源进行候选属性提取中，通过计算文本数据资源每个词语的tf-idf值，基于tf-idf值选取候选属性关键词；

14、利用textrank算法对文本数据资源进行候选属性提取中，将文本数据资源中各词语作为有向图节点，基于节点前驱节点个数及前驱节点得票设置各节点重要程度，基于重要程度选取候选属性关键词；

15、利用k-medoids+bert算法对对文本数据资源进行候选属性提取中，基于bert对文本数据资源词语进行向量嵌入并获取词向量；基于词向量间相似度并利用k-medoids算法对词语进行聚类，提取每个聚类的重要性词语作为候选属性关键词。

16、作为本专利技术基于多模型协同的非结构化文本数据安全属性挖掘方法，进一步地，基于粗糙集理论赋权对目标算法提取结果进行加权处理，包含：

17、将各目标算法对文本数据资源中单个词语是否为候选属性的判断结果作为条件值，将单个词语最终判断为候选属性的结果作为决策值；针对文本数据资源中单个词语，将目标算法判断结果和最终判断结果构成消息，基于每个词语的消息构成作为提取候选属性知识表达系统的论域；

18、针对论域，根据删除单个目标算法候选属性判断结果对最终候选属性判断结果的影响程度确定该单个目标算法指标权重，基于各指标权重对提取的候选属性进行赋权处理。

19、作为本专利技术基于多模型协同的非结构化文本数据安全属性挖掘方法，进一步地，将候选属性和文本数据分别对应映射到词向量空间和文本向量空间，提取多维属性特征，包含：

20、基于文本数据自身特征、候选属性自身特征、文本与候选属性的交互特征、候选属性之间关联关系特征、及候选属性与其他文本的交互特征来提取多维属性特征，其本文档来自技高网...

【技术保护点】

1.一种基于多模型协同的非结构化文本数据安全属性挖掘方法，用于数据访问控制权限管理，其特征在于，包含：

2.根据权利要求1所述的基于多模型协同的非结构化文本数据安全属性挖掘方法，其特征在于，对原始文本数据进行预处理，包含：

3.根据权利要求1或2所述的基于多模型协同的非结构化文本数据安全属性挖掘方法，其特征在于，提取预处理后文本数据中的候选属性，包含：

4.根据权利要求3所述的基于多模型协同的非结构化文本数据安全属性挖掘方法，其特征在于，利用目标算法对文本数据资源进行候选属性提取，包含：

5.根据权利要求3所述的基于多模型协同的非结构化文本数据安全属性挖掘方法，其特征在于，基于粗糙集理论赋权对目标算法提取结果进行加权处理，包含：

6.根据权利要求1所述的基于多模型协同的非结构化文本数据安全属性挖掘方法，其特征在于，将候选属性和文本数据分别对应映射到词向量空间和文本向量空间，提取多维属性特征，包含：

7.根据权利要求1所述的基于多模型协同的非结构化文本数据安全属性挖掘方法，其特征在于，利用已训练的属性挖掘模型获

8.根据权利要求7所述的基于多模型协同的非结构化文本数据安全属性挖掘方法，其特征在于，基于各基模型权重对预测结果进行加权平均的过程表示为：其中，表示加权平均结果，i∈{1,2,…,M}，i表示基模型序号，wi表示对应基模型权重，表示对应基模型对候选属性是否为安全属性的标签预测结果。

9.根据权利要求1所述的基于多模型协同的非结构化文本数据安全属性挖掘方法，其特征在于，基于词汇语义网的相关词关联对安全属性进行约简处理，包含：

10.一种基于多模型协同的非结构化文本数据安全属性挖掘系统，其特征在于，包含：数据处理模块、特征提取模块、属性挖掘模块和属性约简模块，其中，

...

【技术特征摘要】

1.一种基于多模型协同的非结构化文本数据安全属性挖掘方法，用于数据访问控制权限管理，其特征在于，包含：

2.根据权利要求1所述的基于多模型协同的非结构化文本数据安全属性挖掘方法，其特征在于，对原始文本数据进行预处理，包含：

3.根据权利要求1或2所述的基于多模型协同的非结构化文本数据安全属性挖掘方法，其特征在于，提取预处理后文本数据中的候选属性，包含：

4.根据权利要求3所述的基于多模型协同的非结构化文本数据安全属性挖掘方法，其特征在于，利用目标算法对文本数据资源进行候选属性提取，包含：

6.根据权利要求1所述的基于多模型协同的非结构化文本数据安全属性挖掘方法，其特征在于，将候选属性和文本数据分别对应映射...

【专利技术属性】
技术研发人员：杜学绘，刘敖迪，王潇涵，王娜，单棣斌，王文娟，曹利峰，任志宇，尚思远，
申请(专利权)人：中国人民解放军战略支援部队信息工程大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人