一种基于信息抽取的数据分类分级领域知识库构建方法技术

技术编号：35479915 阅读：18 留言：0更新日期：2022-11-05 16:30

本发明专利技术公开了一种基于信息抽取的数据分类分级领域知识库构建方法，涉及自然语言处理技术领域。本发明专利技术包括文档的获取步骤、文档预处理步骤、文本数据抽取步骤、表格信息抽取步骤、数据分类分级元组抽取步骤和数据分类分级领域知识库构建步骤。本发明专利技术提出了一种政策法规自动解析框架，并将分类分级信息构建为领域知识库，充分发挥政策法规对数据分类分级的指导作用，可以有效地弥合国家层面的数据保护关切与组织的具体对策之间的差距，该框架后续可以开展更多的研究。以开展更多的研究。以开展更多的研究。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于信息抽取的数据分类分级领域知识库构建方法

[0001]本专利技术涉及自然语言处理
，更具体地说涉及一种基于信息抽取地分类分级领域知识库构建方法。

技术介绍

[0002]大数据技术的迅猛发展，使得组织汇聚了海量的数据资产，以结构化和非结构化形式存储在各处。庞大且分散的数据量使组织无法有效地实施数据安全管理，导致数据安全事件频繁发生。
[0003]数据分类分级作为解决该问题基础支撑和前置条件，将数据按照不同的属性、特征等进行分类，区分不同类别级别的保护措施，已经成为近年来国家、行业、地方政府的关注重点，并相继出台了数据安全和分类分级相关的法律法规和政策标准(为简便起见，本专利技术将法律、法规、政策和标准统称为“政策法规”)。
[0004]这些政策法规中包含了大量有价值的信息可以指导数据安全从业人员指导数据分类分级的实施，如：数据的分类维度，推荐的数据安全级别等。然而，这些信息通常以非结构化的形式存在，导致数据安全人员往往需要花费大量的时间和精力学习国家及其他行业提供的宝贵经验。因此，自动从大量的政策法规中提取有用信息，并以结构化的方式展示已经成为当下提高分类分级自动化水平的有效途径之一。

技术实现思路

[0005]为了克服上述现有技术中存在地缺陷和不足，本专利技术提供了一种基于信息抽取的数据分类分级领域知识库构建方法，本专利技术的专利技术目的在于设计一个分类分级信息抽取框架，采用机器学习和自然语言处理等技术从非结构化文本和表格中抽取有用信息。可以从数据分类分级相关的政策法规中...

【技术保护点】

【技术特征摘要】
1.一种基于信息抽取的数据分类分级领域知识库构建方法，其特征在于，本方法包括以下步骤：S1、文档的获取步骤，以关键词检索的方式，在目标网站或目标数据库中找到目标文档，并汇总形成语料库；S2、文档预处理步骤，将S1步骤中获取得到的目标文档分离成纯文本和表格两大类；S3、文本数据抽取步骤，构建一个语义嵌入的朴素贝叶斯分类器，通过构建的朴素贝叶斯分类器对S2步骤中分离得到的纯文本进行分类，生成数据分类分级句子标签；S4、表格信息抽取步骤，根据S2步骤分离得到的语料库中的表格中表格特征和感兴趣的信息，对合并的单元格进行拆分，根据拆分前的单元格文本对空单元格进行补充，然后基于模式匹配提取信息；S5、数据分类分级元组抽取步骤，利用结合模式匹配与自然语言处理技术相结合的方式，在识别出的分类分级句子标签的基础上，抽取分类分级元素，实现信息类型及其关系的联合抽取；S6、数据分类分级领域知识库构建步骤，经过纯文本和表格抽取，得到了数据分类分级元组，经过语义相似度计算公式，按照高低去重、融合从而完成分类分级领域知识库构建。2.如权利要求1所述的一种基于信息抽取的数据分类分级领域知识库构建方法，其特征在于，所述S2步骤具体包括以下子步骤：S201、删除目标文档中的无关内容；S202、格式转换，若目标文档为PDF格式，则将PDF格式文件统一转换为word格式文件，然后利用python
‑
docx库分离文本和表格；S203、利用语言处理平台LTP将纯文本分割成句子；其中，将文本的中列表的层次关系保存为二元组，即文本的行号及其直接父节点，以确保句子语义完整的同时具有简单的结构；S204、利用中文分词工具对文本中所有句子进行分词，形成一个分词短语列表；然后适用停止词列表cn_stopwords，去除虚词、助词和一般性词。3.如权利要求2所述的一种基于信息抽取的数据分类分级领域知识库构建方法，其特征在于，所述S3步骤具体包括以下子步骤：S301、调用Python Sklearn库的接口，为分词短语列表中的每个单词生成TF
‑
IDF向量；同时，采用卡方统计量进一步筛选出一些冗余特征；输出特征工程向量表示为fe(s
i
)，s
i
表示一个句子；S302、使用加权Word2vec生成特点于语料库的词嵌入向量，给每个词嵌入向量赋予权重，同时引入额外的语义特征，加权词嵌入向量表示为其中，w2v()表示使用Word2vec词嵌入方法，M表示句子中包含的总的单词数量，t
j
表示句子中的一个词，w(t
j
)表示为词t
j
的词频
‑
逆文档频率权重；S303、将S301步骤和S302步骤输出的特征工程向量于加权词嵌入向量拼接vec(s
i
)表示拼接后的向量；引入语义信
息，将拼接后的向量输入到朴素贝叶斯分类器完成数据分类分级句子的识别。4.如权利要求1
‑
3任意一项所述的一种基于信息抽取的数据分类分级领域知识库构建方法，其特征在于，给的一个句子集合D＝{(s1，y1)，(s2，y2)，...，(s
N
，y
N
)}，s
i
＝{t1，t2，...，t
M
}，y
i
∈{0，1}表示类别标签；朴素贝叶斯分类器的目标是为s
i
...

【专利技术属性】
技术研发人员：陈兴蜀，杨敏，谭柳燕，兰晓，罗永刚，
申请(专利权)人：四川大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人