当前位置: 首页 > 专利查询>四川大学专利>正文

一种基于信息抽取的数据分类分级领域知识库构建方法技术

技术编号:35479915 阅读:18 留言:0更新日期:2022-11-05 16:30
本发明专利技术公开了一种基于信息抽取的数据分类分级领域知识库构建方法,涉及自然语言处理技术领域。本发明专利技术包括文档的获取步骤、文档预处理步骤、文本数据抽取步骤、表格信息抽取步骤、数据分类分级元组抽取步骤和数据分类分级领域知识库构建步骤。本发明专利技术提出了一种政策法规自动解析框架,并将分类分级信息构建为领域知识库,充分发挥政策法规对数据分类分级的指导作用,可以有效地弥合国家层面的数据保护关切与组织的具体对策之间的差距,该框架后续可以开展更多的研究。以开展更多的研究。以开展更多的研究。

【技术实现步骤摘要】
一种基于信息抽取的数据分类分级领域知识库构建方法


[0001]本专利技术涉及自然语言处理
,更具体地说涉及一种基于信息抽取地分类分级领域知识库构建方法。

技术介绍

[0002]大数据技术的迅猛发展,使得组织汇聚了海量的数据资产,以结构化和非结构化形式存储在各处。庞大且分散的数据量使组织无法有效地实施数据安全管理,导致数据安全事件频繁发生。
[0003]数据分类分级作为解决该问题基础支撑和前置条件,将数据按照不同的属性、特征等进行分类,区分不同类别级别的保护措施,已经成为近年来国家、行业、地方政府的关注重点,并相继出台了数据安全和分类分级相关的法律法规和政策标准(为简便起见,本专利技术将法律、法规、政策和标准统称为“政策法规”)。
[0004]这些政策法规中包含了大量有价值的信息可以指导数据安全从业人员指导数据分类分级的实施,如:数据的分类维度,推荐的数据安全级别等。然而,这些信息通常以非结构化的形式存在,导致数据安全人员往往需要花费大量的时间和精力学习国家及其他行业提供的宝贵经验。因此,自动从大量的政策法规中提取有用信息,并以结构化的方式展示已经成为当下提高分类分级自动化水平的有效途径之一。

技术实现思路

[0005]为了克服上述现有技术中存在地缺陷和不足,本专利技术提供了一种基于信息抽取的数据分类分级领域知识库构建方法,本专利技术的专利技术目的在于设计一个分类分级信息抽取框架,采用机器学习和自然语言处理等技术从非结构化文本和表格中抽取有用信息。可以从数据分类分级相关的政策法规中自动提取数据分类实践,如信息类型机信息类型的安全级别,从而完成数据分类分级领域知识库构建。本专利技术构建的知识库可以对抽取的数据类别和安全级别等有用的信息进行汇总,便于数据安全从业人员可以快速的找到想要的数据,提高数据安全从业人员的工作效率,节约数据查询时间。
[0006]为了解决上述现有技术中存在的问题,本专利技术是通过下述技术方案实现的。
[0007]本专利技术提供了一种基于信息抽取的数据分类分级领域知识库构建方法,该方法包括以下步骤:
[0008]S1、文档的获取步骤,以关键词检索的方式,在目标网站或目标数据库中找到目标文档,并汇总形成语料库;
[0009]S2、文档预处理步骤,将S1步骤中获取得到的目标文档分离成纯文本和表格两大类;
[0010]S3、文本数据抽取步骤,构建一个语义嵌入的朴素贝叶斯分类器,通过构建的朴素贝叶斯分类器对S2步骤中分离得到的纯文本进行分类,生成数据分类分级句子标签;
[0011]S4、表格信息抽取步骤,根据S2步骤分离得到的语料库中的表格中表格特征和感
兴趣的信息,对合并的单元格进行拆分,根据拆分前的单元格文本对空单元格进行补充,然后基于模式匹配提取信息;
[0012]S5、数据分类分级元组抽取步骤,利用结合模式匹配与自然语言处理技术相结合的方式,在识别出的分类分级句子标签的基础上,抽取分类分级元素,实现信息类型及其关系的联合抽取;
[0013]S6、数据分类分级领域知识库构建步骤,经过纯文本和表格抽取,得到了数据分类分级元组,经过语义相似度计算公式,按照高低去重、融合从而完成分类分级领域知识库构建。
[0014]进一步的,所述S2步骤具体包括以下子步骤:
[0015]S201、删除目标文档中的无关内容;
[0016]S202、格式转换,若目标文档为PDF格式,则将PDF格式文件统一转换为word格式文件,然后利用python

docx库分离文本和表格;
[0017]S203、利用语言处理平台LTP将纯文本分割成句子;其中,将文本的中列表的层次关系保存为二元组,即文本的行号及其直接父节点,以确保句子语义完整的同时具有简单的结构;
[0018]S204、利用中文分词工具对文本中所有句子进行分词,形成一个分词短语列表;然后适用停止词列表cn_stopwords,去除虚词、助词和一般性词。
[0019]更进一步的,所述S3步骤具体包括以下子步骤:
[0020]S301、调用Python Sklearn库的接口,为分词短语列表中的每个单词生成TF

IDF向量;同时,采用卡方统计量进一步筛选出一些冗余特征;输出特征工程向量表示为fe(s
i
),s
i
表示一个句子;
[0021]S302、使用加权Word2vec生成特定于语料库的词嵌入向量,给每个词嵌入向量赋予权重,同时引入额外的语义特征,加权词嵌入向量为其中,w2v()表示使用Word2vec词嵌入方法,t
j
表示句子中的一个词,M表示句子中包含的总的单词数量,w(t
j
)表示为词t
j
的词频

逆文档频率(TF

IDF)权重;
[0022]S303、将S301步骤和S302步骤输出的特征工程向量与加权词嵌入向量拼接vec(s
i
)表示拼接后的向量;引入语义信息,将拼接后的向量输入到朴素贝叶斯分类器完成数据分类分级句子的识别。
[0023]更进一步的,给的一个句子集合D={(s1,y1),(s2,y2),...,(s
N
,y
N
)},s
i
={t1,t2,...,t
M
},y
i
∈{0,1}表示类别标签;朴素贝叶斯分类器的目标是为s
i
找到一个正确的标签y
i
,其形式表达式如下:
[0024][0025]对于给定的句子s
i
,朴素贝叶斯分类器计算句子在各类变量下的后验概率p(y
i
|s
i
),具有最大概率值的类称为最大后验估计,表示为:
[0026][0027]进一步的,所述S4步骤具体包括以下子步骤:
[0028]S401、表格结构解析;所述表格结构解析主要包括处理合并单元格、复杂表头处理,过滤不规则表格和跨页表格判定;
[0029]S402、表格字段抽取;首先为待抽取的字段制定角色和匹配规则,具体是指,通过观察目标文档中的分类分级表格,根据待抽取字段在表头与表内容中的表达制定规则集;接着,按序遍历每一列,将每个单元格的内容与规则集进行匹配,如果某一列匹配成功,记录匹配的列在表格的位置index及角色;最后,遍历index列,提取单元格,单元格即为所需字段信息。
[0030]进一步的,所述S5步骤具体包括以下子步骤:
[0031]S501、语义依存分析;使用LTP自带的语义依存分析工具解析分类分级句子;
[0032]S502、语义依存树化简;通过S501步骤解析分类分级句子后得到分类分级句子中的原始语义依存树,对原始语义依存树进行简化;
[0033]S503、Tregex模式生成;通过观察简化后的语义依存树,找到覆盖分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于信息抽取的数据分类分级领域知识库构建方法,其特征在于,本方法包括以下步骤:S1、文档的获取步骤,以关键词检索的方式,在目标网站或目标数据库中找到目标文档,并汇总形成语料库;S2、文档预处理步骤,将S1步骤中获取得到的目标文档分离成纯文本和表格两大类;S3、文本数据抽取步骤,构建一个语义嵌入的朴素贝叶斯分类器,通过构建的朴素贝叶斯分类器对S2步骤中分离得到的纯文本进行分类,生成数据分类分级句子标签;S4、表格信息抽取步骤,根据S2步骤分离得到的语料库中的表格中表格特征和感兴趣的信息,对合并的单元格进行拆分,根据拆分前的单元格文本对空单元格进行补充,然后基于模式匹配提取信息;S5、数据分类分级元组抽取步骤,利用结合模式匹配与自然语言处理技术相结合的方式,在识别出的分类分级句子标签的基础上,抽取分类分级元素,实现信息类型及其关系的联合抽取;S6、数据分类分级领域知识库构建步骤,经过纯文本和表格抽取,得到了数据分类分级元组,经过语义相似度计算公式,按照高低去重、融合从而完成分类分级领域知识库构建。2.如权利要求1所述的一种基于信息抽取的数据分类分级领域知识库构建方法,其特征在于,所述S2步骤具体包括以下子步骤:S201、删除目标文档中的无关内容;S202、格式转换,若目标文档为PDF格式,则将PDF格式文件统一转换为word格式文件,然后利用python

docx库分离文本和表格;S203、利用语言处理平台LTP将纯文本分割成句子;其中,将文本的中列表的层次关系保存为二元组,即文本的行号及其直接父节点,以确保句子语义完整的同时具有简单的结构;S204、利用中文分词工具对文本中所有句子进行分词,形成一个分词短语列表;然后适用停止词列表cn_stopwords,去除虚词、助词和一般性词。3.如权利要求2所述的一种基于信息抽取的数据分类分级领域知识库构建方法,其特征在于,所述S3步骤具体包括以下子步骤:S301、调用Python Sklearn库的接口,为分词短语列表中的每个单词生成TF

IDF向量;同时,采用卡方统计量进一步筛选出一些冗余特征;输出特征工程向量表示为fe(s
i
),s
i
表示一个句子;S302、使用加权Word2vec生成特点于语料库的词嵌入向量,给每个词嵌入向量赋予权重,同时引入额外的语义特征,加权词嵌入向量表示为其中,w2v()表示使用Word2vec词嵌入方法,M表示句子中包含的总的单词数量,t
j
表示句子中的一个词,w(t
j
)表示为词t
j
的词频

逆文档频率权重;S303、将S301步骤和S302步骤输出的特征工程向量于加权词嵌入向量拼接vec(s
i
)表示拼接后的向量;引入语义信
息,将拼接后的向量输入到朴素贝叶斯分类器完成数据分类分级句子的识别。4.如权利要求1

3任意一项所述的一种基于信息抽取的数据分类分级领域知识库构建方法,其特征在于,给的一个句子集合D={(s1,y1),(s2,y2),...,(s
N
,y
N
)},s
i
={t1,t2,...,t
M
},y
i
∈{0,1}表示类别标签;朴素贝叶斯分类器的目标是为s
i
...

【专利技术属性】
技术研发人员:陈兴蜀杨敏谭柳燕兰晓罗永刚
申请(专利权)人:四川大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1