一种基于自然语言预处理的公共数据分级方法技术

技术编号:24497980 阅读:52 留言:0更新日期:2020-06-13 03:49
本发明专利技术涉及自然语言处理技术领域,具体涉及一种基于自然语言预处理的公共数据分级方法,包括:步骤S1,对公共数据进行自然语言处理方法的分析,得到关于所述公共数据的词集合和语义标注结果;步骤S2,对于所述词集合和所述语义标注结果按照多种规则组合,得到所述公共数据所包含的语义信息的向量化表征形式;步骤S3,利用分类系统对得到的所述公共数据所包含的语义信息的向量化表征形式分类计算概率估计值;步骤S4,根据所述概率估计值将所述概率估计值中最大项对应的数据敏感程度作为所述公共数据的分级标签。本发明专利技术可以大大提高公共数据分级效率、速度和准确率。

A public data classification method based on natural language preprocessing

【技术实现步骤摘要】
一种基于自然语言预处理的公共数据分级方法
本专利技术涉及自然语言处理
,尤其涉及一种基于自然语言预处理的公共数据分级方法。
技术介绍
随着城市数字化转型的推进以及公共数据的集中统一管理,公共数据的分级分类问题急需破题,尤其是对公共数据目录的安全分级,明确哪些数据可以无条件共享开放,哪些数据根据个人隐私、核心商业机密或相关法律法规规定适用有条件共享开放或者不开放不共享,从而结合不同的应用场景开展数据授权及共享开放,实现数据赋能城市管理、形成数据运营生态。在公共数据的分级过程中,目前主要凭借专业人员的知识背景及查阅相关规定进行人工分级,这种人工分级方式依赖于工作人员的能力,且工作量巨大、效率较低。因此,提出一种基于人工智能中自然语言处理领域的文本分类技术,能够大大提高公共数据分级的效率和速度,同时提高分类的准确率。现阶段有关文本分类技术的实现方法,主要分为统计学习方法和深度学习方法。前者主要以特征选择方法为主,通过诸如TF-IDF(termfrequency-inversedocumentfrequency,信息检索数据挖掘的本文档来自技高网...

【技术保护点】
1.一种基于自然语言预处理的公共数据分级方法,其特征在于,包括:/n步骤S1,对公共数据进行自然语言处理方法的分析,得到关于所述公共数据的词集合和语义标注结果;/n步骤S2,对于所述词集合和所述语义标注结果按照多种规则组合,得到所述公共数据所包含的语义信息的向量化表征形式;/n步骤S3,利用分类系统对得到的所述公共数据所包含的语义信息的向量化表征形式分类计算概率估计值;/n步骤S4,根据所述概率估计值将所述概率估计值中最大项对应的数据敏感程度作为所述公共数据的分级标签。/n

【技术特征摘要】
1.一种基于自然语言预处理的公共数据分级方法,其特征在于,包括:
步骤S1,对公共数据进行自然语言处理方法的分析,得到关于所述公共数据的词集合和语义标注结果;
步骤S2,对于所述词集合和所述语义标注结果按照多种规则组合,得到所述公共数据所包含的语义信息的向量化表征形式;
步骤S3,利用分类系统对得到的所述公共数据所包含的语义信息的向量化表征形式分类计算概率估计值;
步骤S4,根据所述概率估计值将所述概率估计值中最大项对应的数据敏感程度作为所述公共数据的分级标签。


2.根据权利要求1所述的一种基于自然语言预处理的公共数据分级方法,其特征在于,所述步骤S1中的所述词集合为将所述公共数据以词为单位进行分词和词性标注并得到所述词集合,并根据一停用词词表,去除所述词集合中的停用词。


3.根据权利要求2所述的一种基于自然语言预处理的公共数据分级方法,其特征在于,所述停用词词表是根据所述词集合和所述语义标注结果中的分词和词性标注结果将出现次数过高的虚词作为停用词而生成。


4.根据权利要求1所述的一种基于自然语言预处理的公共数据分级方法,其特征在于,所述步骤2中通过抽取n元语法离散特征、抽取依存三元组特征、抽取词向量分布式特征中的至少一种向量化方式对所述公共数据的所述词集合和所述语义标注结果进行向量化。


5.根据权利要求4所述的一种基于自然语言预处理的公共数据分级方法...

【专利技术属性】
技术研发人员:陈磊刘迎风储昭武管红潘佳唐若培徐洁
申请(专利权)人:上海市大数据中心
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1