【技术实现步骤摘要】
基于大数据的政务敏感信息识别系统和方法
[0001]本专利技术属于大数据分析的
,具体涉及一种基于大数据的政务敏感信息识别系统和方法。
技术介绍
[0002]随着互联网技术的发展,数据电子化现象逐渐占据数据管理方式中的主导,政务信息是信息的一个重要门类,是政务活动中反映政务工作及其相关事物的情报、情况、资料、数据、图表、文字材料和音像材料等的总称。政务信息应当同时符合三个条件,一是由政府机关掌握的信息,是指政府机关合法产生、采集和整合的;二是与经济、社会管理和公共服务相关的信息,三是由特定载体所反映的内容。由于政务信息涉及社会各方面,相比于其他的应用领域,政务邻域中涉及到的敏感词汇往往会导致理解的偏差,以及舆情的发展方向,因此如何实现海量文本中的敏感信息深度挖掘与分析,以及提高识别结果是当前亟待解决的问题。
[0003]现有技术中,存在针对政务敏感信息进行识别、筛选的技术方案:
[0004]现有技术1(CN114386408A)公开了一种政务敏感信息识别方法、装置、设备、介质和程序产品,具体公开了获取至 ...
【技术保护点】
【技术特征摘要】
1.一种基于大数据的政务敏感信息识别方法,其特征在于,具体包括以下步骤:步骤1、获取待分析的文本数据;步骤1.1、对文本数据进行预处理,提取文本的主语、谓语、宾语、定语、状语、补语及标点符号信息;步骤1.2、在预处理后进一步对关键词进行提取;所述关键词的提取表达式为:式中,表示经过预处理后每个具备情感程度的数值,脚标c表示经过预处理后每个具备情感程度的数值的序号;表示具备情感程度的参数,该参数基于既往敏感词频库确定,脚标t表示具备情感程度的参数的序号;z表示关键度参数,所述关键度参数是指该关键词在当前网络热度排行中出现的频次;步骤2、将文本数据转换为向量形式;步骤3、构建敏感信息识别分析模型,并接收向量形式的文本数据;步骤4、利用敏感信息识别分析模型对文本数据进行敏感信息的识别:当敏感词的种类为发音相近的敏感词时,首先将获取到的文本解析成音码,随后通过音码的编辑距离运算获得敏感词与待检测词之间的语义相似度;当敏感词的种类为简称形式的敏感词时,首先提取待分析词的首字母并组合,随后将其作为匹配的目标串和模板串;当敏感词的种类为拆分形式的敏感词时,首先将拆分后的词转换为区位码,随后对获得的区位码进行匹配,进而实现待分析词的匹配;步骤5、输出识别分析结果。2.根据权利要求1所述的一种基于大数据的政务敏感信息识别方法,其特征在于,通过敏感信息识别分析模型实现敏感信息的识别过程中,为了提高敏感词的识别精准度,进一步对存储敏感词汇的敏感词数据库进行扩充。3.根据权利要求2所述的一种基于大...
【专利技术属性】
技术研发人员:李先美,雷海峰,
申请(专利权)人:深圳中科保泰科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。