基于自然语言解析及机器学习的政策颗粒化分析系统技术方案

技术编号:37054111 阅读:16 留言:0更新日期:2023-03-29 19:31
本发明专利技术涉及一种基于自然语言解析及机器学习的政策颗粒化分析系统,解决的是准确率低的技术问题,通过采用政策文件采集输入模块、自然语言处理模块、机器学习优化模块、政策颗粒化分析输出模块;所述政策颗粒化分析输出模块根据预定的政策维度特征,以及自然语言处理模块的结果,分析输出政策的颗粒化参数;自然语言处理模块包括文件预处理单元、核心处理组件单元、单词归一化单元、词性标注单元、初级解析单元、词典查询单元、深度解析单元、自然语言处理输出单元;机器学习优化模块包括词性量化单元、机器学习算法库、优化融合单元的技术方案,较好的解决了该问题,可用于政策颗粒化分析中。析中。析中。

【技术实现步骤摘要】
基于自然语言解析及机器学习的政策颗粒化分析系统


[0001]本专利技术涉及政策分析系统领域,具体涉及一种基于自然语言解析及机器学习的政策颗粒化分析系统。

技术介绍

[0002]政策分析是个人、团体、研究机构对现行或计划实行的组织政策、决策程序和活动中的情况、问题,以及公众对它们的反映信息进行系统的调研、观察,并作出定量和定性分析的过程,其目的在于协助政策制定者继续坚持或改进政策目标。这一概念最早由美国政治学家林德布洛姆提出,他认为政策分析在政策制定过程中具有普遍性。政策分析理论模型主要有:政治系统模型、团体模型、精英模型、功能过程模型、制度模型、理性模型、渐进模型和博弈模型等。
[0003]现有的政策分析系统存在效率低、准确率低的问题,本专利技术提供一种基于自然语言解析及机器学习的政策颗粒化分析系统用以解决前述计算问题。

技术实现思路

[0004]本专利技术所要解决的技术问题是现有技术中存在的基于自然语言解析及机器学习的政策颗粒化分析系统技术问题。提供一种新的基于自然语言解析及机器学习的政策颗粒化分析系统,该基于自然语言解析及机器学习的政策颗粒化分析系统具有准确度高的特点。
[0005]为解决上述技术问题,采用的技术方案如下:基于自然语言解析及机器学习的政策颗粒化分析系统,所述基于自然语言解析及机器学习的政策颗粒化分析系统包括:政策文件采集输入模块、自然语言处理模块、与自然语言处理模块连接的机器学习优化模块和与自然语言处理模块连接政策颗粒化分析输出模块;所述政策颗粒化分析输出模块根据预定的政策维度特征,以及自然语言处理模块的结果,分析输出政策的颗粒化参数;自然语言处理模块包括文件预处理单元、核心处理组件单元、单词归一化单元、词性标注单元、初级解析单元、词典查询单元、深度解析单元、自然语言处理输出单元,其中,词典查询单元用于词典查询;机器学习优化模块包括词性量化单元、机器学习算法库、优化融合单元;所述词性量化单元用于将自然语言处理为机器量化语言,机器学习算法库用于装载多种机器学习算法,所述优化融合单元在所述词性量化单元将自然语言处理为机器量化语言的基础上依据机器学习算法库对政策文本进行优化融合处理,机器学习优化模块执行如下步骤:步骤s1,词性量化单元将自然语言处理为机器语言;步骤s2,将原始文本分为组,对应自机器学习算法库中调取种机器学习算法模型;
步骤s3,选择第个子集数据定义为验证集,其余的k

1组子集数据作为训练集,输入第种机器算法模型,得到
×
个模型计算值,预定义参数,k为大于1的整数;步骤s4,定义中间参数,,为中间参数;其中,是第个子集数据定义为验证集时,独立不相关的ki个算法模型的计算值;,和为预定义的参数,为实数集合,w
ki
为第ki个w值;步骤s5,通过中间参数,预定义系数,计算出特征指数和权值分散系数;其中,,为预定义的均值为0的属同一分布但独立的误差项系数,中间参数;步骤s6,通过中间参数,计算出参数,其中,),为预定义的均值为0的属同一分布但独立的误差项系数;步骤s7,将步骤s5、s6得到的特征指数、权值分散系数和位置参数带入中间函数,并对做傅里叶变换计算得到权值分布函数,将模型计算值与权值分布函数f(x)相乘得到一个拟合值,即完成k种算法模型计算值的拟合。
[0006]上述中间参数、中间函数、预定义参数和预定义系数为方便机器学习优化模块执行步骤s1~s7而设置的参数、函数或系数,技术人员可以根据实际需要或自身喜好进行预设,只需能够满足机器学习优化模块执行步骤s1~s7的要求即可。
[0007]本专利技术的工作原理:本专利技术通过结合自然语言识别分析,以及机器学习技术,高效的实现了政策的颗粒化分析。在此基础上,为提高准确度,本专利技术装载了机器学习优化模块,组合使用词性量化单元、机器学习算法库、优化融合单元,实现机器学习优化的多种算法融合。将政策文本分为组,对应自机器学习算法库中调取种机器学习算法模型,再采用算法模型融合,采用特有的融合算法,实现了多种算法融合加权,得到准确度高的自然语言识别与分析算法计算值。
[0008]上述优选方案中,为优化,进一步地,核心处理组件单元包括分词器、句子边界注释器、替代语句探测器、标记生成器、文档分段描述注释器;句子边界注释器为 OpenNLP 语句检测模块。
[0009]进一步地,文件预处理单元:将政策文件转换为纯文本文件,将段落标记插入到文本中,修正错误连接的单词,插入连字符;单词归一化单元:为政策文本中的每个单词提供一个表示形式,依据词汇属性将单词进行规范化,具体包括字母大小写、单复数形态、拼写变化、标点符号、属性标记、停用词、变音符号、符号以及连词;还可以映射同一单词与其不同描述字符之间的映射关系;可采用现有的SPECIALIST词汇工具完成;
词性标注单元:为文本句中每个词指派一个合适的词性,词性包括名词、动词、形容词、副词;可采用现有的基于规则的标注算法、随机标注算法、混合标注算法;初级解析单元:完成关键词标记;可采用对应现有的CTAKES模型中的分块模块;政策特征实体识别单元:基于现有的查询词典的方法使每个政策特征实体从术语映射到概念,查找词典条目中单词与政策文本中单词的精确匹配项,以及通过查找词典中单词的排列顺序,实现单词规范形式的匹配;深度解析单元:用于提供句法信息,确定单词之间的关联关系;将自然语言中的词汇用数值向量进行表示,得到词向量;自然语言处理输出单元:用于将自然语言识别处理结果进行输出,用于进一步政策颗粒化分析;深度解析单元包括如下步骤,实现单词关联:步骤k1,使用种子词集中的单词word1,将其与候选词集中的单词word2进行关联度计算;步骤k2,计算单词word1与单词word2的关联度;其中,为单词word1与单词word2共同出现的概率;为单词word1在文章中出现的概率,为单词word2在文章中出现的概率;步骤k3,判断关联度与预定义阈值的大小,若大于阈值,则定义单词word1与单词word2关联,将单词word1划归word2,将单词wor2划归word1;否则定义不相关。
[0010]进一步地,深度解析单元执行如下步骤,实现关联单词的特征空间图谱融合;步骤r1,任选单词word1和单词word2,将单词word1和单词word2分别定义为圆心节点,归一化计算单词word1关联词组合的关联度值并进行排序,归一化计算单词word2关联词组合的关联度值并进行排序,分别得到word1的关联关系空间图谱gl1,word2的关联关系空间图谱gl2,关联关系空间图谱关联度值使用颜色深度值进行表征;步骤r2,选择关联关系空间图谱gl1或关联关系空间图谱gl2作为源空间图谱,另一个作为目标空间图谱;步骤r3,选中圆心节点为起点,相邻单词为终点,调用关联关系空间图谱gl1中起点和终点的关联度值,与关联关系空间图谱gl2起点和终点的关联度值,计算值,如小于预定义阈值则执行步骤r5,否则执行r4;步骤r4,计算值,如小于预定义阈值则进行重合融合,否则进行差异本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于自然语言解析及机器学习的政策颗粒化分析系统,其特征在于:所述基于自然语言解析及机器学习的政策颗粒化分析系统包括:政策文件采集输入模块、自然语言处理模块、与自然语言处理模块连接的机器学习优化模块和与自然语言处理模块连接政策颗粒化分析输出模块;所述政策颗粒化分析输出模块根据预定的政策维度特征,以及自然语言处理模块的结果,分析输出政策的颗粒化参数;自然语言处理模块包括文件预处理单元、核心处理组件单元、单词归一化单元、词性标注单元、初级解析单元、词典查询单元、深度解析单元、自然语言处理输出单元,其中,词典查询单元用于进行词典查询;机器学习优化模块包括词性量化单元、机器学习算法库、优化融合单元;所述词性量化单元用于将自然语言处理为机器量化语言,机器学习算法库用于装载多种机器学习算法,所述优化融合单元在所述词性量化单元将自然语言处理为机器量化语言的基础上依据机器学习算法库对政策文本进行优化融合处理,机器学习优化模块执行如下步骤:步骤s1,词性量化单元将自然语言处理为机器语言;步骤s2,将原始文本分为组,对应自机器学习算法库中调取种机器学习算法模型;步骤s3,选择第个子集数据定义为验证集,其余的k

1组子集数据作为训练集,输入第种机器算法模型,得到
×
个模型计算值,预定义参数,k为大于1的整数;步骤s4,定义中间参数,,为中间参数;其中,是第个子集数据定义为验证集时,独立不相关的ki个算法模型的计算值;,和为预定义的参数,为实数集合,w
ki
为第ki个w值;步骤s5,通过中间参数,预定义系数,计算出特征指数和权值分散系数;其中,,为预定义的均值为0的属同一分布但独立的误差项系数,中间参数;步骤s6,通过中间参数,计算出参数,其中,),为预定义的均值为0的属同一分布但独立的误差项系数;步骤s7,将步骤s5、s6得到的特征指数、权值分散系数和位置参数带入中间函数,并对做傅里叶变换计算得到权值分布函数,将模型计算值与权值分布函数f(x)相乘得到一个拟合值,即完成k种算法模型计算值的拟合。2.根据权利要求1所述的基于自然语言解析及机器学习的政策颗粒化分析系统,其特征在于:核心处理组件单元包括分词器、句子边界注释器、替代语句探测器、标记生成...

【专利技术属性】
技术研发人员:杨显华杨弋丁春利王铮牛颢高屹嵩龙树全姚晗王舒魏兵兵李浩廖建雄周文安唐山聂珊
申请(专利权)人:四川省标准化研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1