System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于计算机科学领域,特别是大数据分析、深度学习、自然语言处理和社交媒体数据分析的交叉领域,更具体地,涉及一种对生态环境公众满意度的文本分析方法、装置及介质。
技术介绍
1、基于客观方法对环境治理公众满意度调查分析方面的研究成果较少。虽重大公共自然环境治理公众满意度客观评价具备广泛的应用前景,但国内基于客观方法对囊括多源数据对中国全域进行调查分析的研究成果相对较少;当对公众环境满意度进行调查分析时,国内现有技术方案选择了设计调查问卷与发放问卷的传统方式收集数据,其主要通过实地走访和问卷调查的方式建立满意度影响变量理论框架。通过实地走访和问卷调查,建立满意度影响变量理论框架是现有常用技术方案。然而这种常用的回收率低、易产生数据冗杂的调查问卷法在实际采集公众满意度数据的过程中面临着诸多难以解决的问题。
2、现有技术或因数据片面性、样本缺乏等客观条件不足,在数据来源、实施过程中具有一些缺憾,搭建公众卫生满意度的改进量化模型是一项长期挑战。
3、提供了本专利技术以解决现有技术中存在的上述问题。因此,需要一种对生态环境公众满意度的文本分析方法、装置及介质,通过自然语言处理、大数据和深度学习技术来解决现有技术中存在的生态环境公众满意度分析的不足之处。随着近年来环境治理和生态保护的重视程度日益递增,需要更全面、准确的方法来了解公众对生态环境治理的满意度,从而提高生态环境的质量。
技术实现思路
1、根据本专利技术的第一方案,提供了一种对生态环境公众满意度的文本分析方
2、获取与生态环境相关的评论文本数据;
3、基于所述评论文本数据,计算情感倾向得分,并基于映射公式将情绪倾向得分投影在设定区间内,实现评论情绪倾向及强度的量化;
4、针对以年为单位的时间分辨率、具有长期线性趋势的评论文本数据,利用线性模型拟合所述评论文本数据的长期趋势。
5、进一步地,所述基于所述评论文本数据,计算情感倾向得分,具体包括:
6、基于所述评论文本数据,提取出语义特征;
7、通过如下公式(1)和公式(2)计算情感倾向得分:
8、
9、
10、其中,p(tneg|tto be classified)为待分类样本具有设定语义特征的情况下,该待分类样本属于消极情绪的概率;p(tto be classified│tneg)为待分类样本在属于消极情绪的条件下,该待分类样本具有设定语义特征的概率,属于先验概率;p(tpos│tto be classified)表示表示待分类样本具有设定语义特征的情况下,该待分类样本属于积极情绪的概率,tpos表示表示积极情绪的样本,p(tto be classified)表示表示待分类样本具有设定语义特征的概率,即样本在考虑情感倾向之前出现设定语义特征的概率,p(tpos)表示表示待分类样本为积极情绪的概率,p(tneg)表示表示分类样本消极情绪的概率,tneg表示表示消极情绪的样本。
11、进一步地,所述基于映射公式将情绪倾向得分投影在设定区间内,实现评论情绪倾向及强度的量化,具体包括:
12、构建分类模型,利用朴素贝叶斯分类器衡量标准语料库与待处理文本之间的关联程度,并训练所述分类模型,通过映射公式将情绪倾向得分投影在[0,100]的区间上,完成量化网络评论情绪倾向及强度的任务。
13、进一步地,所述映射公式如下公式(3)所示:
14、
15、其中,ei表示表示某个特定样本或数据点的情感得分(百分制),pi表示公式(1)、(2)所计算出的待分类样本情感概率,min表示最小值函数,max表示最大值函数。
16、进一步地,所述线性模型如下公式(4)所示:
17、ei=a+bt+it (4)
18、其中,ei表示某个特定样本或数据点的情感得分(百分制),it是具有e(it)特征的随机波动,具体而言其是与情感得分有关的随机噪声或波动,e(it)特征即为与时间t相关的随机波动特征,通常用于描述情感得分的不稳定性或随机变化。这个特征可以包括噪声、波动或其他随机成分,可能会对情感得分的长期趋势产生影响;消除随机波动it后得到情感得分长期趋势,a表示公式中的截距,代表情感得分ei的常数项,即情感得分在没有时间趋势时的基本值,b表示时间变量系数,代表时间t对情感得分ei的影响程度,t表示时间。根据本专利技术的第二技术方案,提供一种对生态环境公众满意度的文本分析装置,所述装置包括:
19、获取单元,被配置为获取与生态环境相关的评论文本数据;
20、量化单位,被配置为基于所述评论文本数据,计算情感倾向得分,并基于映射公式将情绪倾向得分投影在设定区间内,实现评论情绪倾向及强度的量化;
21、拟合单元,被配置为针对以年为单位的时间分辨率、具有长期线性趋势的评论文本数据,利用线性模型拟合所述评论文本数据的长期趋势。
22、进一步地,所述量化单元被进一步配置为:
23、基于所述评论文本数据,提取出语义特征;
24、通过如下公式(1)和公式(2)计算情感倾向得分:
25、
26、
27、其中,p(tneg|tto be classified)为待分类样本具有设定语义特征的情况下,该待分类样本属于消极情绪的概率;p(tto be classified│tneg)为待分类样本在属于消极情绪的条件下,该待分类样本具有设定语义特征的概率,属于先验概率;p(tpos│tto be classified)表示表示待分类样本具有设定语义特征的情况下,该待分类样本属于积极情绪的概率,tpos表示表示积极情绪的样本,p(tto be classified)表示表示待分类样本具有设定语义特征的概率,即样本在考虑情感倾向之前出现设定语义特征的概率,p(tpos)表示表示待分类样本为积极情绪的概率,p(tneg)表示表示分类样本消极情绪的概率,tneg表示表示消极情绪的样本。
28、进一步地,所述量化单元被进一步配置为:
29、构建分类模型,利用朴素贝叶斯分类器衡量标准语料库与待处理文本之间的关联程度,并训练所述分类模型,通过映射公式将情绪倾向得分投影在[0,100]的区间上,完成量化网络评论情绪倾向及强度的任务。
30、进一步地,所述映射公式如下公式(3)所示:
31、
32、其中,ei表示表示某个特定样本或数据点的情感得分(百分制),pi表示公式(1)、(2)所计算出的待分类样本情感概率,min表示最小值函数,max表示最大值函数。
33、进一步地,所述线性模型如下公式(4)所示:
34、ei=a+bt+it (4)
35、其中,ei表示某个特定样本或数据点的情感得分(百分制),it是具有e(it)特征的随机波动,具体而言其是与情感得分有关的本文档来自技高网...
【技术保护点】
1.一种对生态环境公众满意度的文本分析方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述评论文本数据,计算情感倾向得分,具体包括:
3.根据权利要求1所述的方法,其特征在于,所述基于映射公式将情绪倾向得分投影在设定区间内,实现评论情绪倾向及强度的量化,具体包括:
4.根据权利要求3所述的方法,其特征在于,所述映射公式如下公式(3)所示:
5.根据权利要求1所述的方法,其特征在于,所述线性模型如下公式(4)所示:
6.一种对生态环境公众满意度的文本分析方法装置,其特征在于,所述装置包括:
7.根据权利要求6所述的装置,其特征在于,所述量化单元被进一步配置为:
8.根据权利要求6所述的装置,其特征在于,所述量化单元被进一步配置为:
9.根据权利要求6所述的装置,其特征在于,所述线性模型如下公式(4)所示:
10.一种可读存储介质,其特征在于,所述可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利
...【技术特征摘要】
1.一种对生态环境公众满意度的文本分析方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述评论文本数据,计算情感倾向得分,具体包括:
3.根据权利要求1所述的方法,其特征在于,所述基于映射公式将情绪倾向得分投影在设定区间内,实现评论情绪倾向及强度的量化,具体包括:
4.根据权利要求3所述的方法,其特征在于,所述映射公式如下公式(3)所示:
5.根据权利要求1所述的方法,其特征在于,所述线性模型如下公式(4)所示:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。