食药舆情分析方法技术

技术编号:30012999 阅读:10 留言:0更新日期:2021-09-11 06:14
本发明专利技术提供的一种食药舆情分析方法,包括:采集网络文本,并对网络文本进行预处理;对预处理后的网络文本进行分句处理,并剔出网络文本中的重复评论句;对分句处理后的每个评论句进行分词处理,提取出文本中的食药特征词;计算食药特征词之间的相似度,任意两个相似度小于设定阈值,则剔除其中一个特征词;构建分类词典,将每个评论句中的食药特征词划分到所对应的词典类别;构建情感词典,并从评论句中识别出食药特征词、情感词、程度词以及否定词;确定情感词的基础情感值,程度词的权重值以及否定词的权重值;构建食药情感倾向值计算模型,并根据情感倾向值计算模型确定所采集网络文本的舆情倾向,通过上述方法,能够对用户发表在网络上的评价进行准确处理,并得出准确的情感倾向值,从而能够为食药的厂家、质量监督部门提供准确的舆情参考依据,从而为质量反馈、市场监督的措施制定提供准确的数据支持。市场监督的措施制定提供准确的数据支持。

【技术实现步骤摘要】
食药舆情分析方法


[0001]本专利技术涉及一种舆情分析方法,尤其涉及一种食药舆情分析方法。

技术介绍

[0002]食品和药物是关系到民生的两大主题,市面上的食品以及药物的种类不胜枚举,然而,用户对于某个品牌的食品或者药物的使用后的评价,则是关系到后续对于食品以及药物的质量反馈、市场监督等行为的实施。
[0003]随着网络技术和计算机技术的发展,用户对于食品或者药物的评价往往通过微博、贴吧等网络方式进行陈述,现有技术中,对于关于食药舆情的网络文本的分析均是基于情感分析,即通过对网络文本的处理、情感值计算等,但是,现有的情感分析方法存在准确性低,从而不能准确的把握用户评价倾向。
[0004]因此,为了解决上述技术问题,亟需提出一种新的技术手段。

技术实现思路

[0005]有鉴于此,本专利技术的目的是提供一种食药舆情分析方法,能够对用户发表在网络上的评价进行准确处理,并得出准确的情感倾向值,从而能够为食药的厂家、质量监督部门提供准确的舆情参考依据,从而为质量反馈、市场监督的措施制定提供准确的数据支持。
[0006]本专利技术提供的一种食药舆情分析方法,包括以下步骤:
[0007]S1.采集网络文本,并对网络文本进行预处理;
[0008]S2.对预处理后的网络文本进行分句处理,并剔出网络文本中的重复评论句;
[0009]S3.对分句处理后的每个评论句进行分词处理,提取出文本中的食药特征词;计算食药特征词之间的相似度,任意两个相似度小于设定阈值,则剔除其中一个特征词;
[0010]S4.构建分类词典,将每个评论句中的食药特征词划分到所对应的词典类别;
[0011]S5.构建情感词典,并从评论句中识别出食药特征词、情感词、程度词以及否定词;
[0012]S6.确定情感词的基础情感值,程度词的权重值以及否定词的权重值;
[0013]S7.构建食药情感倾向值计算模型,并根据情感倾向值计算模型确定所采集网络文本的舆情倾向。
[0014]进一步,步骤S1中,具体包括:
[0015]S11.对网络文本进行有序化处理,并剔除网络文本中的停用词、无关词;
[0016]S12.对步骤S1中处理后的网络文本进行指代消解:
[0017]S121.基于fasttext分类模型对网络文本进行指代词检测;
[0018]S122.基于BiLSTM_CRF深度学习模型进行网络文本中的实体词进行提取;
[0019]S123.将网络文本的指代词替换成相对应的实体词。
[0020]进一步,步骤S3中,食药特征词之间的相似度通过如下方法计算:
[0021]其中,β为食药特征词A和食药特征词B之间
的相似系数;Dis(A,B)为食药特征词A和食药特征词B之间的语义距离,其中,β≥1.5。
[0022]进一步,根据如下方法确定网络文本的舆情倾向:
[0023]判断网络文本的总情感值S与设定的情感值范围[

1,1]进行比较:
[0024]当S<

1时,则网络文本对于食药的评价倾向为负向评价;
[0025]当S>1时,则网络文本对于食药的评价倾向为正向评价;
[0026]当

1≤S≤1时,则网络文本对于食药的评价为中性评价;
[0027]将网络文本对于食药的负向评价记录为负向评价集,将网络文本的正向评价记录为正向评价集,将网络文本的中性评价记录为中性评价集。
[0028]进一步,网络文本的总情感值S通过如下方法确定:
[0029]S=S1+S2+S3,其中,S1为网络文本中一般陈述句的情感倾向值,S2为网络文本中转折句的情感倾向值,S3为条件句的情感倾向值。
[0030]进一步,一般陈述句的情感倾向值通过如下方法计算:
[0031]其中,w
deg
为第i个陈述句中的程度词的权重,Se为第i个陈述句中的情感特征词的情感值,w
neg
为第i个陈述句中的否定词的平均权重,Q为网络文本中一般陈述句的个数,m为陈述句中否定词的个数。
[0032]进一步,转折句的情感倾向值通过如下方法计算:
[0033][0034]其中,w
neg1
为转折句中正向情感特征词的否定词的平均权重,w
neg2
为转折句中负向情感特征词的否定词的平均权重,w
deg1
为转折句中正向情感特征词的程度词的权重,w
deg2
为转折句中负向情感特征词的程度词的权重,r1为转折句中程度词的权重调节系数,t1为转折句中否定词的权重调节系数;Se1为转折句中正向情感特征词的情感值,Se2为转折句中负向情感特征词的权重,q为转折句的个数。
[0035]进一步,递进句的情感倾向值通过如下方法计算:
[0036][0037]其中,Se为递进句的情感特征词的情感值,w
deg
为递进句的程度词的权重,w
neg
为递进句中的否定词的平均权重,m为否定词的个数,r2为递进句中程度词的权重调节系数,t2为递进句中否定词的权重调节系数。
[0038]本专利技术的有益效果:通过本专利技术,能够对用户发表在网络上的评价进行准确处理,并得出准确的情感倾向值,从而能够为食药的厂家、质量监督部门提供准确的舆情参考依据,从而为质量反馈、市场监督的措施制定提供准确的数据支持。
附图说明
[0039]下面结合附图和实施例对本专利技术作进一步描述:
[0040]图1为本专利技术的流程示意图。
具体实施方式
[0041]以下结合说明书附图对本专利技术做出进一步详细说明:
[0042]本专利技术提供的一种食药舆情分析方法,包括以下步骤:
[0043]S1.采集网络文本,并对网络文本进行预处理;
[0044]S2.对预处理后的网络文本进行分句处理,并剔出网络文本中的重复评论句;
[0045]S3.对分句处理后的每个评论句进行分词处理,提取出文本中的食药特征词;计算食药特征词之间的相似度,任意两个相似度小于设定阈值,则剔除其中一个特征词;
[0046]S4.构建分类词典,将每个评论句中的食药特征词划分到所对应的词典类别;
[0047]S5.构建情感词典,并从评论句中识别出食药特征词、情感词、程度词以及否定词;对于食药特征词即是关于食品或者药物的相关特征的描述,比如包装、安全、添加剂含量等等,情感词比如好、差、不错等,程度词包括最、非常、尤其等,否定包括不、恶劣等等,这些都是可以通过现有的方法建立相应的词典实现,在此不加以赘述;
[0048]S6.确定情感词的基础情感值,程度词的权重值以及否定词的权重值;其中,情感词的基础情感值采用现有的算法进行确定,比如TF

IDF算法;程度词以及否定词分别通过现有的方法建立程度词权重值对照表和否定词本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种食药舆情分析方法,其特征在于:包括以下步骤:S1.采集网络文本,并对网络文本进行预处理;S2.对预处理后的网络文本进行分句处理,并剔出网络文本中的重复评论句;S3.对分句处理后的每个评论句进行分词处理,提取出文本中的食药特征词;计算食药特征词之间的相似度,任意两个相似度小于设定阈值,则剔除其中一个特征词;S4.构建分类词典,将每个评论句中的食药特征词划分到所对应的词典类别;S5.构建情感词典,并从评论句中识别出食药特征词、情感词、程度词以及否定词;S6.确定情感词的基础情感值,程度词的权重值以及否定词的权重值;S7.构建食药情感倾向值计算模型,并根据情感倾向值计算模型确定所采集网络文本的舆情倾向。2.根据权利要求1所述食药舆情分析方法,其特征在于:步骤S1中,具体包括:S11.对网络文本进行有序化处理,并剔除网络文本中的停用词、无关词;S12.对步骤S1中处理后的网络文本进行指代消解:S121.基于fasttext分类模型对网络文本进行指代词检测;S122.基于BiLSTM_CRF深度学习模型进行网络文本中的实体词进行提取;S123.将网络文本的指代词替换成相对应的实体词。3.根据权利要求1所述食药舆情分析方法,其特征在于:步骤S3中,食药特征词之间的相似度通过如下方法计算:其中,β为食药特征词A和食药特征词B之间的相似系数;Dis(A,B)为食药特征词A和食药特征词B之间的语义距离,其中,β≥1.5。4.根据权利要求1所述食药舆情分析方法,其特征在于:根据如下方法确定网络文本的舆情倾向:判断网络文本的总情感值S与设定的情感值范围[

1,1]进行比较:当S<

1时,则网络文本对于食药的评价倾向为负向评价;当S>1时,则网络文本对于食药的评价倾向为正向评价;当

1≤S≤1时,则网络文本对于食药的评价为中性评价;将网...

【专利技术属性】
技术研发人员:莫军杨小珊黄先亮谭明天詹洪胜许晶冰毛庆谭敏高中华王自强唐运涛
申请(专利权)人:重庆市食品药品检验检测研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1