System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种舆情监控方法及装置制造方法及图纸_技高网

一种舆情监控方法及装置制造方法及图纸

技术编号:41071770 阅读:5 留言:0更新日期:2024-04-24 11:28
本发明专利技术提供了一种舆情监控方法及装置,该方法包括:通过预先设置的敏感词数据库对待处理文本进行审核;在审核通过的情况下,通过预先训练好的目标情感倾向分析模型确定该待处理文本的情感倾向;通过预先训练好的目标序列标注模型对该待处理文本进行实体和实体属性识别,得到该待处理文本的识别结果;根据该情感倾向与该识别结果对该待处理文本进行舆情监控,可以解决相关技术中舆情监控所使用的技术关注点比较单一不能反映员工们关注的具体问题和具体期待的问题,舆情监控更全面,能够反映员工们关注的具体问题和具体期待。

【技术实现步骤摘要】

本专利技术涉及数据处理领域,具体而言,涉及一种舆情监控方法及装置


技术介绍

1、一般舆情监控所使用的技术关注点比较单一,只能简单反映出员工的满意度,未从多角度来对交流社区的文本进行分析,不能反映员工们关注的具体问题和具体期待等,不能全面地倾听员工的心声。

2、针对相关技术中舆情监控所使用的技术关注点比较单一不能反映员工们关注的具体问题和具体期待的问题,尚未提出解决方案。


技术实现思路

1、本专利技术实施例提供了一种舆情监控方法及装置,以至少解决相关技术中舆情监控所使用的技术关注点比较单一不能反映员工们关注的具体问题和具体期待的问题。

2、根据本专利技术的一个实施例,提供了一种舆情监控方法,所述方法包括:

3、通过预先设置的敏感词数据库对待处理文本进行审核;

4、在审核通过的情况下,通过预先训练好的目标情感倾向分析模型确定所述待处理文本的情感倾向;

5、通过预先训练好的目标序列标注模型对所述待处理文本进行实体和实体属性识别,得到所述待处理文本的识别结果;

6、根据所述情感倾向与所述识别结果对所述待处理文本进行舆情监控。

7、可选地,根据所述情感分析结果与所述识别结果对所述待处理文本进行舆情监控包括:

8、在所述识别结果为识别到实体和实体属性的情况下,将所述待处理文本的情感倾向、所述实体和实体属性进行存储,并以预设时间周期以第一预设呈现方式进行上报;

9、在所述识别结果为未识别到实体和实体属性的情况下,对所述待处理文本的情感倾向进行存储,并以预设时间周期以第二预设呈现方式进行上报。

10、可选地,在通过预先设置的敏感词数据库对待处理文本进行审核之前,所述方法还包括:

11、获取预设数量的交流言论文本,并对所述交流言论文本进行预处理,得到预处理后的交流言论文本,将所述预设数量的预处理后的交流言论文本形成初始数据集;

12、获取预设数量的交流言论文本与对应的情感倾向、序列实体以及实体属性,并将预设数量的交流言论文本与对应的情感倾向、序列实体以及实体属性组成训练样本集;

13、根据所述训练样本集分别对初始情感倾向模型和初始序列标注模型进行训练,得到所述目标情感倾向模型和所述目标序列标注模型。

14、可选地,根据所述训练样本集分别对初始情感倾向模型和初始序列标注模型进行训练,得到所述目标情感倾向模型和所述目标序列标注模型包括:

15、基于所述训练样本集,通过ernie模型与情感倾向分类的方式对初始情感倾向模型进行训练,得到所述目标情感倾向模型;

16、基于所述训练样本集,通过bert模型与crf模型对所述初始序列标注模型进行训练,得到所述目标序列标注模型,其中,所述bert模型用于学习文本的分布表示,所述crf模型用于考虑序列标注训练时的句子约束。

17、可选地,基于所述训练样本集,通过ernie模型与情感倾向分类的方式对初始情感倾向模型进行训练,得到所述目标情感倾向模型包括:

18、基于所述训练样本集通过以下步骤,对所述初始情感倾向模型进行训练,在所述初始情感倾向模型的损失函数满足第一预设条件的情况下,完成训练,得到所述目标情感倾向模型:

19、对第一分词器进行实例化,通过所述第一分词器分别对所述训练样本集进行分词与id化处理,得到每个训练样本对应的token id序列与所属句子类型id序列;

20、将所述每个训练样本对应的token id序列与所属句子类型id序列输入所述ernie模型,得到与所述token id序列等长的含有上下文语义的向量表示,并分别将第一个tokenid序列所对应的向量表示作为每个训练样本的语义向量;

21、通过全连接层+softmax层对所述每个训练样本的语义向量进行处理,得到所述每个训练样本处理后的概率,将最大所述概率对应的情感倾向确定为所述每个训练样本对应的目标情感倾向。

22、可选地,基于所述训练样本集,通过bert模型与crf模型对所述初始序列标注模型进行训练,得到所述目标序列标注模型包括:

23、将所述训练样本集分批送入所述初始序列标注模型中,通过以下步骤对所述序列标注模型进行训练,在所述初始序列标注模型的损失函数满足第二预设条件的情况下,完成训练,得到所述目标序列标注模型:

24、对第二分词器进行实例化,通过所述第二分词器分别对所述训练样本集进行分词与id化处理,得到每个训练样本对应的token id序列与所属句子类型id序列;

25、将所述每个训练样本对应的token id序列与所属句子类型id序列输入所述bert模型,得到与所述token id序列等长的含有上下文语义的向量表示;

26、将所述向量表示输入全连接层+softmax层,得到所述每个训练样本中所述tokenid序列所对应的标签的概率矩阵;

27、将所述概率矩阵输入所述crf模型,得到所述训练样本中每个token id序列的实体和实体属性识别结果。

28、根据本专利技术的另一方面,还提供了一种舆情监控装置,所述装置包括:

29、审核模块,用于通过预先设置的敏感词数据库对待处理文本进行审核;

30、确定模块,用于在审核通过的情况下,通过预先训练好的目标情感倾向分析模型确定所述待处理文本的情感倾向;

31、识别模块,用于通过预先训练好的目标序列标注模型对所述待处理文本进行实体和实体属性识别,得到所述待处理文本的识别结果;

32、监控模块,用于根据所述情感倾向与所述识别结果对所述待处理文本进行舆情监控。

33、可选地,所述监控模块,还用于在所述识别结果为识别到实体和实体属性的情况下,将所述待处理文本的情感倾向、所述实体和实体属性进行存储,并以预设时间周期以第一预设呈现方式进行上报;在所述识别结果为未识别到实体和实体属性的情况下,对所述待处理文本的情感倾向进行存储,并以预设时间周期以第二预设呈现方式进行上报。

34、可选地,所述装置还包括:

35、第一获取模块,用于获取预设数量的交流言论文本,并对所述交流言论文本进行预处理,得到预处理后的交流言论文本,将所述预设数量的预处理后的交流言论文本形成初始数据集;

36、第二获取模块,用于获取预设数量的交流言论文本与对应的情感倾向、序列实体以及实体属性,并将预设数量的交流言论文本与对应的情感倾向、序列实体以及实体属性组成训练样本集;

37、训练模块,用于根据所述训练样本集分别对初始情感倾向模型和初始序列标注模型进行训练,得到所述目标情感倾向模型和所述目标序列标注模型。

38、可选地,所述训练模块包括:

39、第一训练子模块,用于基于所述训练样本集,通过ernie模型与情感倾向分类的方式对初始情感倾向模型进行训练,得到所述目标情感倾向模型;<本文档来自技高网...

【技术保护点】

1.一种舆情监控方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,根据所述情感分析结果与所述识别结果对所述待处理文本进行舆情监控包括:

3.根据权利要求1所述的方法,其特征在于,在通过预先设置的敏感词数据库对待处理文本进行审核之前,所述方法还包括:

4.根据权利要求3所述的方法,其特征在于,根据所述训练样本集分别对初始情感倾向模型和初始序列标注模型进行训练,得到所述目标情感倾向模型和所述目标序列标注模型包括:

5.根据权利要求4所述的方法,其特征在于,基于所述训练样本集,通过Ernie模型与情感倾向分类的方式对初始情感倾向模型进行训练,得到所述目标情感倾向模型包括:

6.根据权利要求4所述的方法,其特征在于,基于所述训练样本集,通过Bert模型与CRF模型对所述初始序列标注模型进行训练,得到所述目标序列标注模型包括:

7.一种舆情监控装置,其特征在于,所述装置包括:

8.根据权利要求7所述的装置,其特征在于,所述监控模块,还用于在所述识别结果为识别到实体和实体属性的情况下,将所述待处理文本的情感倾向、所述实体和实体属性进行存储,并以预设时间周期以第一预设呈现方式进行上报;在所述识别结果为未识别到实体和实体属性的情况下,所述待处理文本的情感倾向进行存储,并以预设时间周期以第二预设呈现方式进行上报。

9.一种计算机可读的存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至6任一项中所述的方法。

10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至6中任一项所述的方法。

...

【技术特征摘要】

1.一种舆情监控方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,根据所述情感分析结果与所述识别结果对所述待处理文本进行舆情监控包括:

3.根据权利要求1所述的方法,其特征在于,在通过预先设置的敏感词数据库对待处理文本进行审核之前,所述方法还包括:

4.根据权利要求3所述的方法,其特征在于,根据所述训练样本集分别对初始情感倾向模型和初始序列标注模型进行训练,得到所述目标情感倾向模型和所述目标序列标注模型包括:

5.根据权利要求4所述的方法,其特征在于,基于所述训练样本集,通过ernie模型与情感倾向分类的方式对初始情感倾向模型进行训练,得到所述目标情感倾向模型包括:

6.根据权利要求4所述的方法,其特征在于,基于所述训练样本集,通过bert模型与crf模型对所述初始序列标注模型进行训练,...

【专利技术属性】
技术研发人员:叶秋萍任志云陈华媛韩世尚李如意潘嘉伟李璠丁永建黄时光向小佳吴海洋赵振海
申请(专利权)人:光大科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1