当前位置: 首页 > 专利查询>浙江大学专利>正文

基于社交媒体和人工智能的疾病相关舆情分析系统技术方案

技术编号:37714891 阅读:22 留言:0更新日期:2023-06-02 00:10
本发明专利技术公开了一种基于社交媒体和人工智能的疾病相关舆情分析系统,包括:数据采集模块、数据预处理模块和数据分析模块;数据采集模块用于采集社交媒体文本和疾病相关的关键词表,收集设定时间内的动态和消息;数据预处理模块筛选和疾病相关的社交媒体文本,去除无关舆情分析的字符;数据分析模块构建并训练社交媒体文本预训练模型、命名实体识别模型和目标实体情感识别模型,预测出目标实体的情感极性。本发明专利技术构造了多个疾病相关的模型,能够增强舆情分析系统在医疗领域的适配性;自动化地提取社交文本中的实体信息;自动化地判断疾病相关实体的情感极性,可获取更加细粒度的实时舆情分析结果,提供更加精准的舆情监察服务。提供更加精准的舆情监察服务。提供更加精准的舆情监察服务。

【技术实现步骤摘要】
基于社交媒体和人工智能的疾病相关舆情分析系统


[0001]本专利技术属于自然语言处理领域或者舆情分析技术,具体涉及一种基于社交媒体和人工智能的疾病相关舆情分析系统。

技术介绍

[0002]随着互联网技术的快速进步,越来越多的人们倾向于在新浪微博、脸书(Facebook)以及推特(Twitter)等社交媒体上分享生活动态或者发表对热点话题的观点和态度。尤其是近几年来,流行性和传染性疾病对人们的生活带来了巨大的影响,引发了人们在社交媒体上对疾病相关话题的广泛关注和讨论。
[0003]从公共卫生的角度来看,社交媒体数据中蕴含了大量兼具实效性和传播性的疾病相关舆情信息,因此,通过对这些信息的深入分析,可以挖掘出用户的情感倾向和隐含态度,不仅有利于卫生部门开展对相关疾病的实时监控,及时追踪疾病发展的最新动态,掌握疾病的传播规律,而且可以为疫情的防控措施和政策制定提供有效参考。
[0004]一般的,基于社交媒体和人工智能的舆情分析主要针对文本数据,涉及自然语言处理中的文本挖掘和情感分析等多项技术。现有的疾病相关舆情分析系统主要存在以下问题[本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于社交媒体和人工智能的疾病相关舆情分析系统,其特征在于,该系统包括:数据采集模块、数据预处理模块和数据分析模块;数据采集模块:用于采集社交媒体文本和疾病相关的关键词表,收集人们在设定的时间段内发布的动态和消息;数据预处理模块:使用疾病相关的关键词表筛选和疾病相关的社交媒体文本,对筛选后的社交媒体文本去除和舆情分析无关的字符,输出预处理后的社交媒体文本;数据分析模块:构建社交媒体文本预训练模型,包括使用预处理后的社交媒体文本,对通用领域的预训练语言模型进行增量预训练,得到社交媒体文本预训练模型;基于社交媒体文本预训练模型构建命名实体识别模型和目标实体情感识别模型;对命名实体识别模型和目标实体情感识别模型进行训练,包括对预处理后的社交媒体文本进行随机采样,分发给标注人员进行实体和情感的标注,然后计算标注的一致性并反馈给标注人员进行评估,在进行多次迭代后将达到要求的已标注样本作为命名实体识别模型和目标实体情感识别模型的数据集,使用数据集进行模型训练;利用训练好的命名实体识别模型对预处理后的社交媒体文本进行实体提取,然后将提取的结果作为目标实体情感识别模型的输入,预测出所有目标实体的情感极性。2.根据权利要求1所述的基于社交媒体和人工智能的疾病相关舆情分析系统,其特征在于,所述数据采集模块通过连接社交媒体的数据开放平台或采用数据爬虫技术来采集社交媒体数据和疾病相关的关键词表;在使用社交媒体的数据开放平台采集文本数据时,首先要向开放平台提供申请,在通过认证后获取结构化的数据。3.根据权利要求1所述的基于社交媒体和人工智能的疾病相关舆情分析系统,其特征在于,所述数据采集模块中,疾病相关关键词包括疾病的名称,对应的症状名和治疗药物名。4.根据权利要求1所述的基于社交媒体和人工智能的疾病相关舆情分析系统,其特征在于,所述数据预处理模块中,社交媒体文本的文本排除标准为满足以下条件之一:用户转发的文本、包含URL的文本、长度小于5的文本;样本的纳入标准为至少匹配到一个与疾病相关的关键词。5.根据权利要求1所述的基于社交媒体和人工智能的疾病相关舆情分析系统,其特征在于,所述数据预处理模块中对筛选后的社交媒体文本去除和舆情分析无关的字符包括:移除文本中的HTML字符以及将表情符号转换为字符串。6.根据权利要求1所述的基于社交媒体和人工智能的疾病相关舆情分析系统,其特征在于,所述数据分析模块中,构建社交媒体文本预训练模型具体包括:采用掩蔽语言模型和下一句预测两种预训练任务,将所有未标注社交媒体文本处理成这两种任务的格式作为预训练语料,对在通用领域的预训练语言模型进行增量预训练,得到社交媒体文本预训练模型。7.根据权利要求1所述的基于社交媒体和人工智能...

【专利技术属性】
技术研发人员:杨杰周培林张岩曦
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1