本发明专利技术公开了一种基于社交媒体和人工智能的疾病相关舆情分析系统,包括:数据采集模块、数据预处理模块和数据分析模块;数据采集模块用于采集社交媒体文本和疾病相关的关键词表,收集设定时间内的动态和消息;数据预处理模块筛选和疾病相关的社交媒体文本,去除无关舆情分析的字符;数据分析模块构建并训练社交媒体文本预训练模型、命名实体识别模型和目标实体情感识别模型,预测出目标实体的情感极性。本发明专利技术构造了多个疾病相关的模型,能够增强舆情分析系统在医疗领域的适配性;自动化地提取社交文本中的实体信息;自动化地判断疾病相关实体的情感极性,可获取更加细粒度的实时舆情分析结果,提供更加精准的舆情监察服务。提供更加精准的舆情监察服务。提供更加精准的舆情监察服务。
【技术实现步骤摘要】
基于社交媒体和人工智能的疾病相关舆情分析系统
[0001]本专利技术属于自然语言处理领域或者舆情分析技术,具体涉及一种基于社交媒体和人工智能的疾病相关舆情分析系统。
技术介绍
[0002]随着互联网技术的快速进步,越来越多的人们倾向于在新浪微博、脸书(Facebook)以及推特(Twitter)等社交媒体上分享生活动态或者发表对热点话题的观点和态度。尤其是近几年来,流行性和传染性疾病对人们的生活带来了巨大的影响,引发了人们在社交媒体上对疾病相关话题的广泛关注和讨论。
[0003]从公共卫生的角度来看,社交媒体数据中蕴含了大量兼具实效性和传播性的疾病相关舆情信息,因此,通过对这些信息的深入分析,可以挖掘出用户的情感倾向和隐含态度,不仅有利于卫生部门开展对相关疾病的实时监控,及时追踪疾病发展的最新动态,掌握疾病的传播规律,而且可以为疫情的防控措施和政策制定提供有效参考。
[0004]一般的,基于社交媒体和人工智能的舆情分析主要针对文本数据,涉及自然语言处理中的文本挖掘和情感分析等多项技术。现有的疾病相关舆情分析系统主要存在以下问题[1
‑
2]:第一,过于依赖情感规则或情感字典,难以更新维护而且泛化性欠佳;第二,领域适配性较差,现有系统所使用的自然语言处理工具大多面向通用领域的正式文本设计,而在表达方式更为多样、语法规则不严谨的疾病相关社交媒体文本上,其性能往往会显著下降,无法满足疾病相关舆情分析的需要;第三,分析粒度较为粗糙,大部分舆情分析系统只能进行了句子级别的情感识别,无法对实体级别的情感极性进行分析,这大大限制了疾病相关舆情分析系统的精准度和实用性。
[0005][1]杨康.基于文本情感的微博舆情分析系统设计与实现[D].西北大学,2018
[0006][2]Duarte,Natasha,Emma Llanso,and Anna C.Loup."Mixed Messages?The Limits of Automated Social Media Content Analysis."FAT 106(2018).
[0007][3]裴庆祺,王玉燕.网络舆情文本信息情感极性分类处理系统及方法[P].陕西省:
[0008]CN111209401A,2020
‑
05
‑
29.
[0009][4]汪自立,臧冬松,唐文杰,康钰于,聂离乡.一种网络舆情的情感极性分析方法和装置[P].
[0010]北京市:CN109446404B,2022
‑
04
‑
08.
技术实现思路
[0011]鉴于上述,本专利技术的目的在于针对目前疾病相关舆情分析系统存在的更新维护困难、领域适配性较差以及分析粒度粗糙的问题,结合社交媒体大数据和自然语言处理技术,提供一种基于社交媒体和人工智能的疾病相关舆情分析系统,无需人工定义复杂的情感规则,即可开展对社交媒体上与疾病相关的细粒度舆情分析,从而实时、全面、精准地获取人
们对某种疾病的观点或态度及其变化趋势,为后续的舆情预警、管理和决策提供有效支撑。
[0012]本专利技术的目的是通过以下技术方案来实现的:一种基于社交媒体和人工智能的疾病相关舆情分析系统,该系统包括:数据采集模块、数据预处理模块和数据分析模块;
[0013]数据采集模块:用于采集社交媒体文本和疾病相关的关键词表,收集人们在设定的时间段内发布的动态和消息;
[0014]数据预处理模块:使用疾病相关的关键词表筛选和疾病相关的社交媒体文本,对筛选后的社交媒体文本去除和舆情分析无关的字符,输出预处理后的社交媒体文本;
[0015]数据分析模块:构建社交媒体文本预训练模型,包括使用预处理后的社交媒体文本,对通用领域的预训练语言模型进行增量预训练,得到社交媒体文本预训练模型;
[0016]基于社交媒体文本预训练模型构建命名实体识别模型和目标实体情感识别模型;对命名实体识别模型和目标实体情感识别模型进行训练,包括对预处理后的社交媒体文本进行随机采样,分发给标注人员进行实体和情感的标注,然后计算标注的一致性并反馈给标注人员进行评估,在进行多次迭代后将达到要求的已标注样本作为命名实体识别模型和目标实体情感识别模型的数据集,使用数据集进行模型训练;
[0017]利用训练好的命名实体识别模型对预处理后的社交媒体文本进行实体提取,然后将提取的结果作为目标实体情感识别模型的输入,预测出所有目标实体的情感极性。
[0018]进一步地,所述数据采集模块通过连接社交媒体的数据开放平台或采用数据爬虫技术来采集社交媒体数据和疾病相关的关键词表;在使用社交媒体的数据开放平台采集文本数据时,首先要向开放平台提供申请,在通过认证后获取结构化的数据。
[0019]进一步地,所述数据采集模块中,疾病相关关键词包括疾病的名称,对应的症状名和治疗药物名。
[0020]进一步地,所述数据预处理模块中,社交媒体文本的文本排除标准为满足以下条件之一:用户转发的文本、包含URL的文本、长度小于5的文本;样本的纳入标准为至少匹配到一个与疾病相关的关键词。
[0021]进一步地,所述数据预处理模块中对筛选后的社交媒体文本去除和舆情分析无关的字符包括:移除文本中的HTML字符以及将表情符号转换为字符串。
[0022]进一步地,所述数据分析模块中,构建社交媒体文本预训练模型具体包括:采用掩蔽语言模型和下一句预测两种预训练任务,将所有未标注社交媒体文本处理成这两种任务的格式作为预训练语料,对在通用领域的预训练语言模型进行增量预训练,得到社交媒体文本预训练模型。
[0023]进一步地,所述数据分析模块中,定义的实体类型包括以下七种:人名,地名,机构名,疾病名,症状名,药名和疫苗;其中,人名、机构名、药名和疫苗四种实体类型被选为目标实体类型,每一种目标实体类型包含三种情感极性:积极,中立和消极。
[0024]进一步地,所述使用数据集进行模型训练具体过程如下:
[0025]对命名实体识别模型和目标实体情感识别模型的数据集分别进行进一步划分,分为训练集、验证集和测试集;使用训练集对两个模型进行训练,在验证集上通过网格搜索在标注一致性的优化指标下调优模型参数,最终在测试集上评估性能。
[0026]进一步地,所述数据分析模块中,构建的命名实体识别模型使用社交媒体文本预训练模型对输入的文本进行编码,由线性层将文本表征映射为实体标签;命名实体识别模
型训练使用的损失函数L
ner
为交叉熵:
[0027][0028]其中,为token的真实标签,代表模型预测该token的标签为真实标签的概率,N为数据集中的训练样本数,M为每个样本的token数;
[0029]在模型训练期间,根据训练数据使用AdamW学习器微调社交媒体文本预训练模型的全部参数,并在验证集上使用网格搜索调整模型的超参数,最终选择最优模型在测试集上进行性能评估;所使用的评估本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于社交媒体和人工智能的疾病相关舆情分析系统,其特征在于,该系统包括:数据采集模块、数据预处理模块和数据分析模块;数据采集模块:用于采集社交媒体文本和疾病相关的关键词表,收集人们在设定的时间段内发布的动态和消息;数据预处理模块:使用疾病相关的关键词表筛选和疾病相关的社交媒体文本,对筛选后的社交媒体文本去除和舆情分析无关的字符,输出预处理后的社交媒体文本;数据分析模块:构建社交媒体文本预训练模型,包括使用预处理后的社交媒体文本,对通用领域的预训练语言模型进行增量预训练,得到社交媒体文本预训练模型;基于社交媒体文本预训练模型构建命名实体识别模型和目标实体情感识别模型;对命名实体识别模型和目标实体情感识别模型进行训练,包括对预处理后的社交媒体文本进行随机采样,分发给标注人员进行实体和情感的标注,然后计算标注的一致性并反馈给标注人员进行评估,在进行多次迭代后将达到要求的已标注样本作为命名实体识别模型和目标实体情感识别模型的数据集,使用数据集进行模型训练;利用训练好的命名实体识别模型对预处理后的社交媒体文本进行实体提取,然后将提取的结果作为目标实体情感识别模型的输入,预测出所有目标实体的情感极性。2.根据权利要求1所述的基于社交媒体和人工智能的疾病相关舆情分析系统,其特征在于,所述数据采集模块通过连接社交媒体的数据开放平台或采用数据爬虫技术来采集社交媒体数据和疾病相关的关键词表;在使用社交媒体的数据开放平台采集文本数据时,首先要向开放平台提供申请,在通过认证后获取结构化的数据。3.根据权利要求1所述的基于社交媒体和人工智能的疾病相关舆情分析系统,其特征在于,所述数据采集模块中,疾病相关关键词包括疾病的名称,对应的症状名和治疗药物名。4.根据权利要求1所述的基于社交媒体和人工智能的疾病相关舆情分析系统,其特征在于,所述数据预处理模块中,社交媒体文本的文本排除标准为满足以下条件之一:用户转发的文本、包含URL的文本、长度小于5的文本;样本的纳入标准为至少匹配到一个与疾病相关的关键词。5.根据权利要求1所述的基于社交媒体和人工智能的疾病相关舆情分析系统,其特征在于,所述数据预处理模块中对筛选后的社交媒体文本去除和舆情分析无关的字符包括:移除文本中的HTML字符以及将表情符号转换为字符串。6.根据权利要求1所述的基于社交媒体和人工智能的疾病相关舆情分析系统,其特征在于,所述数据分析模块中,构建社交媒体文本预训练模型具体包括:采用掩蔽语言模型和下一句预测两种预训练任务,将所有未标注社交媒体文本处理成这两种任务的格式作为预训练语料,对在通用领域的预训练语言模型进行增量预训练,得到社交媒体文本预训练模型。7.根据权利要求1所述的基于社交媒体和人工智能...
【专利技术属性】
技术研发人员:杨杰,周培林,张岩曦,
申请(专利权)人:浙江大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。