【技术实现步骤摘要】
基于时间序列和观点挖掘的异常言论分析方法及设备
[0001]本专利技术涉及信息处理
,尤其涉及一种基于时间序列和观点挖掘的异常言论分析方法、装置、设备、存储介质。
技术介绍
[0002]近年来,随着互联网的蓬勃发展,社交媒体在人们的生活中发挥着越来越重要的作用,越来越多的人习惯使用Facebook、Twitter、Instagram等社交网站分享自己的生活,发表自己对某个社会现象、事件或问题的观点。
[0003]每个人发表的言论当中都会包含自身个体的观点。观点挖掘又称为情感分析、倾向性分析等,简而言之就是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。情感是人类的主观意识中所蕴含的感受、态度或评价,是人脑对某一种客观存在的主观反映。社交媒体平台每天都会产生大量有价值的发文、评论信息,这些信息表达了人们对事件、问题的观点态度,如喜、怒、哀、乐和批评、赞扬等。基于此,通过对文本进行观点挖掘可以评估人物对诸如社会热点事件的态度。
[0004]大多数对文本观点挖掘的研究,都只着重于带有明显情感观点的 ...
【技术保护点】
【技术特征摘要】
1.一种基于时间序列和观点挖掘的异常言论分析方法,其特征在于,包括:获取目标人物对象的言论数据;其中,所述言论数据至少包括:人物基本信息、发文、评论、点赞;对所述言论数据进行多源数据融合,以对所述言论数据中的重复数据进行剔除;构建情感维度分类模型,将剔除重复数据的言论数据输入所述情感维度分类模型,进行言论观点挖掘;根据所述情感维度分类模型的得到的情感值,对某目标人物对象在指定时间段内的言论数据进行异常言论分析。2.根据权利要求1所述的基于基于时间序列和观点挖掘的异常言论分析方法,其特征在于,在获取目标人物对象的言论数据的步骤中,包括:定时从目标人物对象的社交网络平台增量采集获取相关数据;对所述相关数据进行数据筛选,获取对应于目标人物对象的人物基本信息、发文、评论、点赞,作为目标人物对象的言论数据。3.根据权利要求1所述的基于时间序列和观点挖掘的异常言论分析方法,其特征在于,在获取目标人物对象的言论数据的步骤之后,还包括数据清洗的步骤;包括:同平台重复数据删除:对于发文内容、发文时间一致或者评论内容、评论时间一致,亦或同一用户多次给同一发文或评论点赞的言论数据,都可以认为是重复数据,直接剔除重复数据;数据缺失剔除:针对用户信息、发文、评论信息数据存在字段缺失的问题,将缺失所需字段的记录进行删除操作;过短文本剔除:单个文字或特殊符号,一般意义上不具有感情色彩,将此类记录进行删除操作;语言统一:将其他语言转换为中文,繁体转换为简体,便于算法统一处理。4.根据权利要求3所述的基于时间序列和观点挖掘的异常言论分析方法,其特征在于,在对所述言论数据进行多源数据融合的步骤中,对目标人物对象的言论数据形成的词集合中的每个单词进行情感词向量的计算,根据词向量比较搜寻人物在相近时段内的高度相似发言,而后对重复数据进行剔除,排除重复数据对异常言论分析的影响。5.根据权利要求1所述的基于时间序列和观点挖掘的异常言论分析方法,其特征在于,所述情感维度分类模型采用BERT模型,利用自监督学习方法在无标注语料上进行预训练,从而捕捉文本中的丰富语义信息;根据任务类型对BERT预训练模型参数进行微调,以取得更好的任务效果。6.根据权利要求5所述的基于时间序列和观点挖掘的异常言论分析方法,其特征在于,将对应目标人物对象的言论数据输入所述情感维度分类模型后,输出结果为积极情感值和消极...
【专利技术属性】
技术研发人员:郭爱,孔祥博,
申请(专利权)人:中科世通亨奇北京科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。