基于差异性案件要素的案件舆情时间线生成方法技术

技术编号:29401534 阅读:67 留言:0更新日期:2021-07-23 22:39
本发明专利技术涉及基于差异性案件要素的案件舆情时间线生成方法,属于自然语言处理技术领域。本发明专利技术首先构建涉案舆情时间线数据集并生成每条微博文本的差异性要素;然后将差异性要素、微博文本和案件时间作为BERT编码器的输入,基于自编码框架生成文本的低维特征向量;最后基于该特征向量和K‑Means聚类的方法,使用软聚类生成舆情案件时间线。在构造的涉案舆情时间线数据集上,本发明专利技术提出的方法在ACC和NMI两个聚类指标上均有较大提升。

【技术实现步骤摘要】
基于差异性案件要素的案件舆情时间线生成方法
本专利技术涉及基于差异性案件要素的案件舆情时间线生成方法,属于自然语言处理

技术介绍
随着互联网的快速发展,案件发生后在短时间内会产生大量的微博文本,为了使用户充分了解案件的相关信息,掌握案件的发生发展,将案件舆情通过时间顺序总结案件发展过程的研究具有重要意义。案件舆情时间线生成是将同一案件的舆情新闻按照时间顺序生成话题簇,本质可以看做一个时间约束下的无监督聚类任务。与一般的时间线生成任务相比,案件领域的文本极易在短时间内大量产生且关注的重点随时间发生变化,由于案件舆情文本含有大量的案件要素,如涉案人员、案发时间、案发地点等,而同一案件的案件要素相同可能导致不同的微博文本在高维聚类空间中的表征出现重叠现象,但在不同的微博文本中存在不同的案件关键词,将每条微博文本特有的案件关键词定义为差异性要素。因此,本专利技术提出一种基于差异性案件要素的案件舆情时间线生成方法,在文本表征的过程中,将差异性案件要素和时间要素作为额外的增强信息来强调不同文本之间的差异性,最后基于K-Means聚类方法生成案件舆本文档来自技高网...

【技术保护点】
1.基于差异性案件要素的案件舆情时间线生成方法,其特征在于,包括:/nStep1、抽取差异性要素和获取案件时间,并将它们与微博文本一起作为BERT模型的输入,生成文本的高维向量表征;/nStep2、利用自编码器将文本的高维向量表征经过线性变换生成低维特征向量,通过BOW重构文本,提高上下文一致性;/nStep3、基于低维特征向量和K-Means聚类的方法,并通过自编码过程中的重构损失和聚类损失不断微调聚类中心,生成最终舆情案件时间线。/n

【技术特征摘要】
1.基于差异性案件要素的案件舆情时间线生成方法,其特征在于,包括:
Step1、抽取差异性要素和获取案件时间,并将它们与微博文本一起作为BERT模型的输入,生成文本的高维向量表征;
Step2、利用自编码器将文本的高维向量表征经过线性变换生成低维特征向量,通过BOW重构文本,提高上下文一致性;
Step3、基于低维特征向量和K-Means聚类的方法,并通过自编码过程中的重构损失和聚类损失不断微调聚类中心,生成最终舆情案件时间线。


2.根据权利要求1所述的基于差异性案件要素的案件舆情时间线生成方法,其特征在于:所述Step1之前,先收集并处理涉案舆情时间线数据作为训练语料和测试语料;
其中,具体的,借助互联网爬虫自动获取新浪微博中的涉案舆情文本信息作为数据来源,构建两种不同讨论热度的涉案舆情时间线数据集,并以9:1的比例划分训练集、测试集。


3.根据权利要求1所述的基于差异性案件要素的案件舆情时间线生成方法,其特征在于:所述Step1中,抽取差异性要素包括:
首先在涉案舆情时间线数据集中,根据数据集的微博文本数目,通过词频-逆文档频率TF-IDF算法分别抽取描述案件的10个案件要素,记作kdoc;然后在每条微博文本中,使用同样的方法选择词频最高的5个案件关键词,则第i条微博文本的案件关键词记作最后选取每条微博文本中非案件要素的案件关键词作为差异性要素ki,如公式(1)所示:



其中,ki表示第i条微博文本的差异性要素,-表示案件关键词与案件要素做差值运算。


4.根据权利要求1所述的基于差异性案件要素的案件舆情时间线生成方法,其特征在于:所述Step1中,获取案件时间包括:
在案件舆情时间线生成过程中,案件时间是一个很重要的因素,案件时间是从微博文本的发文时间中获得的;
从微博文本提取案件时间为YYYY-MM-DD,其中,YYYY表示年,MM表示月,DD表示日;然后,将案件时间按日期从小到大排序,取最小的案件时间表示为时间标签0,然后将其他的案件时间与该最小的案件时间做差值,差值结果作为其他案件时间对应的时间标签值t。


5.根据权利要求1所述的基于差异性案件要素的案件舆情时间线生成方法,其特征在于:所述Step1中,生成文本的高维向量表征包括:
在编码层阶段,采用的BERT模型的输入部分是个线性序列,每一条输入文本si由差异性要素ki、时间标签ti和微博文本ci拼接得到,它们通过分隔符[SEP]分割,最前面和最后分别增加标志符号[CLS]和[SEP],如公式(2)所示:



其中,si表示第i条输入文本,表示拼接运算;
然后,经过BERT模型得到文本的高维向量表征vi,如公式(3)所示:
vi=...

【专利技术属性】
技术研发人员:余正涛赵瑶黄于欣郭军军线岩团相艳
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南;53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1