涉案舆情的话题检测方法和装置制造方法及图纸

技术编号:27511011 阅读:26 留言:0更新日期:2021-03-02 18:41
本申请属于计算机技术领域,具体涉及一种涉案舆情的话题检测方法和装置。涉案舆情的话题检测方法包括:获取包含案件舆情文本的舆情文本数据;基于预先确定的案件要素信息和关键词在案件舆情文本中的位置,确定关键词的附加权重;根据附加权重和基于TF

【技术实现步骤摘要】
涉案舆情的话题检测方法和装置


[0001]本申请属于计算机
,具体涉及一种涉案舆情的话题检测方法和装置。

技术介绍

[0002]话题检测与跟踪(Topic Detection and Tracking,TDT)是自然语言处理领域的一项技术,它以海量信息流为研究对象,通过对新闻主题的监控和提取,来检测和捕捉用户感兴趣的信息。由于网络中的信息量太大,与话题相关的信息经常散布在不同的地方,并且在不同的时间分布在许多不同的地方,所以仅靠这些孤立的信息,人们很难全面掌握事件的信息。在这种情况下,话题检测技术应运而生,该技术可以帮助人们整合分散的信息,将同一个话题的信息作为一个整体进行组织,以供人们理解。
[0003]现有的话题检测方法不考虑案件要素信息,只对舆情文本进行话题检测,由于涉案舆情相似词语较多,将面临着数据特征稀疏问题和维度灾难问题,不仅算法开销大,而且无法有效提取案件特征,导致话题检测的准确率低、检测效率也不高。

技术实现思路

[0004](一)要解决的技术问题
[0005]鉴于现有技术的上述缺点、不足,本申请提供一种涉案舆情的话题检测方法和装置。
[0006](二)技术方案
[0007]为达到上述目的,本申请采用如下技术方案:
[0008]第一方面,本申请实施例提供一种涉案舆情的话题检测方法,该方法包括:
[0009]S10、获取包含案件舆情文本的舆情文本数据;
[0010]S20、基于预先确定的案件要素信息,确定所述舆情文本数据中的关键词,基于所述关键词在案件舆情文本中的位置,确定所述关键词的附加权重;
[0011]S30、通过TF-IDF算法确定所述舆情文本数据的基本权重,基于所述附加权重和所述基本权重得到所述舆情文本数据的文本向量表示;
[0012]S40、通过自编码器对所述文本向量表示进行降维,得到低维文本向量表示;
[0013]S50、基于所述低维文本向量表示,采用谱聚类算法进行聚类,以确定案件舆情文本的话题。
[0014]可选地,所述案件要素信息包括涉案人员信息、事件信息、法律机关相关信息。
[0015]可选地,所述附加权重的计算公式为:
[0016]W
a
(x)=Len(d)/W1+Len(d)/W2+Len(d)/W
i
+...+Len(d)/Wn
[0017]其中,d表示案件舆情文本,Len(d)表示案件舆情文本的长度,Wi 是案件要素x第i次出现在文本d中的位置,n为案件要素在文本d中出现的总次数,i为正整数,且取值为1到n。
[0018]可选地,基于所述附加权重和所述基本权重得到所述舆情文本数据的文本向量表
示,包括:
[0019]通过关键词权重公式计算得到关键词权重,所述关键词权重公式为:
[0020]W(x)=W
b
(x)+W
a
(x)/3
[0021]其中,W
b
(x)表示关键词的基本权重,W
a
(x)表示关键词的附加权重;
[0022]将所述舆情文本数据中非关键词的基本权重作为非关键词权重;
[0023]将所述舆情文本数据用所述关键词权重和所述非关键词权重表示,得到所述舆情文本数据的文本向量表示。
[0024]可选地,所述自编码器包括:两层相同的卷积层、中间的隐藏层和输出层,所述卷积层和所述隐藏层的激励函数使用ReLU函数。
[0025]可选地,步骤S50包括:
[0026]S51、基于所述低维文本向量表示,构建所述舆情文本数据的相似度矩阵;
[0027]S52、通过计算所述相似度矩阵的拉普拉斯矩阵的最小的k个特征值和其对应的特征向量,构建特征向量空间;
[0028]S53、利用K-means聚类算法对特征向量空间中的特征向量进行聚类;
[0029]S54、根据聚类的结果确定案件舆情文本的话题。
[0030]可选地,对于新增的舆情文本数据,步骤S50还包括:
[0031]S55、确定新增的舆情文本数据对应的低维文本向量表示与已分类的舆情文本数据聚类生成的簇的距离;
[0032]判断所述距离是否小于预设距离阈值;
[0033]若是,认定相应的案件舆情文本属于距离最近的簇对应的话题;
[0034]若否,则生成新的簇,根据新的簇确定案件舆情文本的话题。
[0035]可选地,在步骤S10之后、步骤S20之前还包括:舆情文本数据预处理,所述舆情文本数据预处理包括使用分词库Jieba进行中文分词、去除停用词。
[0036]第二方面,本申请实施例提供一种涉案舆情的话题检测装置,该装置包括:
[0037]数据获取模块,用于获取包含案件舆情文本的舆情文本数据;
[0038]附加权重确定模块,用于基于预先确定的案件要素信息,确定所述舆情文本数据中的关键词,基于所述关键词在案件舆情文本中的位置,确定所述关键词的附加权重;
[0039]文本向量表示模块,用于通过TF-IDF算法确定所述舆情文本数据的基本权重,基于所述附加权重和所述基本权重得到所述舆情文本数据的文本向量表示;
[0040]低维文本向量表示模块,用于通过自编码器对所述文本向量表示进行降维,得到低维文本向量表示;
[0041]聚类模块,用于基于所述低维文本向量表示,采用谱聚类算法进行聚类,以确定案件舆情文本的话题。
[0042](三)有益效果
[0043]本申请的有益效果是:本申请提出了一种涉案舆情的话题检测方法和装置,其中的方法包括:获取包含案件舆情文本的舆情文本数据;基于预先确定的案件要素信息和关键词在案件舆情文本中的位置,确定关键词的附加权重;根据附加权重和基于TF-IDF算法确定的基本权重得到舆情文本数据的文本向量表示;通过自编码器对文本向量表示进行降维,采用谱聚类算法进行聚类,以确定案件舆情文本的话题。通过本申请的方法进行话题检
测,检测的准确率高,可及时捕获涉案舆情,并且通过采用降维和谱聚类有效降低了算法的开销,提到了检测的效率。
附图说明
[0044]本申请借助于以下附图进行描述:
[0045]图1为本申请一个实施例中的涉案舆情的话题检测方法流程示意图;
[0046]图2为本申请另一个实施例中的涉案舆情的话题检测方法流程示意图;
[0047]图3为本申请另一个实施例中的json文本格式示例图;
[0048]图4为本申请另一个实施例中的简单的三层自编码器结构示意图;
[0049]图5为本申请另一个实施例中的基于卷积神经网络的自编码器结构示意图;
[0050]图6为本申请另一个实施例中的图聚类方法示意图;
[0051]图7为本申请又一个实施例中的涉案舆情的话题检测装置架构示意图。
具体实施方式
[0052]为了更好的解释本发本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种涉案舆情的话题检测方法,其特征在于,该方法包括:S10、获取包含案件舆情文本的舆情文本数据;S20、基于预先确定的案件要素信息,确定所述舆情文本数据中的关键词,基于所述关键词在案件舆情文本中的位置,确定所述关键词的附加权重;S30、通过TF-IDF算法确定所述舆情文本数据的基本权重,基于所述附加权重和所述基本权重得到所述舆情文本数据的文本向量表示;S40、通过自编码器对所述文本向量表示进行降维,得到低维文本向量表示;S50、基于所述低维文本向量表示,采用谱聚类算法进行聚类,以确定案件舆情文本的话题。2.根据权利要求1所述的涉案舆情的话题检测方法,其特征在于,所述案件要素信息包括涉案人员信息、事件信息、法律机关相关信息。3.根据权利要求2所述的涉案舆情的话题检测方法,其特征在于,所述附加权重的计算公式为:W
a
(x)=Len(d)/W1+Len(d)/W2+Len(d)/W
i
+...+Len(d)/Wn其中,d表示案件舆情文本,Len(d)表示案件舆情文本的长度,Wi是案件要素x第i次出现在文本d中的位置,n为案件要素在文本d中出现的总次数,i为正整数,且取值为1到n。4.根据权利要求3所述的涉案舆情的话题检测方法,其特征在于,基于所述附加权重和所述基本权重得到所述舆情文本数据的文本向量表示,包括:通过关键词权重公式计算得到关键词权重,所述关键词权重公式为:W(x)=W
b
(x)+W
a
(x)/3其中,W
b
(x)表示关键词的基本权重,W
a
(x)表示关键词的附加权重;将所述舆情文本数据中非关键词的基本权重作为非关键词权重;将所述舆情文本数据用所述关键词权重和所述非关键词权重表示,得到所述舆情文本数据的文本向量表示。5.根据权利要求1所述的涉案舆情的话题...

【专利技术属性】
技术研发人员:刘杰王佳薇冀俊宇
申请(专利权)人:首都师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1