基于多特征融合的网络信息话题检测方法、系统及装置制造方法及图纸

技术编号：33707410 阅读：25 留言：0更新日期：2022-06-06 08:32

本发明专利技术公开了一种基于多特征融合的网络信息话题检测方法、系统及装置，包括：采集目标领域的新闻语料数据和文本发表时间；对采集到的新闻语料数据进行预处理，获取数据文档集；对数据文档集进行特征提取，并基于提取的特征和文本发表时间进行特征融合构建特征向量模型；基于文本发表时间的前后顺序，对特征向量模型进行聚类处理，将所有文本划分到各自的话题簇；将划分后文本在各自的话题簇中进行细聚类处理，并基于可视化工具，构建可视化微服务，实时反馈话题检测分析结果。本发明专利技术通过多维度特征提取融合的方法挖掘文本语义特征，对庞大数据集进行高效文本分析、语义挖掘和话题检测，减少传统话题检测算法的训练时间，加快话题检测的速度。题检测的速度。题检测的速度。

全部详细技术资料下载

【技术实现步骤摘要】
基于多特征融合的网络信息话题检测方法、系统及装置

[0001]本专利技术属于数据挖掘领域，涉及一种基于多特征融合的网络信息话题检测方法、系统及装置。

技术介绍

[0002]互联网的普及，改变了人们获取信息的主要途径。而如何从海量的信息中快速提取文本话题及关键信息、追踪话题的发展成为了人们更加快速准确获取信息的一个亟待解决的问题。同时话题往往具有时效性，过时的消息往往成为话题检测以及跟踪话题的一种干扰，阻碍了人们关注时下热点事件的发展与变化。因此在话题发现时应将时间因素作为一个重要考量因素，着重突出当前信息的价值，而弱化过时消息的影响。
[0003]特征提取技术主要是在获得预处理后的文本，对多维的文本特征进行特征提取，并对于后续文本处理无用的特征进行过滤，保留对于文本信息贡献程度较大的文本特征，同时可以对特征维度进行降低，提升算法处理时间效率。作为文本处理中十分基础也十分重要的一项技术，直接影响了后续文本处理的质量。
[0004]话题检测是对于海量的新闻事件文本进行获取处理分析生成话题的过程，话题能够在最大程度...

【技术保护点】

【技术特征摘要】
1.基于多特征融合的网络信息话题检测方法，其特征在于，包括：采集目标领域的新闻语料数据和文本发表时间；对采集到的新闻语料数据进行预处理，获取数据文档集；对数据文档集进行特征提取，并基于提取的特征和文本发表时间进行特征融合构建特征向量模型；基于文本发表时间的前后顺序，对特征向量模型进行聚类处理，将所有文本划分到各自的话题簇；将划分后文本在各自的话题簇中进行细聚类处理，并基于可视化工具，构建可视化微服务，实时反馈话题检测分析结果。2.根据权利要求1所述的基于多特征融合的网络信息话题检测方法，其特征在于，所述采集目标领域的新闻语料数据和文本发表时间，具体为：采用爬虫对目标领域的报道进行搜索，保留获取的HTML文件的文本内容和发布时间。3.根据权利要求2所述的基于多特征融合的网络信息话题检测方法，其特征在于，所述对采集到的新闻语料数据进行预处理，具体为：将文本内容中的句子、段落和文章分割为以词为单位的文本结构，并对分割的词进行筛选去除无意义的停顿词，基于开源的NLPIR、ICTCLAS和NLTK库对词语进行词性标注。4.根据权利要求3所述的基于多特征融合的网络信息话题检测方法，其特征在于，所述对数据文档集进行特征提取，并基于提取的特征和文本发表时间进行特征融合构建特征向量模型，具体为：对数据文档集进行特征提取，通过文档关键词、主题词和命名实体特征三个维度的特征进行特征融合构建特征向量模型，具体为：(1)利用TF
‑
IDF算法获取文档关键词的权重，基于词长、词性和词位置的权重因素，选取权重最高的K个关键词作为关键词特征，利用余弦相似度计算关键词相似度sim
ITF
‑
IDF
；(2)基于隐含狄利克雷分布算法获取文档的主题词特征，利用JS距离公式计算主题特征相似度sim
LDA
；(3)利用ALBERT
‑
BiLSTM
‑
CRF算法获取文档命名实体特征，将文档输入至ALBERT模型中，在ALBERT模型内部对输入的文本进行训练，生成包含语义信息的词嵌入向量，再将词嵌入向量输入BiLSTM并使用CRF算法对输出进行约束，利用Jaccard计算命名实体特征相似度sim
Entity
；(4)对于提取到的主题词特征相似度系数、关键词特征相似度系数和实体特征相似度系数进行特征融合，对三种特征结合时间衰减因子进行加权融合：其中，α,β,γ为三种特征相似度的系数，α+β+γ＝1，t0和t分别为文档p和q的发表时间。5.根据权利要求4所述的基于多特征融合的网络信息话题检测方法，其特征在于，所述基于文本发表时间的前后顺序，对特征向量模型进行聚类处理，将所有文本划分到各自的话题簇，具体为：(1)将构建的特征模型作为话题检测单遍聚类算法的输入，选取其中发布时间最早的一个文档，并将其文本向量记作d1,作为当前新话题簇T1的第一个对象；
(2)输入后续文档d
i
，依据词袋模型进行向量化处理；(3)计算第i个类簇T
i
＝{t1，t2，
…
，t
M
}的聚类中心C
i
，(4)判断d1与当前已有话题聚类中心的相似度，并与...

【专利技术属性】
技术研发人员：季航，赵加坤，
申请(专利权)人：江苏至信信用评估咨询有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人