基于多特征融合的网络信息话题检测方法、系统及装置制造方法及图纸

技术编号:33707410 阅读:11 留言:0更新日期:2022-06-06 08:32
本发明专利技术公开了一种基于多特征融合的网络信息话题检测方法、系统及装置,包括:采集目标领域的新闻语料数据和文本发表时间;对采集到的新闻语料数据进行预处理,获取数据文档集;对数据文档集进行特征提取,并基于提取的特征和文本发表时间进行特征融合构建特征向量模型;基于文本发表时间的前后顺序,对特征向量模型进行聚类处理,将所有文本划分到各自的话题簇;将划分后文本在各自的话题簇中进行细聚类处理,并基于可视化工具,构建可视化微服务,实时反馈话题检测分析结果。本发明专利技术通过多维度特征提取融合的方法挖掘文本语义特征,对庞大数据集进行高效文本分析、语义挖掘和话题检测,减少传统话题检测算法的训练时间,加快话题检测的速度。题检测的速度。题检测的速度。

【技术实现步骤摘要】
基于多特征融合的网络信息话题检测方法、系统及装置


[0001]本专利技术属于数据挖掘领域,涉及一种基于多特征融合的网络信息话题检测方法、系统及装置。

技术介绍

[0002]互联网的普及,改变了人们获取信息的主要途径。而如何从海量的信息中快速提取文本话题及关键信息、追踪话题的发展成为了人们更加快速准确获取信息的一个亟待解决的问题。同时话题往往具有时效性,过时的消息往往成为话题检测以及跟踪话题的一种干扰,阻碍了人们关注时下热点事件的发展与变化。因此在话题发现时应将时间因素作为一个重要考量因素,着重突出当前信息的价值,而弱化过时消息的影响。
[0003]特征提取技术主要是在获得预处理后的文本,对多维的文本特征进行特征提取,并对于后续文本处理无用的特征进行过滤,保留对于文本信息贡献程度较大的文本特征,同时可以对特征维度进行降低,提升算法处理时间效率。作为文本处理中十分基础也十分重要的一项技术,直接影响了后续文本处理的质量。
[0004]话题检测是对于海量的新闻事件文本进行获取处理分析生成话题的过程,话题能够在最大程度上表明某一组文本的核心思想,帮助人们免去阅读海量信息的烦恼。话题检测的流程一般为通过爬虫或者新闻数据集获取待处理文本,然后通过文本预处理技术将多余的噪声信息去除,同时完成分词、去除停用词等操作,接着通过文本的特征提取技术,将能代表文章核心思想的特征进行提取,并转化为机器可以识别的特征向量,最后使用机器学习的一些聚类算法以及相似度计算方法根据特征向量对文章进行聚类,提炼出话题。
[0005]话题检测以及跟踪依赖于对于初始文本信息特征的提取与融合。现有的特征提取技术往往对单一文本的特征进行抽取,但是初始文本特征信息往往包含多个维度,包括文本信息的标题、关键词、相关实体对象以及语义内容等。如果仅仅从一个角度去获取文本特征,往往会造成后续检测话题以及分析的效果不佳。
[0006]对于话题检测,些年来研究随着信息量的飞速增长,以及大规模流式数据的出现,传统的文本聚类算法如K

means算法、DBSCAN、基于层次聚类算法等往往适用于静态数据,对于新旧数据进行合并然后统一处理,对于聚类效果以及聚类效率都有不利的影响,难以适应大数据下数据海量性、多样性的特点。Single

Pass聚类算法作为一种增量式聚类算法,基本思想为对于文档进行顺序处理,以输入第一篇文档作为种子,建立相关的新主题。然后再将后续文档依据词袋模型进行向量化处理,计算该文档与现有主题之间的相似度,相似度计算方式一般采用欧氏距离、余弦距离等。在算法开始之前会设定一个阈值,如若后续文档与现有主题间的相似度均大于阈值,则将其新建一个主题,并将该文档并入新主题,否则就将其并入现有主题中与之相似度最大的一个主题。输入文档只需通过算法流程一次,效率较K

means以及KNN等算法有明显改进,更适应于现近文本数据的特点。但因Single

Pass仅仅对数据进行一次迭代,一些数据的错误聚类往往在后续过程中难以改进,所以造成聚类效果较差的问题。

技术实现思路

[0007]本专利技术的目的在于解决现有技术中的问题,提供一种基于多特征融合的网络信息话题检测方法、系统及装置,可自动完成文本数据从预处理到特征提取以及话题检测的全部流程,减少传统话题检测算法的训练时间,加快话题检测的速度;同时提升话题检测效率。
[0008]为达到上述目的,本专利技术采用以下技术方案予以实现:
[0009]基于多特征融合的网络信息话题检测方法,包括:
[0010]采集目标领域的新闻语料数据和文本发表时间;
[0011]对采集到的新闻语料数据进行预处理,获取数据文档集;
[0012]对数据文档集进行特征提取,并基于提取的特征和文本发表时间进行特征融合构建特征向量模型;
[0013]基于文本发表时间的前后顺序,对特征向量模型进行聚类处理,将所有文本划分到各自的话题簇;
[0014]将划分后文本在各自的话题簇中进行细聚类处理,并基于可视化工具,构建可视化微服务,实时反馈话题检测分析结果。
[0015]本专利技术的进一步改进在于:
[0016]采集目标领域的新闻语料数据和文本发表时间,具体为:采用爬虫对目标领域的报道进行搜索,保留获取的HTML文件的文本内容和发布时间。
[0017]对采集到的新闻语料数据进行预处理,具体为:
[0018]将文本内容中的句子、段落和文章分割为以词为单位的文本结构,并对分割的词进行筛选去除无意义的停顿词,基于开源的NLPIR、ICTCLAS和NLTK库对词语进行词性标注。
[0019]对数据文档集进行特征提取,并基于提取的特征和文本发表时间进行特征融合构建特征向量模型,具体为:
[0020]对数据文档集进行特征提取,通过文档关键词、主题词和命名实体特征三个维度的特征进行特征融合构建特征向量模型,具体为:
[0021](1)利用TF

IDF算法获取文档关键词的权重,基于词长、词性和词位置的权重因素,选取权重最高的K个关键词作为关键词特征,利用余弦相似度计算关键词相似度sim
ITF

IDF

[0022](2)基于隐含狄利克雷分布算法获取文档的主题词特征,利用JS距离公式计算主题特征相似度sim
LDA

[0023](3)利用ALBERT

BiLSTM

CRF算法获取文档命名实体特征,将文档输入至ALBERT模型中,在ALBERT模型内部对输入的文本进行训练,生成包含语义信息的词嵌入向量,再将词嵌入向量输入BiLSTM并使用CRF算法对输出进行约束,利用Jaccard计算命名实体特征相似度sim
Entity

[0024](4)对于提取到的主题词特征相似度系数、关键词特征相似度系数和实体特征相似度系数进行特征融合,对三种特征结合时间衰减因子进行加权融合:
[0025][0026]其中,α,β,γ为三种特征相似度的系数,α+β+γ=1,t0和t分别为文档p和q的发表时间。
[0027]基于文本发表时间的前后顺序,对特征向量模型进行聚类处理,将所有文本划分到各自的话题簇,具体为:
[0028](1)将构建的特征模型作为话题检测单遍聚类算法的输入,选取其中发布时间最早的一个文档,并将其文本向量记作d1,作为当前新话题簇T1的第一个对象;
[0029](2)输入后续文档d
i
,依据词袋模型进行向量化处理;
[0030](3)计算第i个类簇T
i
={t1,t2,

,t
M
}的聚类中心C
i

[0031](4)判断d1与当前已有话题聚类中心的相似度,并与初始阈值theta进行比较;若文档d1最大的Sim值大于阈本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于多特征融合的网络信息话题检测方法,其特征在于,包括:采集目标领域的新闻语料数据和文本发表时间;对采集到的新闻语料数据进行预处理,获取数据文档集;对数据文档集进行特征提取,并基于提取的特征和文本发表时间进行特征融合构建特征向量模型;基于文本发表时间的前后顺序,对特征向量模型进行聚类处理,将所有文本划分到各自的话题簇;将划分后文本在各自的话题簇中进行细聚类处理,并基于可视化工具,构建可视化微服务,实时反馈话题检测分析结果。2.根据权利要求1所述的基于多特征融合的网络信息话题检测方法,其特征在于,所述采集目标领域的新闻语料数据和文本发表时间,具体为:采用爬虫对目标领域的报道进行搜索,保留获取的HTML文件的文本内容和发布时间。3.根据权利要求2所述的基于多特征融合的网络信息话题检测方法,其特征在于,所述对采集到的新闻语料数据进行预处理,具体为:将文本内容中的句子、段落和文章分割为以词为单位的文本结构,并对分割的词进行筛选去除无意义的停顿词,基于开源的NLPIR、ICTCLAS和NLTK库对词语进行词性标注。4.根据权利要求3所述的基于多特征融合的网络信息话题检测方法,其特征在于,所述对数据文档集进行特征提取,并基于提取的特征和文本发表时间进行特征融合构建特征向量模型,具体为:对数据文档集进行特征提取,通过文档关键词、主题词和命名实体特征三个维度的特征进行特征融合构建特征向量模型,具体为:(1)利用TF

IDF算法获取文档关键词的权重,基于词长、词性和词位置的权重因素,选取权重最高的K个关键词作为关键词特征,利用余弦相似度计算关键词相似度sim
ITF

IDF
;(2)基于隐含狄利克雷分布算法获取文档的主题词特征,利用JS距离公式计算主题特征相似度sim
LDA
;(3)利用ALBERT

BiLSTM

CRF算法获取文档命名实体特征,将文档输入至ALBERT模型中,在ALBERT模型内部对输入的文本进行训练,生成包含语义信息的词嵌入向量,再将词嵌入向量输入BiLSTM并使用CRF算法对输出进行约束,利用Jaccard计算命名实体特征相似度sim
Entity
;(4)对于提取到的主题词特征相似度系数、关键词特征相似度系数和实体特征相似度系数进行特征融合,对三种特征结合时间衰减因子进行加权融合:其中,α,β,γ为三种特征相似度的系数,α+β+γ=1,t0和t分别为文档p和q的发表时间。5.根据权利要求4所述的基于多特征融合的网络信息话题检测方法,其特征在于,所述基于文本发表时间的前后顺序,对特征向量模型进行聚类处理,将所有文本划分到各自的话题簇,具体为:(1)将构建的特征模型作为话题检测单遍聚类算法的输入,选取其中发布时间最早的一个文档,并将其文本向量记作d1,作为当前新话题簇T1的第一个对象;
(2)输入后续文档d
i
,依据词袋模型进行向量化处理;(3)计算第i个类簇T
i
={t1,t2,

,t
M
}的聚类中心C
i
,(4)判断d1与当前已有话题聚类中心的相似度,并与...

【专利技术属性】
技术研发人员:季航赵加坤
申请(专利权)人:江苏至信信用评估咨询有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1