【技术实现步骤摘要】
基于时间序列的动态自适应话题跟踪方法、系统及装置
[0001]本专利技术属于数据挖掘领域,涉及一种基于时间序列的动态自适应话题跟踪方法、系统及装置。
技术介绍
[0002]随着互联网的飞速发展,数据量呈指数级增长。一方面,大数据的积累为人工智能提供了基础支撑。另一方面,面对如此庞大的数据信息,如何从中提取感兴趣的知识成为普遍关注的问题。在用户实际的获取文本信息的过程中,每一个不同的个体对于所倾向的话题具有选择性。在信息的不断更新迭代过程中,用户更希望能够快速及时的获取到自己所关注的领域的话题事件,并能够对所关注的具体事件有一个完整的持续性追踪。
[0003]话题追踪技术的具体原理为相关热点话题文本通过话题检测技术生成话题集,并对该话题集进行训练,得到一个已知话题模型。当后续文本输入时,先对新文本进行预处理,表征为一个未知模型,再依据其与话题集中话题的相似程度,如若相似程度大于预先设定的阈值,则将其归入某个话题之中。
[0004]在传统的话题追踪算法中仅设置一个相似度阈值,当输入文本与话题模型相似度高于该阈值时即将输入文本的特征归为相关文本,但这也会造成一些问题:
[0005]1.一些相关文本对于某一话题簇贡献程度并不高,将该类文本划入到话题簇中会导致原有话题簇质量以及话题追踪性能的下降。
[0006]2.当后续输入文本的不断加入,原有的话题中心会发生漂移,因此为了保证话题簇的质量,在后续的追踪过程中需要不断地对话题中心进行更新,但是当每一个进入的文本都进行话题更新会造成模型计算量的急剧 ...
【技术保护点】
【技术特征摘要】
1.基于时间序列的动态自适应话题跟踪方法,其特征在于,包括:对初始时刻的新闻文本进行话题检测,构建话题模型;对当前时刻输入的新闻文本进行文本预处理,构建文本的特征向量;对初始时刻到当前时刻所有的新闻文本进行划分处理,获取当前时刻新闻文本的相关阈值和更新阈值;对话题模型的特征向量与输入文本特征向量的文本相似度进行计算,并与当前时刻新闻文本的相关阈值和更新阈值进行比较,判断话题模型是否进行更新;基于时序权重的自适应话题更新法对话题模型进行更新,并基于可视化工具,实时反馈话题更新结果。2.根据权利要求1所述的基于时间序列的动态自适应话题跟踪方法,其特征在于,所述对当前时刻输入的新闻文本进行文本预处理,具体为:将新闻文本内容中的句子、段落和文章分割为以词为单位的文本结构,并对分割的词进行筛选去除无意义的停顿词;所述构建文本的特征向量,具体为:通过TF
‑
IDF算法、LDA算法和Bert
‑
BiLSTM
‑
CRF模型获取文本的关键词特征、主题词特征和命名实体特征,分别计算特征相似度进行加权融合,获得文本的特征向量。3.根据权利要求1所述的基于时间序列的动态自适应话题跟踪方法,其特征在于,所述对初始时刻到当前时刻所有的新闻文本进行划分处理,获取当前时刻新闻文本的相关阈值和更新阈值,具体为:将话题开始时刻到当前时刻的所有文本分成s个时间间隔,文本输入时刻t的相关阈值ε
t
通过之前每个时间间隔内的话题模型与反馈文本平均相似度与时间衰减因子相乘求和所得;相关阈值ε
t
与更新阈值δ
t
的计算公式如公式(1)和公式(2)所示:δ
t
=ε
t
+C
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)其中C表示话题的容忍度,代表了更新阈值δ
t
与相关阈值ε
t
之间的差值。4.根据权利要求1所述的基于时间序列的动态自适应话题跟踪方法,其特征在于,所述对话题模型的特征向量与输入文本特征向量的文本相似度进行计算,具体为:输入文本特征向量X=(x1,x2,
…
,x
n
),文本相似度为Sim;话题模型中包含若干个话题簇;针对话题模型中话题簇,首先计算输入文本特征向量与话题模型中的每一个话题簇中每个文本特征向量Y=(y1,y2,
…
,y
n
)之间的相似度并累计求和取平均数,文本特征向量之间相似度计算方法采取余弦相似度,即:获得每个话题簇与输入文本之间的相似度;从所有话题簇与输入文本的相似度中选取最大值Sim
max
,作为话题模型与输入文本之间的相似度Sim。5.根据权利要求3所述的基于时间序列的动态自适应话题跟踪方法,其特征在于,所述
与当前时刻新闻文本的相关阈值和更新阈值进行比较,判断话题模型是否进行更新,具体为:若文本相似度Sim小于相关阈值ε
t
,则输入报道与话题模型不相关,生成新的话题簇;若高于相关阈值ε
t
但是低于更新阈值δ
t
,则将其归入到相关话题模型中,但不对话题模型进行更新;若高于更新阈值δ
t
,则将文本归...
【专利技术属性】
技术研发人员:季航,赵加坤,
申请(专利权)人:江苏至信信用评估咨询有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。