基于时间序列的动态自适应话题跟踪方法、系统及装置制造方法及图纸

技术编号:34015232 阅读:69 留言:0更新日期:2022-07-02 15:35
本发明专利技术公开了一种基于时间序列的动态自适应话题跟踪方法、系统及装置,包括:对初始时刻的新闻文本进行话题检测,构建话题模型;对当前时刻输入的新闻文本进行文本预处理,构建文本的特征向量;对初始时刻到当前时刻所有的新闻文本进行划分,获取当前时刻新闻文本的相关阈值和更新阈值;计算话题模型的特征向量与输入文本特征向量的文本相似度,并与当前时刻新闻文本的相关阈值和更新阈值进行比较,判断话题模型是否进行更新;基于时序权重的自适应话题更新法对话题模型进行更新,并基于可视化工具,实时反馈话题更新结果。本发明专利技术引入更新阈值和相关阈值对话题进行聚类和话题中心更新,结合时序权重对话题模型文本赋予不同的权值,实现话题追踪。实现话题追踪。实现话题追踪。

【技术实现步骤摘要】
基于时间序列的动态自适应话题跟踪方法、系统及装置


[0001]本专利技术属于数据挖掘领域,涉及一种基于时间序列的动态自适应话题跟踪方法、系统及装置。

技术介绍

[0002]随着互联网的飞速发展,数据量呈指数级增长。一方面,大数据的积累为人工智能提供了基础支撑。另一方面,面对如此庞大的数据信息,如何从中提取感兴趣的知识成为普遍关注的问题。在用户实际的获取文本信息的过程中,每一个不同的个体对于所倾向的话题具有选择性。在信息的不断更新迭代过程中,用户更希望能够快速及时的获取到自己所关注的领域的话题事件,并能够对所关注的具体事件有一个完整的持续性追踪。
[0003]话题追踪技术的具体原理为相关热点话题文本通过话题检测技术生成话题集,并对该话题集进行训练,得到一个已知话题模型。当后续文本输入时,先对新文本进行预处理,表征为一个未知模型,再依据其与话题集中话题的相似程度,如若相似程度大于预先设定的阈值,则将其归入某个话题之中。
[0004]在传统的话题追踪算法中仅设置一个相似度阈值,当输入文本与话题模型相似度高于该阈值时即将输入文本的特征归为相关文本,但这也会造成一些问题:
[0005]1.一些相关文本对于某一话题簇贡献程度并不高,将该类文本划入到话题簇中会导致原有话题簇质量以及话题追踪性能的下降。
[0006]2.当后续输入文本的不断加入,原有的话题中心会发生漂移,因此为了保证话题簇的质量,在后续的追踪过程中需要不断地对话题中心进行更新,但是当每一个进入的文本都进行话题更新会造成模型计算量的急剧上升。

技术实现思路

[0007]本专利技术的目的在于解决现有技术中的问题,提供一种基于时间序列的动态自适应话题跟踪方法、系统及装置,在话题追踪的计算文本相似度过程中引入更新阈值以及相关阈值用以对话题进行聚类以及话题中心的更新,同时结合时序权重对于话题模型文本赋予不同的权值,保障话题的持续更新,实现对于话题的有效追踪。
[0008]为达到上述目的,本专利技术采用以下技术方案予以实现:
[0009]基于时间序列的动态自适应话题跟踪方法,包括:
[0010]对初始时刻的新闻文本进行话题检测,构建话题模型;
[0011]对当前时刻输入的新闻文本进行文本预处理,构建文本的特征向量;
[0012]对初始时刻到当前时刻所有的新闻文本进行划分处理,获取当前时刻新闻文本的相关阈值和更新阈值;
[0013]对话题模型的特征向量与输入文本特征向量的文本相似度进行计算,并与当前时刻新闻文本的相关阈值和更新阈值进行比较,判断话题模型是否进行更新;
[0014]基于时序权重的自适应话题更新法对话题模型进行更新,并基于可视化工具,实
时反馈话题更新结果。
[0015]本专利技术的进一步改进在于:
[0016]对当前时刻输入的新闻文本进行文本预处理,具体为:
[0017]将新闻文本内容中的句子、段落和文章分割为以词为单位的文本结构,并对分割的词进行筛选去除无意义的停顿词;
[0018]构建文本的特征向量,具体为:通过TF

IDF算法、LDA算法和Bert

BiLSTM

CRF模型获取文本的关键词特征、主题词特征和命名实体特征,分别计算特征相似度进行加权融合,获得文本的特征向量。
[0019]对初始时刻到当前时刻所有的新闻文本进行划分处理,获取当前时刻新闻文本的相关阈值和更新阈值,具体为:
[0020]将话题开始时刻到当前时刻的所有文本分成s个时间间隔,文本输入时刻t的相关阈值ε
t
通过之前每个时间间隔内的话题模型与反馈文本平均相似度与时间衰减因子相乘求和所得;相关阈值ε
t
与更新阈值δ
t
的计算公式如公式(1)和公式(2)所示:
[0021][0022]δ
t
=ε
t
+C
ꢀꢀ
(2)
[0023]其中C表示话题的容忍度,代表了更新阈值δ
t
与相关阈值ε
t
之间的差值。
[0024]对话题模型的特征向量与输入文本特征向量的文本相似度进行计算,具体为:
[0025]输入文本特征向量X=(x1,x2,

,x
n
),文本相似度为Sim;话题模型中包含若干个话题簇;针对话题模型中话题簇,首先计算输入文本特征向量与话题模型中的每一个话题簇中每个文本特征向量Y=(y1,y2,

,y
n
)之间的相似度并累计求和取平均数,文本特征向量之间相似度计算方法采取余弦相似度,即:
[0026][0027]获得每个话题簇与输入文本之间的相似度;从所有话题簇与输入文本的相似度中选取最大值Sim
max
,作为话题模型与输入文本之间的相似度Sim。
[0028]与当前时刻新闻文本的相关阈值和更新阈值进行比较,判断话题模型是否进行更新,具体为:若文本相似度Sim小于相关阈值ε
t
,则输入报道与话题模型不相关,生成新的话题簇;若高于相关阈值ε
t
但是低于更新阈值δ
t
,则将其归入到相关话题模型中,但不对话题模型进行更新;若高于更新阈值δ
t
,则将文本归入话题模型并对话题模型进行更新。
[0029]采用基于时序权重的自适应话题更新方法对话题模型进行更新,具体为:
[0030](1)遍历新报道的文本特征k
p
,并初始化时间跨度阈值α以及权重阈值β;定义初始话题模型为t
i

[0031](2)如果直接将该特征加入话题模型中,根据权重值进行排序,去除排序后权重值最低的特征;特征k
p
的开始时间T
b
和最近发生时间T
e
均设为输入文本所发布的时间,并继续更新下一个文本特征;
[0032](3)如果k
p
∈t
i
,则将该文本特征的最近发生时间T
e
更改为输入文本的发布时间;
时间跨度值为ΔT=T
e

T
b
;将时间跨度值与时间跨度阈值α进行比较,如果ΔT小于阈值α,则将文本特征权值按照公式(6)进行更新;
[0033]如果ΔT小于阈值α,按照公式(4)提升该话题特征的权重;
[0034][0035]其中μ是权重调节因子,通过调整μ值使得特征在文本中的权重始终在0到1之间;
[0036]将公式(4)规范化得到公式(5)
[0037][0038]其中max(w(k))
i
为在话题i中权重最大的文本特征权值;
[0039](4)当输入文本的所有特征均处理完成之后,计算话题i剩余未被更新的文本特征的时间跨度;未处理特征本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于时间序列的动态自适应话题跟踪方法,其特征在于,包括:对初始时刻的新闻文本进行话题检测,构建话题模型;对当前时刻输入的新闻文本进行文本预处理,构建文本的特征向量;对初始时刻到当前时刻所有的新闻文本进行划分处理,获取当前时刻新闻文本的相关阈值和更新阈值;对话题模型的特征向量与输入文本特征向量的文本相似度进行计算,并与当前时刻新闻文本的相关阈值和更新阈值进行比较,判断话题模型是否进行更新;基于时序权重的自适应话题更新法对话题模型进行更新,并基于可视化工具,实时反馈话题更新结果。2.根据权利要求1所述的基于时间序列的动态自适应话题跟踪方法,其特征在于,所述对当前时刻输入的新闻文本进行文本预处理,具体为:将新闻文本内容中的句子、段落和文章分割为以词为单位的文本结构,并对分割的词进行筛选去除无意义的停顿词;所述构建文本的特征向量,具体为:通过TF

IDF算法、LDA算法和Bert

BiLSTM

CRF模型获取文本的关键词特征、主题词特征和命名实体特征,分别计算特征相似度进行加权融合,获得文本的特征向量。3.根据权利要求1所述的基于时间序列的动态自适应话题跟踪方法,其特征在于,所述对初始时刻到当前时刻所有的新闻文本进行划分处理,获取当前时刻新闻文本的相关阈值和更新阈值,具体为:将话题开始时刻到当前时刻的所有文本分成s个时间间隔,文本输入时刻t的相关阈值ε
t
通过之前每个时间间隔内的话题模型与反馈文本平均相似度与时间衰减因子相乘求和所得;相关阈值ε
t
与更新阈值δ
t
的计算公式如公式(1)和公式(2)所示:δ
t
=ε
t
+C
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)其中C表示话题的容忍度,代表了更新阈值δ
t
与相关阈值ε
t
之间的差值。4.根据权利要求1所述的基于时间序列的动态自适应话题跟踪方法,其特征在于,所述对话题模型的特征向量与输入文本特征向量的文本相似度进行计算,具体为:输入文本特征向量X=(x1,x2,

,x
n
),文本相似度为Sim;话题模型中包含若干个话题簇;针对话题模型中话题簇,首先计算输入文本特征向量与话题模型中的每一个话题簇中每个文本特征向量Y=(y1,y2,

,y
n
)之间的相似度并累计求和取平均数,文本特征向量之间相似度计算方法采取余弦相似度,即:获得每个话题簇与输入文本之间的相似度;从所有话题簇与输入文本的相似度中选取最大值Sim
max
,作为话题模型与输入文本之间的相似度Sim。5.根据权利要求3所述的基于时间序列的动态自适应话题跟踪方法,其特征在于,所述
与当前时刻新闻文本的相关阈值和更新阈值进行比较,判断话题模型是否进行更新,具体为:若文本相似度Sim小于相关阈值ε
t
,则输入报道与话题模型不相关,生成新的话题簇;若高于相关阈值ε
t
但是低于更新阈值δ
t
,则将其归入到相关话题模型中,但不对话题模型进行更新;若高于更新阈值δ
t
,则将文本归...

【专利技术属性】
技术研发人员:季航赵加坤
申请(专利权)人:江苏至信信用评估咨询有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1