一种获取热度稳定的热词的方法、电子设备及存储介质技术

技术编号:39433742 阅读:11 留言:0更新日期:2023-11-19 16:17
本发明专利技术涉及热词处理技术领域,提供了一种获取热度稳定的热词的方法、电子设备及存储介质,包括如下步骤:获取第二特征相似度;根据第二特征相似度,获取预设时间段列表;获取历史时间段列表;获取目标关键词对应的第一优先级;获取目标关键词对应的第二优先级;获取目标关键词对应的第三优先级;将第三优先级和预设时间段对应的预设优先级阈值进行比对,确定出热度稳定的热词,可知本发明专利技术,根据目标关键词在预设时间段内出现的次数、在历史时间段内出现的次数以及预设时间段对应的预设权重,获取目标关键词对应的第三优先级,对第三优先级进行对比,进一步确定出热度稳定的热词,有利于提高获取热度稳定的热词的精准度。于提高获取热度稳定的热词的精准度。于提高获取热度稳定的热词的精准度。

【技术实现步骤摘要】
一种获取热度稳定的热词的方法、电子设备及存储介质


[0001]本专利技术涉及热词处理
,特别是涉及一种获取热度稳定的热词的方法、电子设备及存储介质。

技术介绍

[0002]热词为热门词汇,随着计算机网络的快速发展,热词的数量逐渐增多,热词能够很好的反映出一些事件的发展趋势,对热词进行分析,有利于用户更全面的了解事件的本质、细节或事件发展的趋势,热词的热度会跟随着时间的演变而发生变化,在一定的时间段内,对热度稳定的热词进行分析,有利于帮助用户更全面的了解事件的本质,因此,获取热度稳定的热词是十分有必要的,现有技术中,获取热度稳定的热词的方法大多为对事件文本进行分析,提取出文本中的关键特征词,对关键特征词在文本中出现的频次值以及关键特征词在预设时间段内出现的频次值进行分析处理,获取关键特征词对应的热度值,将关键特征词对应的热度值与关键特征词的历史热度值进行对比,确定关键特征词是否为热度稳定的热词。
[0003]但是上述方法也存在以下技术问题:上述方法通过获取预设时间段中关键特征词的热度值,对关键特征词的热度值进行分析,确定关键特征词是否为热度稳定的热词,只能获取到短时间内热度较稳定的热词,无法对关键特征词在历史时间段中出现的次数以及预设时间段的重要程度进行分析,获取长时间内热度较稳定的热词,短时间内的热度较稳定的热词相较于长时间内热度较稳定的热词,反映出的事件本质较局限,不够全面,且短时间内热度较稳定的热词数量较多,存在较多含义相同的热词,因此,通过上述方法获取到的热度稳定的热词的精准度较低,反映出的事件的本质不够全面。

技术实现思路

[0004]针对上述技术问题,本专利技术采用的技术方案为:根据本专利技术的第一方面,提供了一种获取热度稳定的热词的方法,包括如下步骤:S100、根据目标文本对应的关键特征词列表C={C1,C2,
……
,C
j

……
,C
n
}和预设热度稳定特征词列表A2={A
2(1)
,A
2(2)

……
,A
2(i1)

……
,A
2(m1)
},获取C和A2之间的第二特征相似度D2,C
j
为第j个关键特征词,j=1,2,
……
,n,n为关键特征词数量,A
2(i1)
为第i1个预设热度稳定特征词,i1=1,2,
……
,m1,m1为预设热度稳定特征词数量,其中,D2符合如下条件:D2=Σ
nj=1

m1i1=1
E
2j(i1)
/m1)/n,E
2j(i1)
为C
j
与A
2(i1)
对应的第二词语相似度,第二词语相似度为关键特征词与预设热度稳定特征词之间的相似度。
[0005]S200、当D2≤ΔD2时,获取预设时间段列表J={J1,J2,
……
,J
b

……
,J
d
},J
b
为第b个预设时间段,b=1,2,
……
,d,d为预设时间段数量,其中,

D2为第二相似度阈值。
[0006]S300、根据J,获取J对应的历史时间段列表J0={J
01
,J
02

……
,J
0b

……
,J
0d
},J
0b
={J
0b1
,J
0b2

……
,J
0bf

……
,J
0bz
},J
0bf
为J
b
对应的历史时间段列表J
0b
中第f个历史时间段,f=
1,2,
……
,z,z为预设时间段对应的历史时间段数量。
[0007]S400、根据G
x
和J
b
,获取J
b
中G
x
对应的第一优先级K
bx
,G
x
为目标关键词列表G中的第x个目标关键词,G={G1,G2,
……
,G
x

……
,G
p
},x=1,2,
……
,p,p为目标关键词数量,K
bx
符合如下条件:K
bx

b
×
K
b

1x
+(1

β
b
)
×
P
bx
,其中,K
b

1x
为J
b
‑1中G
x
对应的第一优先级,β
b
为J
b
对应的预设权重,P
bx
为J
b
中G
x
在系统中出现的次数,其中,当b=1时,K
1x
=β1+(1

β1)
×
P
1x
,预设权重用于表征预设时间段的重要程度,目标关键词为系统中存储的用于获取热词的关键词。
[0008]S500、根据K
bx
和J
0bf
,获取J
b
中G
x
对应的第二优先级K
0bx
,K
0bx
符合如下条件:K
0bx
=log(P
bx
×
Q
bx
/K
b

1x
),Q
bx
为J
0b
中包含G
x
在系统中出现的时间点的J
0bf
的数量,且当b=1时,K
01x
=log(P
1x
×
Q
1x
)。
[0009]S600、根据K
0bx
,获取J
b
中G
x
对应的第三优先级K
1bx
,K
1bx
符合如下条件:K
1bx
=P
bx
/(P
bx

px=1
P
bx
/p)
×
K
0bx

px=1
P
bx
/p/(P
bx

px=1
P
bx
/p)
×

px=1本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种获取热度稳定的热词的方法,其特征在于,所述方法包括如下步骤:S100、根据目标文本对应的关键特征词列表C={C1,C2,
……
,C
j

……
,C
n
}和预设热度稳定特征词列表A2={A
2(1)
,A
2(2)

……
,A
2(i1)

……
,A
2(m1)
},获取C和A2之间的第二特征相似度D2,C
j
为第j个关键特征词,j=1,2,
……
,n,n为关键特征词数量,A
2(i1)
为第i1个预设热度稳定特征词,i1=1,2,
……
,m1,m1为预设热度稳定特征词数量,其中,D2符合如下条件:D2=Σ
nj=1

m1i1=1
E
2j(i1)
/m1)/n,E
2j(i1)
为C
j
与A
2(i1)
对应的第二词语相似度,第二词语相似度为关键特征词与预设热度稳定特征词之间的相似度;S200、当D2≤ΔD2时,获取预设时间段列表J={J1,J2,
……
,J
b

……
,J
d
},J
b
为第b个预设时间段,b=1,2,
……
,d,d为预设时间段数量,其中,

D2为第二相似度阈值;S300、根据J,获取J对应的历史时间段列表J0={J
01
,J
02

……
,J
0b

……
,J
0d
},J
0b
={J
0b1
,J
0b2

……
,J
0bf

……
,J
0bz
},J
0bf
为J
b
对应的历史时间段列表J
0b
中第f个历史时间段,f=1,2,
……
,z,z为预设时间段对应的历史时间段数量;S400、根据G
x
和J
b
,获取J
b
中G
x
对应的第一优先级K
bx
,G
x
为目标关键词列表G中的第x个目标关键词,G={G1,G2,
……
,G
x

……
,G
p
},x=1,2,
……
,p,p为目标关键词数量,K
bx
符合如下条件:K
bx

b
×
K
b

1x
+(1

β
b
)
×
P
bx
,其中,K
b

1x
为J
b
‑1中G
x
对应的第一优先级,β
b
为J
b
对应的预设权重,P
bx
为J
b
中G
x
在系统中出现的次数,其中,当b=1时,K
1x
=β+(1

β)
×
P
1x
,预设权重用于表征预设时间段的重要程度,目标关键词为系统中存储的用于获取热词的关键词;S500、获取J
b
中G
x
对应的第二优先级K
0bx
,K
0bx
符合如下条件:K
0bx
=log(P
bx
×
Q
bx
/K
b

1x
),Q
bx...

【专利技术属性】
技术研发人员:石江枫靳雯王全修赵洲洋于伟
申请(专利权)人:日照睿安信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1