一种标签的获取方法、电子设备及存储介质技术

技术编号:38970947 阅读:27 留言:0更新日期:2023-09-28 09:34
本发明专利技术提供了一种标签的获取方法,包括如下步骤:获取目标文本对应的第二文本标签集EE和EE对应的第二文本标签优先级集CC,基于所述目标文本对应的初始结果文本列表,获取目标结果文本对应的第三文本标签集F和F对应第三文本标签优先级集FF,所述目标结果文本是所述初始结果文本列表中的任一文本,获取EE和F对应的相似度集GG,根据CC、FF和GG,获取所述目标文本与所述目标结果文本的相关度值G0。本发明专利技术提供了一种新的标签的获取方法,根据目标文本和结果文本对应的标签以及标签的优先值,能够计算得到结果文本与目标文本的相关度,提高了用户的搜索效率与质量。户的搜索效率与质量。户的搜索效率与质量。

【技术实现步骤摘要】
一种标签的获取方法、电子设备及存储介质


[0001]本专利技术涉及文本处理领域,特别是涉及一种标签的获取方法、电子设备及存储介质。

技术介绍

[0002]在计算机网络中存在大量的数据访问,当用户输入目标文本时,搜索引擎通常按照管理员预设的文字信息逐一执行各条相关性策略,并将最后一条相关性策略执行后获得的结果作为搜索结果,然而搜索引擎通常具有局限性,搜索到的结果可能并不满足用户的需求,需要多次更改关键词进行搜索,或者用户设置自定义标签存储在数据库中以供搜索模块查询调用,但上述现有技术还存在以下问题:一方面,按照管理员预设的文字信息执行各条相关性策略,只能根据表面的文字信息找到对应的搜索结果,并按照相关度对搜索结果排序,未考虑到文本中各个关键词的重要程度,会导致搜索结果的质量和准确率较低。
[0003]另一方面,用户在数据库中对数据文本添加自定义标签,在搜索时只能根据预设的标签找到与目标文本对应的搜索结果,而不能根据用户的点击情况,对搜索结果的标签进行及时更改,影响后续搜索结果的准确度。

技术实现思路

[0004]针对上述技术问题,本专利技术采用的技术方案为:一种标签的获取方法,所述方法包括如下步骤:S100,获取目标文本对应的第二文本标签集EE和EE对应的第二文本标签优先级集CC;所述目标文本是指目标用户输入的文本且所述目标文本中包括第二类关键词,所述第二类关键词是指具体某一特性的量词;所述EE是根据所述第二类关键词得到的文本标签集;所述CC是根据所述第二类关键词和EE得到的文本标签优先级集。<br/>[0005]S200,基于所述目标文本对应的初始结果文本列表,获取目标结果文本对应的第三文本标签集F和F对应的第三文本标签优先级集FF;所述目标结果文本是所述初始结果文本列表中的任一文本。
[0006]S300,获取EE和F对应的相似度集GG;所述相似度集为EE中的每个第二文本标签分别与F中的第三文本标签计算相似度所得到的集合。
[0007]S400,根据CC、FF和GG,获取所述目标文本与所述目标结果文本的相关度值G0。
[0008]本专利技术至少具有以下有益效果:本专利技术提供了一种标签的获取方法,所述方法包括如下步骤:获取目标文本对应的第二文本标签集EE和EE对应的第二文本标签优先级集CC;所述目标文本是指目标用户输入的文本且所述目标文本中包括第二类关键词,所述第二类关键词是指具体某一特性的量词,基于所述目标文本对应的初始结果文本列表,获取目标结果文本对应的第三文本标签集F和F对应的第三文本标签优先级集FF;所述目标结果文本是所述初始结果文本列表中的
任一文本,获取EE和F对应的相似度集GG;所述相似度集为EE中的每个第二文本标签分别与F中的第三文本标签计算相似度所得到的集合,根据CC、FF和GG,获取所述目标文本与所述目标结果文本的相关度值G0。本专利技术提供了一种新的标签的获取方法,一方面,本专利技术通过目标文本和目标结果文本对应的标签以及标签优先级,计算得到目标结果文本与目标文本的相关度,并通过相同方法能够得到所有的初始结果文本与目标文本的相关度,按相关度从高到低对初始结果文本排序,能够提高用户的搜索效率与质量;另一方面,通过获取用户点击的初始结果文本,能够获取到所点击的文本对应的标签和标签优先级,即获取到有效的文本标签,以对有效的文本标签的优先值以及其对应的目标关键模型的优先值进行更新,提高后续搜索的准确度。
附图说明
[0009]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0010]图1为本专利技术实施例提供的一种标签的获取方法的流程图。
具体实施方式
[0011]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0012]需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0013]本专利技术提供了一种标签的获取方法,所述方法包括如下步骤:S100,获取目标文本对应的第二文本标签集EE和EE对应的第二文本标签优先级集CC;所述目标文本是指目标用户输入的文本且所述目标文本中包括第二类关键词。
[0014]具体的,所述第二类关键词是指具体某一特性的量词,例如,50岁、30米等。
[0015]具体的,EE中的第二文本标签均为字符串。
[0016]具体的,EE是根据所述第二类关键词得到的文本标签集,CC是根据所述第二类关键词和EE得到的文本标签优先级集。
[0017]在一个具体的实施例中,在S100中还通过如下步骤获取CC:S101,获取所述目标文本对应的第一文本标签优先级集AA。
[0018]具体的,所述目标文本是指目标用户输入的文本且所述目标文本中包括第二类关
键词或者第一类关键词和第二类关键词,其中,所述第一类关键词是指用于表征不能确定含义的词,例如,大约、预估、估计等。
[0019]在一个具体的实施例中,在S101中还通过如下步骤获取AA:S1011,获取所述目标文本中第二类关键词对应的量值D0,本领域技术人员可以知晓现有技术中任意一种从词中提取量值的方法均落入到本专利技术的保护范围,在此不再赘述。
[0020]S1012,根据D0,获取D0对应的第一中间量值列表B={B1,
……
,B
i

……
,B
m
}和第二中间量值列表B0={B
01

……
,B
0i

……
,B
0m
},B
i
为D0对应的第i个第一中间量值,B
0i
为D0对应的第i个第二中间量值,i=1
……
m,m为第一中间量值和第二中间量值的预设数量,本领域技术人员根据实际需求设置第一中间量值和第二中间量值的数量。
[0021]具体的,B
i+1

B
i
=

D且B1<
……
<B
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种标签的获取方法,其特征在于,所述方法包括如下步骤:S100,获取目标文本对应的第二文本标签集EE和EE对应的第二文本标签优先级集CC;所述目标文本是指目标用户输入的文本且所述目标文本中包括第二类关键词,所述第二类关键词是指具体某一特性的量词;所述EE是根据所述第二类关键词得到的文本标签集;所述CC是根据所述第二类关键词和EE得到的文本标签优先级集;S200,基于所述目标文本对应的初始结果文本列表,获取目标结果文本对应的第三文本标签集F和F对应的第三文本标签优先级集FF;所述目标结果文本是所述初始结果文本列表中的任一文本;S300,获取EE和F对应的相似度集GG;所述相似度集为EE中的每个第二文本标签分别与F中的第三文本标签计算相似度所得到的集合;S400,根据CC、FF和GG,获取所述目标文本与所述目标结果文本的相关度值G0。2.根据权利要求1所述的方法,其特征在于,在S200中,FF通过如下步骤获取:S201,获取所述目标结果文本对应的第三文本标签集F={F1,
……
,F
r

……
,F
t
},F
r
为所述目标结果文本对应的第r个第三文本标签,t为所述目标结果文本对应的第三文本标签的数量,其中,所述第三文本标签是通过预设的关键模型集H中的关键模型对所述目标结果文本进行处理后获取的任一文本标签;S202,根据F和H,获取第三文本标签优先级集FF={FF1,
……
,FF
r

……
,FF
d
},FF
r
为F
r
对应的目标优先值。3.根据权利要求2所述的方法,其特征在于,FF
r
符合如下条件:FF
r
=W

×
1/φ
r
,其中,W

是预先设置的F
0r
的模型优先值,F
0r
为F
r
对应的关键模型,φ
r
是指F
0r
对目标结果文本添加的第三文本标签的数量。4.根据权利要求1所述的方法,其特征在于,所述方法还包括如下步骤:S500,根据所述目标文本与所述初始结果文本列表中每个初始结果文本的相关度,按照相关度从高到低对结果文本列表中的所有初始结果文本排序,得到目标结果文本列表。5.根据权利要求4所述的方法,其特征在于,在S500之后还包括如下步骤:S501,根据所述目标结果文本列表,获取点击文本列表P={P1,
……
,P
α

……
,P
β
},P
α
为第α个点击文本,α=1
……
β,β为点击文本的数量,点击文本是目标用户在所述目标结果文本列表中点击的任一文本;S502,获取P对应的第四文本标签集Q={Q1,
……
,Q
δ

……
,Q
β
},Q
δ
={Q
δ1

……
,Q
δθ

……
,Q
δβ(δ)
},其中,Q
δθ
是指第δ个点击文本对应的第三文本标签集中的第θ个第三文本标签,β(δ)为第δ个点击文本对应的第三文本标签集中的第三文本标签的数量;S503,获取Q对应的目标关键模型集K={K1,
……
,K
v

……
,K
s
},其中,K
v
是指第v个目标关键模型,v=1
……
s,s为目标关键模型的数量;具体的,K为Q中的每个标签对应的关键模型的集合;S504,获取K对应的第一模型优先级集W
k1
={W
11

……
,W
v1

……
,W
s1...

【专利技术属性】
技术研发人员:赵洲洋靳雯王全修石江枫于伟王明超
申请(专利权)人:日照睿安信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1