一种目标文本标签的获取方法、装置、设备及介质制造方法及图纸

技术编号:42464516 阅读:19 留言:0更新日期:2024-08-21 12:51
本发明专利技术涉及文本标签处理技术领域,特别是涉及一种目标文本标签的获取方法、装置、设备及介质,所述方法包括以下步骤:首先根据初始文本的字符数和关键词中间信息集获取到每一初始文本的初始文本得分,然后获取每一关键文本标签对应的初始文本的数量,根据上述两者获取到每一关键文本标签的得分,当关键文本标签的得分不小于预设标签得分时,将该关键文本标签确定目标文本标签;可知,本发明专利技术能够结合文本的重要程度以及关键文本标签的使用情况筛选出目标文本标签,使得筛选出文本标签更可靠有效,从而具有更高的价值。

【技术实现步骤摘要】

本专利技术涉及文本标签处理,特别是涉及一种目标文本标签的获取方法、装置、设备及介质


技术介绍

1、随着大数据的应用越来越广泛,采集的文本数据呈指数增长,文本存储平台为了方便对文本数据的管理,通常构建有用于文本分类和实体识别的标签体系,标签作为对某种信息主体的高度刻画,可以让人们从大量的冗余信息中解放出来,也能将各种不同平台下的数据进行归纳总结,分门别类。

2、为了便于文本分析和处理,不同的文本存储平台的标签体系通常具有各自的设定标准,即使对于同一业务,也会有自定义的不同标签,标签体系中的众多标签存在使用价值良莠不齐的情况,因此,如何从若干个标签中筛选出高价值标签来实现标签体系的优化是至关重要的。

3、目前,在筛选高价值标签时,通常是通过文本数据库对已有的标签体系中的标签进行筛选,如申请号为“2022110849118”,名称为“一种地产行业标签体系优化方法、系统、设备及存储介质”的专利文献中提出了一种地产行业标签体系优化方法,根据标签优化参数和设定的标签优化阈值实现标签的筛选,而在确定标签优化参数时,仅根据叶节点对于文本的命中次数本文档来自技高网...

【技术保护点】

1.一种目标文本标签的获取方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的目标文本标签的获取方法,其特征在于,在步骤S100中,通过以下步骤获取每相邻两个初始文本关键词之间的中间文本片段字符数:

3.根据权利要求1所述的目标文本标签的获取方法,其特征在于,在S100步骤中,初始文本对应的初始文本得分符合以下条件:

4.根据权利要求3所述的目标文本标签的获取方法,其特征在于,通过以下步骤确定出ρr:

5.根据权利要求3所述的目标文本标签的获取方法,其特征在于,在步骤S300中,关键文本标签对应的第二文本标签得分符合以下条件:...

【技术特征摘要】

1.一种目标文本标签的获取方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的目标文本标签的获取方法,其特征在于,在步骤s100中,通过以下步骤获取每相邻两个初始文本关键词之间的中间文本片段字符数:

3.根据权利要求1所述的目标文本标签的获取方法,其特征在于,在s100步骤中,初始文本对应的初始文本得分符合以下条件:

4.根据权利要求3所述的目标文本标签的获取方法,其特征在于,通过以下步骤确定出ρr:

5.根据权利要求3所述的目标文本标签的获取方法,其特征在于,在步骤s300中,关键文本标签对应的第二文本标签得分符合以下条件:

6.一种目标文本标签的获取装置,其特征在于,所述装置包括:

7.根据权利要求6所述的目标文本标签的获取装置,其特征在于,所述第一获...

【专利技术属性】
技术研发人员:赵洲洋王全修石江枫于伟靳雯
申请(专利权)人:北京睿企信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1