基于文本的标签体系构建方法及装置制造方法及图纸

技术编号:23605259 阅读:22 留言:0更新日期:2020-03-28 06:12
本公开的实施例提供了一种基于文本的标签体系构建方法及装置,所述方法包括:从预设文本集中提取标签信息;基于所述标签信息之间包含的相同关键字以及所述相同关键字的数目,对所述标签信息进行不同层级的聚类,得到多个标签类;对于其中任意两个所述标签类,根据两个所述标签类对应的相同归属方确定两个所述标签类之间的归属相似度;将所述归属相似度大于或等于预设的归属相似度阈值的两个所述标签类进行合并;根据合并之后的标签类构建标签体系。可以构建具有层级的标签体系,使得标签对对象的描述准确度较高。

Construction method and device of label system based on text

【技术实现步骤摘要】
基于文本的标签体系构建方法及装置
本公开的实施例涉及网络
,尤其涉及一种基于文本的标签体系的构建方法及装置。
技术介绍
在网络
中,为了对用户评论、商家以及场景对象等进行很好的理解,通常会通过标签体系对其进行标注,以简单明了的方式对其进行描述,可以对展示、召回以及特征工程等其他任务起到辅助作用。从而构建一个合理、准确的标签体系会使得对对象的说明更加准确,有指导意义。现有技术中,一种标签体系的构建方法包括:首先,从大量的文本数据中提取关键词;然后,对关键词进行扩展,得到标签信息;最后,将大量的标签信息作为标签体系的其中一个标签。专利技术人对上述方案进行研究之后发现,上述方案得到的标签体系没有层级性,使得标签对对象的描述准确度较低。
技术实现思路
本公开的实施例提供了一种基于文本的标签体系构建方法及装置,可以构建具有层级的标签体系,使得标签对对象的描述准确度较高。根据本公开的实施例的第一方面,提供了一种基于文本的标签体系构建方法,所述方法包括:从预设文本集中提取标签信息;基于所述标签信息之间包含的相同关键字以及所述相同关键字的数目,对所述标签信息进行不同层级的聚类,得到多个标签类;对于其中任意两个所述标签类,根据两个所述标签类对应的相同归属方确定两个所述标签类之间的归属相似度;将所述归属相似度大于或等于预设的归属相似度阈值的两个所述标签类进行合并;根据合并之后的标签类构建标签体系。根据本公开的实施例的第二方面,提供了一种基于文本的标签体系构建装置,所述装置包括:标签信息提取模块,用于从预设文本集中提取标签信息;标签类生成模块,用于基于所述标签信息之间包含的相同关键字以及所述相同关键字的数目,对所述标签信息进行不同层级的聚类,得到多个标签类;归属相似度确定模块,用于对于其中任意两个所述标签类,根据两个所述标签类对应的相同归属方确定两个所述标签类之间的归属相似度;第一标签类合并模块,用于将所述归属相似度大于或等于预设的归属相似度阈值的两个所述标签类进行合并;标签体系构建模块,用于根据合并之后的标签类构建标签体系。根据本公开的实施例的第三方面,提供了一种电子设备,包括:处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现前述基于文本的标签体系构建方法。根据本公开的实施例的第四方面,提供了一种可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行前述基于文本的标签体系构建方法。本公开的实施例提供了一种基于文本的标签体系构建方法及装置,所述方法包括:从预设文本集中提取标签信息;基于所述标签信息之间包含的相同关键字以及所述相同关键字的数目,对所述标签信息进行不同层级的聚类,得到多个标签类;对于其中任意两个所述标签类,根据两个所述标签类对应的相同归属方确定两个所述标签类之间的归属相似度;将所述归属相似度大于或等于预设的归属相似度阈值的两个所述标签类进行合并;根据合并之后的标签类构建标签体系。可以构建具有层级的标签体系,使得标签对对象的描述准确度较高。附图说明为了更清楚地说明本公开的实施例的技术方案,下面将对本公开的实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的实施例的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1示出了本公开的一种实施例中基于文本的标签体系构建方法的步骤流程图;图2示出了本公开的一种实施例中基于文本的标签体系构建装置的结构图;图3示出了本公开的另一种实施例中基于文本的标签体系构建装置的结构图;图4示出了本公开的另一种实施例中基于文本的标签体系构建装置的结构图;图5示出了本公开的另一种实施例中基于文本的标签体系构建装置的结构图;图6示出了本公开的另一种实施例中基于文本的标签体系构建装置的结构图;图7示出了本公开的另一种实施例中基于文本的标签体系构建装置的结构图;图8示出了本公开的另一种实施例中基于文本的标签体系构建装置的结构图;图9示出了本公开的一种实施例中电子设备的结构图。具体实施方式下面将结合本公开的实施例中的附图,对本公开的实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开的实施例一部分实施例,而不是全部的实施例。基于本公开的实施例中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开的实施例保护的范围。实施例一参照图1,其示出了本公开的一种实施例中的基于文本的标签体系构建方法的步骤流程图,具体如下:步骤101,从预设文本集中提取标签信息。其中,预设文本集中包括多个预设文本,每个预设文本可以为简单的句子。在实际应用中,预设文本可以从搜索平台、社交平台等的用户生成内容(UGC,UserGeneratedContent)中获取,而这些UGC通常作为历史行为记录被存储。例如,UGC可以为历史评论记录,从而可以从历史评论记录中提取用户输入的评论文本作为预设文本。此外,预设文本还可以从其它的文本数据中提取,例如,从商品说明的文本数据中提取预设文本。本公开的实施例对预设文本的来源不加以限制。在提取标签信息的一种具体实施方式中,可以将预设文本进行分词,从而可以将所有分词作为标签信息。此外,为了保证标签信息的准确度,也可以从分词中按照一定规则选取部分分词作为标签信息,例如,将分词中的名词、动词等作为标签信息,而将例如副词等其余分词滤除掉。步骤102,基于所述标签信息之间包含的相同关键字以及所述相同关键字的数目,对所述标签信息进行不同层级的聚类,得到多个标签类。在聚类得到标签类的一种具体实施方式中,相同关键字可以作为标签类,若两个标签信息仅包含一个相同关键字,则该两个标签信息仅能进行一次聚类,该相同关键字作为聚类之后的标签类;若两个标签信息包括两个或两个以上的相同关键字,则该两个标签信息可以进行多次聚类,聚类次数与相同关键字的数目相关。例如,“重庆麻辣火锅”和“重庆香辣火锅”包括两个相同关键字:重庆、火锅,从而可以聚类到标签类“重庆火锅”下,而重庆火锅还可以进一步聚类到标签类“火锅”或“重庆”下。在本公开的实施例中,可以从相同关键字的最多数目开始,逐步递减包含的相同关键字的数目,从而实现不同的等级的聚类。例如,首先,将“重庆麻辣火锅”和“重庆香辣火锅”聚类到“重庆火锅”,再将“重庆火锅”和“成都火锅”聚类到“火锅”,得到两个层级的标签类“重庆火锅”和“火锅”。步骤103,对于其中任意两个所述标签类,根据两个所述标签类对应的相同归属方确定两个所述标签类之间的归属相似度。其中,归属方可以理解为该标签类的提供方。例如,若标签类是针对商品的标签类,则标签类可以从本文档来自技高网...

【技术保护点】
1.一种基于文本的标签体系构建方法,其特征在于,所述方法包括:/n从预设文本集中提取标签信息;/n基于所述标签信息之间包含的相同关键字以及所述相同关键字的数目,对所述标签信息进行不同层级的聚类,得到多个标签类;/n对于其中任意两个所述标签类,根据两个所述标签类对应的相同归属方确定两个所述标签类之间的归属相似度;/n将所述归属相似度大于或等于预设的归属相似度阈值的两个所述标签类进行合并;/n根据合并之后的标签类构建标签体系。/n

【技术特征摘要】
1.一种基于文本的标签体系构建方法,其特征在于,所述方法包括:
从预设文本集中提取标签信息;
基于所述标签信息之间包含的相同关键字以及所述相同关键字的数目,对所述标签信息进行不同层级的聚类,得到多个标签类;
对于其中任意两个所述标签类,根据两个所述标签类对应的相同归属方确定两个所述标签类之间的归属相似度;
将所述归属相似度大于或等于预设的归属相似度阈值的两个所述标签类进行合并;
根据合并之后的标签类构建标签体系。


2.根据权利要求1所述的方法,其特征在于,所述对于其中任意两个所述标签类,根据两个所述标签类对应的相同归属方确定两个所述标签类之间的归属相似度的步骤,包括:
对于其中任意两个所述标签类,计算两个所述标签类对应的相同归属方的数目与两个所述标签类对应的归属方总数的比值;
根据所述比值确定两个所述标签类之间的归属相似度。


3.根据权利要求1或2所述的方法,其特征在于,在根据合并之后的标签类构建标签体系的步骤之前,所述方法还包括:
对于其中任意两个所述标签类,根据两个所述标签类对应的语义向量确定两个所述标签类之间的语义相似度;
将所述语义相似度大于或等于预设的语义相似度阈值的两个所述标签类进行合并。


4.根据权利要求3所述的方法,其特征在于,所述对于其中任意两个所述标签类,根据两个所述标签类对应的语义向量确定两个所述标签类之间的语义相似度的步骤,包括:
对于其中任意两个所述标签类,计算两个所述标签类对应的语义向量之间的相似度,得到两个所述标签类之间的语义相似度。


5.根据权利要求1所述的方法,其特征在于,所述从预设文本集中提取标签信息的步骤,包括:
针对所述预设文本集中的每个预设文本,通过第一正则匹配策略从所述预设文本中提取候选标签;
将所述候选标签和预设标签集合并为标签信息。


6.根据权利要求5所述的方法,其特征在于,在所述将所述候选标签和预设标签集合并为标签信息的步骤之前,所述方法还包括:
从预设文本集中确定包含...

【专利技术属性】
技术研发人员:曹雪智祝升汪非易汤彪谢睿
申请(专利权)人:北京三快在线科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1