一种数据标签生成方法和装置制造方法及图纸

技术编号:16472585 阅读:35 留言:0更新日期:2017-10-29 00:16
本发明专利技术公开了一种数据标签生成方法和装置,涉及互联网数据领域。本发明专利技术方法包括:获取原始文本数据;利用顶层主题数据库分析得到多个顶层主题文本数据;预处理顶层主题文本数据得到顶层主题预处理文本数据;提取顶层主题预处理文本数据中所有文档Tf‑idf特征值得到矩阵数据;对矩阵数据进行主题聚类得到多个不同主题聚类;从每个主题聚类中关键词并由高至低排序;根据实际应用对关键词排序表进行校正,留取与对应的主题聚类内容相关度密切且正确表达对应主题聚类内容的关键词;根据新关键词排序表得到各主题聚类的标签。本发明专利技术方法可快速高效对海量数据进行主题聚类,所得标签体系结构完整、内容丰富以、更贴近实际应用以便于用户使用。

Method and device for generating data label

The invention discloses a method and a device for generating data labels, which relates to the field of Internet data. The method of the invention includes: obtaining the original text data; based on topic database analysis from a number of top theme text data preprocessing; top theme text data to get the top theme text data pretreatment; extraction pretreatment of text data in the top-level topic Tf all documents IDF features to the data matrix; matrix of data multi topic clustering a different topic clustering; clustering from each topic keywords and from high to low ranking; according to the actual application to correct keywords ranking table, left keywords and topic clustering content corresponding closely related and correct expression of the corresponding topic clustering content; according to the new keyword sort table each topic cluster label. The method of the invention can quickly and efficiently cluster the massive data, and has the complete structure and rich content of the tag system, so as to be closer to the practical application so as to be convenient for users to use.

【技术实现步骤摘要】
一种数据标签生成方法和装置
本专利技术涉及互联网数据
,尤其涉及一种数据标签生成方法和装置。
技术介绍
标签是一种比分类更准确、更具体,可以概括一个信息主体内容的关键词。标签体系是互联网时代网站,App,数字营销,广告,推荐系统等的重要组成部分。是实现用户画像,精准定向的基础。大部分系统的标签来自于人工生成,用户自定义,或是机器关键词提取后的映射处理。在大数据背景下,人们所接触到的文字信息越来越多,文本数据量呈指数级增长。这时以人工的方式去分析归纳文本的主题已不能再满足需要。人工文本处理的方式不仅耗时昂贵,而且在处理时会参杂一些主观偏见,从而降低了主题聚类的质量。采用人工生成的可以成为一个系统体系,但全部依赖人工定义的方法无法大规模生产,这样的标签体系可扩展性不强,也不会很丰富;采用用户自定义的标签过于零散和自由,无法结构化,对于标签的使用是一个挑战;采用简单的分词算法关键词提取能靠机器产生大量标签,但并不具备代表性和不成体系。
技术实现思路
有鉴于此,本专利技术实施例提供了一种数据标签生成方法和装置,主要目的是提供一种体系完整、分类准确、更贴近实际应用的标签的生成方法。为达到上述目的,本专利技术主要提供了如下技术方案:一方面,本专利技术实施例提供了一种数据标签生成方法,该方法包括如下步骤:获取原始文本数据;利用顶层主题数据库对所述原始文本数据进行顶层分类,得到多个顶层主题文本数据;对每个所述顶层主题文本数据进行去冗余预处理,得到多个顶层主题预处理文本数据;获取每个所述顶层主题预处理文本数据的文档总数量和词语总数量,提取同一个所述顶层主题预处理文本数据中每个词语在每一个文档中的Tf-idf特征值,得到每个所述顶层主题预处理文本数据的矩阵数据,其中,矩阵数据的行数为所述文档总数量,一行为一个文档,矩阵数据的列数为所述词语总数量,一列为一个词在文档中的Tf-idf特征值;对每个所述矩阵数据进行主题聚类,得到多个不同主题聚类;从每个所述矩阵数据的每一个主题聚类中分别挑取20-50个与对应的主题聚类密切相关的关键词;根据关键词与其对应的主题聚类相关度,由高至低进行排序,对应得到多个关键词排序表;根据实际应用对所述多个关键词排序表进行校正,留取与对应的主题聚类内容相关度密切且正确表达对应主题聚类内容的关键词,删除与对应主题聚类内容相关度密切但错误表达主题聚类内容的关键词,形成多个新关键词排序表;根据所述新关键词排序表与其对应主题聚类的相关度,对每一个主题聚类定义标签。作为优选,所述定义标签的步骤之后还包括以下步骤:将主题聚类得到的多个标签形成原始标签库;将新产生的标签与所述原始标签库中的标签进行校验,去除主题名称重复的标签;将校验通过的新标签加入所述原始标签库中,形成现有标签库;所述现有标签库根据每一次新标签的加入自动更新和增长。作为优选,所述顶层主题数据库包括基本属性主题的数据、生活场景主题的数据、影响因子主题的数据以及性格心理主题的数据。作为优选,所述原始文本数据是从网站爬取或客户提供;所述去冗余预处理是对所述顶层分类文本数据进行统一编码、繁体转简体、半角转全角、去除标点符号、去除链接、去除html以及中文分词;从每一个主题聚类中分别挑取30个与对应主题聚类密切相关的关键词;所述Tf-idf特征值为词频和逆向文档频率。作为优选,所述对每个所述矩阵数据进行主题聚类是采用非负矩阵分解方法,得到的主题聚类结构为平级结构;或者,所述对每个所述矩阵数据进行主题聚类是采用多层次主题聚类方法,得到的主题聚类结构为树形结构。作为优选,所述树形结构的形成过程具体为:对每个所述顶层主题文本数据的多个文档进行非负矩阵分解,找出所述多个文档中最显著的两个主题,所述两个主题为第一主题和第二主题;根据所述多个文档与所述第一主题和所述第二主题之间的相关度,将所述多个文档分为两组,得到第一主题文档集和第二主题文档集;所述第一主题和与其对应的第一主题文档集以及所述第二主题和与其对应的第二主题文档集均为所述树形结构的第一层子结构数据;对所述第一主题文档集和所述第二主题文档集分别进行非负矩阵分解,在所述第一主题文档集中找到最显著的两个主题,所述主题为第三主题和第四主题,根据所述所述第一主题文档集与所述第三主题和所述第四主题之间的相关度,将所述第一主题文档集分为两组,得到第三主题文档集和第四主题文档集;在所述第二主题文档集中找到最显著的两个主题,所述主题为第五主题和第六主题,根据所述所述第二主题文档集与所述第五主题和所述第六主题之间的相关度,将所述第二主题文档集分为两组,得到第五主题文档集和第六主题文档集;所述第三主题和与其对应的第三主题文档集、所述第四主题和与其对应的第四主题文档集、所述第五主题和与其对应的第五主题文档集以及所述第六主题和与其对应的第六主题文档集均为所述树形结构的第二层子结构数据;采用迭代方式,按照非负矩阵分解方式将上一层子结构数据中的所有主题文档集分别分为两组,得到下一层子结构数据,所述下一层子结构数据包括多个主题以及与所述多个主题分别对应的多个主题文档集;当得到的下一层子结构数据满足预定需求时停止主题聚类过程,得到每个所述顶层主题文本数据的N个文档主题聚类的树形结构。另一方面,本专利技术还提供了一种数据标签生成装置,所述装置包括:获取原始数据模块;顶层主题数据库模块,用于对所述原始文本数据进行顶层分类,得到所述原始文本数据的顶层主题文本数据;数据预处理模块,用于对每个所述顶层主题文本数据进行去冗余预处理,得到多个顶层主题预处理文本数据;获取矩阵数据模块,用于在每个所述顶层主题预处理文本数据中获取其文档总数量和词语总数量,提取同一所述顶层主题预处理文本数据的每个词在每一个文档中的Tf-idf特征值,得到矩阵数据;其中,矩阵数据的行数为文档总数量,一行为一个文档,矩阵数据的列数为词语总数量,一列为一个词分别在多个文档中的Tf-idf特征值;主题聚类模块,用于对多个所述矩阵数据进行主题聚类,得到多个不同主题聚类;获取关键词模块,用于从每个所述矩阵数据的每一个主题聚类中分别挑取20-50个与对应的主题聚类密切相关的关键词;关键词排序模块,用于根据关键词与其对应的主题聚类相关度由高至低进行排序,得到多个关键词排序表;校正关键词模块,用于根据实际应用对多个关键词排序表进行校正,留取与对应的主题聚类内容相关度密切且正确表达对应主题聚类内容的关键词,删除与对应主题聚类内容相关度密切且错误表达主题聚类内容的关键词,形成多个新关键词排序表;定义标签模块,用于根据所述新关键词排序表与其对应主题聚类的相关度,对每一个主题聚类定义标签。作为优选,在所述定义标签模块之后还包括标签校验入库模块,用于将主题聚类得到的多个标签形成原始标签库,将新产生的标签与所述原始标签库中的标签进行校验,去除主题名称重复的标签,将校验通过的新标签加入所述原始标签库中,形成现有标签库,所述现有标签库根据每一次新标签的加入自动更新和增长;所述顶层主题数据库模块包括基本属性子模块、生活场景子模块、影响因子子模块以及性格心理子模块。作为优选,所述主题聚类模块包括:非负矩阵分解模块,得到的主题聚类结构为平级结构;以及,树形结构模块,得到的主题聚类结构为树形结构。与现有技术相比,本专利技术的有本文档来自技高网...
一种数据标签生成方法和装置

【技术保护点】
一种数据标签生成方法,其特征在于,所述方法包括如下步骤:获取原始文本数据;利用顶层主题数据库对所述原始文本数据进行顶层分类,得到多个顶层主题文本数据;对每个所述顶层主题文本数据进行去冗余预处理,得到多个顶层主题预处理文本数据;获取每个所述顶层主题预处理文本数据的文档总数量和词语总数量,提取同一个所述顶层主题预处理文本数据中每个词语在每一个文档中的Tf‑idf特征值,得到每个所述顶层主题预处理文本数据的矩阵数据,其中,矩阵数据的行数为所述文档总数量,一行为一个文档,矩阵数据的列数为所述词语总数量,一列为一个词在文档中的Tf‑idf特征值;对每个所述矩阵数据进行主题聚类,得到多个不同主题聚类;从每个所述矩阵数据的每一个主题聚类中分别挑取20‑50个与对应的主题聚类密切相关的关键词;根据关键词与其对应的主题聚类相关度,由高至低进行排序,对应得到多个关键词排序表;根据实际应用对所述多个关键词排序表进行校正,留取与对应的主题聚类内容相关度密切且正确表达对应主题聚类内容的关键词,删除与对应主题聚类内容相关度密切但错误表达主题聚类内容的关键词,形成多个新关键词排序表;根据所述新关键词排序表与其对应主题聚类的相关度,对每一个主题聚类定义标签。...

【技术特征摘要】
1.一种数据标签生成方法,其特征在于,所述方法包括如下步骤:获取原始文本数据;利用顶层主题数据库对所述原始文本数据进行顶层分类,得到多个顶层主题文本数据;对每个所述顶层主题文本数据进行去冗余预处理,得到多个顶层主题预处理文本数据;获取每个所述顶层主题预处理文本数据的文档总数量和词语总数量,提取同一个所述顶层主题预处理文本数据中每个词语在每一个文档中的Tf-idf特征值,得到每个所述顶层主题预处理文本数据的矩阵数据,其中,矩阵数据的行数为所述文档总数量,一行为一个文档,矩阵数据的列数为所述词语总数量,一列为一个词在文档中的Tf-idf特征值;对每个所述矩阵数据进行主题聚类,得到多个不同主题聚类;从每个所述矩阵数据的每一个主题聚类中分别挑取20-50个与对应的主题聚类密切相关的关键词;根据关键词与其对应的主题聚类相关度,由高至低进行排序,对应得到多个关键词排序表;根据实际应用对所述多个关键词排序表进行校正,留取与对应的主题聚类内容相关度密切且正确表达对应主题聚类内容的关键词,删除与对应主题聚类内容相关度密切但错误表达主题聚类内容的关键词,形成多个新关键词排序表;根据所述新关键词排序表与其对应主题聚类的相关度,对每一个主题聚类定义标签。2.根据权利要求1所述的一种数据标签生成方法,其特征在于,所述定义标签的步骤之后还包括以下步骤:将主题聚类得到的多个标签形成原始标签库;将新产生的标签与所述原始标签库中的标签进行校验,去除主题名称重复的标签;将校验通过的新标签加入所述原始标签库中,形成现有标签库;所述现有标签库根据每一次新标签的加入自动更新和增长。3.根据权利要求1所述的一种数据标签生成方法,其特征在于,所述顶层主题数据库包括基本属性主题的数据、生活场景主题的数据、影响因子主题的数据以及性格心理主题的数据。4.根据权利要求1所述的一种数据标签生成方法,其特征在于,所述原始文本数据是从网站爬取或客户提供;所述去冗余预处理是对所述顶层分类文本数据进行统一编码、繁体转简体、半角转全角、去除标点符号、去除链接、去除html以及中文分词;从每一个主题聚类中分别挑取30个与对应主题聚类密切相关的关键词;所述Tf-idf特征值为词频和逆向文档频率。5.根据权利要求1所述的一种数据标签生成方法,其特征在于,所述对每个所述矩阵数据进行主题聚类是采用非负矩阵分解方法,得到的主题聚类结构为平级结构;或者,所述对每个所述矩阵数据进行主题聚类是采用多层次主题聚类方法,得到的主题聚类结构为树形结构。6.根据权利要求5所述的一种数据标签生成方法,其特征在于,所述树形结构的形成过程具体为:对每个所述顶层主题文本数据的多个文档进行非负矩阵分解,找出所述多个文档中最显著的两个主题,所述两个主题为第一主题和第二主题;根据所述多个文档与所述第一主题和所述第二主题之间的相关度,将所述多个文档分为两组,得到第一主题文档集和第二主题文档集;所述第一主题和与其对应的第一主题文档集以及所述第二主题和与其对应的第二主题文档集均为所述树形结构的第一层子结构数据;对所述第一主题文档集和所述第二主题文档集分别进行非负矩阵分解,在所述第一主题文档集中找到...

【专利技术属性】
技术研发人员:李晖胡宁杭郑悦
申请(专利权)人:北京融数云途科技有限公司
类型:发明
国别省市:北京,11

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1