一种数据标签生成方法和装置制造方法及图纸

技术编号：16472585 阅读：49 留言：0更新日期：2017-10-29 00:16

本发明专利技术公开了一种数据标签生成方法和装置，涉及互联网数据领域。本发明专利技术方法包括：获取原始文本数据；利用顶层主题数据库分析得到多个顶层主题文本数据；预处理顶层主题文本数据得到顶层主题预处理文本数据；提取顶层主题预处理文本数据中所有文档Tf‑idf特征值得到矩阵数据；对矩阵数据进行主题聚类得到多个不同主题聚类；从每个主题聚类中关键词并由高至低排序；根据实际应用对关键词排序表进行校正，留取与对应的主题聚类内容相关度密切且正确表达对应主题聚类内容的关键词；根据新关键词排序表得到各主题聚类的标签。本发明专利技术方法可快速高效对海量数据进行主题聚类，所得标签体系结构完整、内容丰富以、更贴近实际应用以便于用户使用。

Method and device for generating data label

The invention discloses a method and a device for generating data labels, which relates to the field of Internet data. The method of the invention includes: obtaining the original text data; based on topic database analysis from a number of top theme text data preprocessing; top theme text data to get the top theme text data pretreatment; extraction pretreatment of text data in the top-level topic Tf all documents IDF features to the data matrix; matrix of data multi topic clustering a different topic clustering; clustering from each topic keywords and from high to low ranking; according to the actual application to correct keywords ranking table, left keywords and topic clustering content corresponding closely related and correct expression of the corresponding topic clustering content; according to the new keyword sort table each topic cluster label. The method of the invention can quickly and efficiently cluster the massive data, and has the complete structure and rich content of the tag system, so as to be closer to the practical application so as to be convenient for users to use.

全部详细技术资料下载

【技术实现步骤摘要】
一种数据标签生成方法和装置
本专利技术涉及互联网数据
，尤其涉及一种数据标签生成方法和装置。
技术介绍
标签是一种比分类更准确、更具体，可以概括一个信息主体内容的关键词。标签体系是互联网时代网站，App，数字营销，广告，推荐系统等的重要组成部分。是实现用户画像，精准定向的基础。大部分系统的标签来自于人工生成，用户自定义，或是机器关键词提取后的映射处理。在大数据背景下，人们所接触到的文字信息越来越多，文本数据量呈指数级增长。这时以人工的方式去分析归纳文本的主题已不能再满足需要。人工文本处理的方式不仅耗时昂贵，而且在处理时会参杂一些主观偏见，从而降低了主题聚类的质量。采用人工生成的可以成为一个系统体系，但全部依赖人工定义的方法无法大规模生产，这样的标签体系可扩展性不强，也不会很丰富；采用用户自定义的标签过于零散和自由，无法结构化，对于标签的使用是一个挑战；采用简单的分词算法关键词提取能靠机器产生大量标签，但并不具备代表性和不成体系。
技术实现思路
有鉴于此，本专利技术实施例提供了一种数据标签生成方法和装置，主要目的是提供一种体系完整、分类准确、更贴近实际应用的标签的...

【技术保护点】
一种数据标签生成方法，其特征在于，所述方法包括如下步骤：获取原始文本数据；利用顶层主题数据库对所述原始文本数据进行顶层分类，得到多个顶层主题文本数据；对每个所述顶层主题文本数据进行去冗余预处理，得到多个顶层主题预处理文本数据；获取每个所述顶层主题预处理文本数据的文档总数量和词语总数量,提取同一个所述顶层主题预处理文本数据中每个词语在每一个文档中的Tf‑idf特征值，得到每个所述顶层主题预处理文本数据的矩阵数据，其中，矩阵数据的行数为所述文档总数量，一行为一个文档，矩阵数据的列数为所述词语总数量，一列为一个词在文档中的Tf‑idf特征值；对每个所述矩阵数据进行主题聚类，得到多个不同主题聚类；从每...

【技术特征摘要】
1.一种数据标签生成方法，其特征在于，所述方法包括如下步骤：获取原始文本数据；利用顶层主题数据库对所述原始文本数据进行顶层分类，得到多个顶层主题文本数据；对每个所述顶层主题文本数据进行去冗余预处理，得到多个顶层主题预处理文本数据；获取每个所述顶层主题预处理文本数据的文档总数量和词语总数量,提取同一个所述顶层主题预处理文本数据中每个词语在每一个文档中的Tf-idf特征值，得到每个所述顶层主题预处理文本数据的矩阵数据，其中，矩阵数据的行数为所述文档总数量，一行为一个文档，矩阵数据的列数为所述词语总数量，一列为一个词在文档中的Tf-idf特征值；对每个所述矩阵数据进行主题聚类，得到多个不同主题聚类；从每个所述矩阵数据的每一个主题聚类中分别挑取20-50个与对应的主题聚类密切相关的关键词；根据关键词与其对应的主题聚类相关度，由高至低进行排序，对应得到多个关键词排序表；根据实际应用对所述多个关键词排序表进行校正，留取与对应的主题聚类内容相关度密切且正确表达对应主题聚类内容的关键词，删除与对应主题聚类内容相关度密切但错误表达主题聚类内容的关键词，形成多个新关键词排序表；根据所述新关键词排序表与其对应主题聚类的相关度，对每一个主题聚类定义标签。2.根据权利要求1所述的一种数据标签生成方法，其特征在于，所述定义标签的步骤之后还包括以下步骤：将主题聚类得到的多个标签形成原始标签库；将新产生的标签与所述原始标签库中的标签进行校验，去除主题名称重复的标签；将校验通过的新标签加入所述原始标签库中，形成现有标签库；所述现有标签库根据每一次新标签的加入自动更新和增长。3.根据权利要求1所述的一种数据标签生成方法，其特征在于，所述顶层主题数据库包括基本属性主题的数据、生活场景主题的数据、影响因子主题的数据以及性格心理主题的数据。4.根据权利要求1所述的一种数据标签生成方法，其特征在于，所述原始文本数据是从网站爬取或客户提供；所述去冗余预处理是对所述顶层分类文本数据进行统一编码、繁体转简体、半角转全角、去除标点符号、去除链接、去除html以及中文分词；从每一个主题聚类中分别挑取30个与对应主题聚类密切相关的关键词；所述Tf-idf特征值为词频和逆向文档频率。5.根据权利要求1所述的一种数据标签生成方法，其特征在于，所述对每个所述矩阵数据进行主题聚类是采用非负矩阵分解方法，得到的主题聚类结构为平级结构；或者，所述对每个所述矩阵数据进行主题聚类是采用多层次主题聚类方法，得到的主题聚类结构为树形结构。6.根据权利要求5所述的一种数据标签生成方法，其特征在于，所述树形结构的形成过程具体为：对每个所述顶层主题文本数据的多个文档进行非负矩阵分解，找出所述多个文档中最显著的两个主题，所述两个主题为第一主题和第二主题；根据所述多个文档与所述第一主题和所述第二主题之间的相关度，将所述多个文档分为两组，得到第一主题文档集和第二主题文档集；所述第一主题和与其对应的第一主题文档集以及所述第二主题和与其对应的第二主题文档集均为所述树形结构的第一层子结构数据；对所述第一主题文档集和所述第二主题文档集分别进行非负矩阵分解，在所述第一主题文档集中找到...

【专利技术属性】
技术研发人员：李晖，胡宁杭，郑悦，
申请(专利权)人：北京融数云途科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人