一种内容分类聚合方法、电子设备、存储介质及引擎技术

技术编号:20160531 阅读:21 留言:0更新日期:2019-01-19 00:13
本发明专利技术提供一种内容分类聚合方法,包括:当原始文章内容和待测文章内容均不为评论类文章时,根据不同种类建立与原始文章内容对应的属性标签,将属性标签与原始文章内容建立映射关系;采用分词器对不同种类的原始文章内容进行解构并分别提取每个原始文章内容对应的高频词组,并将每个高频词组与属性标签建立映射关系;将每个高频词组分别输入至若干待训练线性模型中进行训练并得到与属性标签对应的已训练线性模型;根据不同已训练线性模型对待测文章内容进行筛选并匹配出对应的属性标签。本发明专利技术的一种内容分类聚合方法,降低了人工成本,根据待测文章内容对应的属性标签可以将其以不同属性标签的方式曾现在用户眼前,极大提高了用户的体验感。

【技术实现步骤摘要】
一种内容分类聚合方法、电子设备、存储介质及引擎
本专利技术涉及自然语言处理领域,尤其涉及一种内容分类聚合方法、电子设备、存储介质及引擎。
技术介绍
自然语言处理(NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。目前各个平台上的都具有内容导购概念,好的内容更具用户粘性。例如化妆专辑可以有效地吸引女性用户,健身户外专辑可以有效地吸引男性用户。同时这些专辑又可以很好的跟购物平台的档期、货物结合起来,一方面增加用户粘性,一方面做内容导购。随着关于各类商品的创作文章数量的增长,爬取文章数量的激增,如何管理这些文章,复用文章都成了问题。目前都是采用手动给这些文章进行标签化,此举显著增加人力成本,当文章数超过过多时,人力已经无法解决。
技术实现思路
为了克服现有技术的不足,本专利技术的目的之一在于提供一种内容分类聚合方法,其能解决目前都是采用手动给这些文章进行标签化,此举显著增加人力成本,当文章数超过过多时,人力已经无法解决的问题。本专利技术的目的之二在于提供一种电子设备,其能解决目前都是采用手动给这些文章进行标签化,此举显著增加人力成本,当文章数超过过多时,人力已经无法解决的问题。本专利技术的目的之三在于提供一种计算机存储介质,其能解决目前都是采用手动给这些文章进行标签化,此举显著增加人力成本,当文章数超过过多时,人力已经无法解决的问题。本专利技术的目的之四在于提供一种内容分类聚合引擎,其能解决目前都是采用手动给这些文章进行标签化,此举显著增加人力成本,当文章数超过过多时,人力已经无法解决的问题。本专利技术的目的之一采用以下技术方案实现:一种内容分类聚合方法,其特征在于包括:建立文章标签,获取在线平台上的不同种类的原始文章内容以及待测文章内容,当所述原始文章内容和所述待测文章内容均不为评论类文章时,根据不同种类建立与所述原始文章内容对应的属性标签,将所述属性标签与所述原始文章内容建立映射关系;高频词归纳,采用分词器对不同种类的所述原始文章内容进行解构并分别提取每个所述原始文章内容对应的高频词组,并将每个所述高频词组与所述属性标签建立映射关系;建立线性模型,将每个所述高频词组分别输入至若干待训练线性模型中进行训练并得到与所述属性标签对应的已训练线性模型;内容分类,根据不同所述已训练线性模型对待测文章内容进行筛选并匹配出对应的所述属性标签。进一步地,当所述原始文章内容和所述待测文章内容均为评论类文章时,执行以下步骤:建立热词库,获取若干线上平台的真实评论,根据若干所述真实评论建立热词库;整理热词库,将所述热词库中的若干真实评论进行属性分类并得到字数属性和质量属性;丰富热词库,使用word2vec从所述热词库中推演出近义词库,使用所述近义词库对不同所述字数属性的所述真实评论进行逐步迭代并得到已丰富热词库;评论分类,将所述热词库和所述待测文章内容输入至贪婪匹配模型中进行分类,所述贪婪匹配模型在所述热词库中片匹配出对应的所述质量属性。进一步地,所述整理热词库具体为将所述热词库中的若干真实评论依次按照字数多少进行分类及按照质量的好还进行分类,所述质量属性为好评论、差评论、中等评论。进一步地,每个所述高频词组包含若干高频词汇,所述建立线性模型之前还包括高频词标准化处理,统计每个所述高频词汇在对应的所述原始文章中的当前出现次数,所述原始文章内容中最多出现次数和最少出现数;根据所述当前出现次数、最多出现此数及最少出现次数计算所述高频词汇对应的权重,根据所述权重对每个所述高频词组中的所述高频词汇进行权重排序。进一步地,所述内容分类具体为:将待测文章内容分别输入值不同所述已训练线性模型中,每个所述已训练线性模型输出对应的相性值,筛选出最大所述相性值对应所述已训练线性模型,根据所述已训练模型筛选出对应的所述属性标签。进一步地,所述属性标签可为女装、美食、数码科技、电影、小清新、复古风,所述原始文章内容为女装类文章、美食类文章、数码科技类文章、电影类文章、小清新类文章、复古风类文章。本专利技术的目的之二采用以下技术方案实现:一种电子设备,包括:处理器;存储器;以及程序,其中所述程序被存储在所述存储器中,并且被配置成由处理器执行,所述程序包括用于执行本专利技术的一种内容分类聚合方法。本专利技术的目的之三采用以下技术方案实现:一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行本专利技术的一种内容分类聚合方法。本专利技术的目的之四采用以下技术方案实现:一种内容分类聚合引擎,其特征在于包括:建立文章标签模块,所述建立文章标签模块用于获取在线平台上的不同种类的原始文章内容以及待测文章内容,当所述原始文章内容和所述待测文章内容均不为评论类文章时,根据不同种类建立与所述原始文章内容对应的属性标签,将所述属性标签与所述原始文章内容建立映射关系;高频词归纳模块,所述高频词归纳模块用于采用分词器对不同种类的所述原始文章内容进行解构并分别提取每个所述原始文章内容对应的高频词组,并将每个所述高频词组与所述属性标签建立映射关系;建立线性模型模块,所述建立线性模型模块用于将每个所述高频词组分别输入至若干待训练线性模型中进行训练并得到与所述属性标签对应的已训练线性模型;内容分类模块,所述内容分类模块用于根据不同所述已训练线性模型对待测文章内容进行筛选并匹配出对应的所述属性标签。进一步地,当所述原始文章内容和所述待测文章内容均为评论类文章时,包括:建立热词库模块,所述建立热词库模块用于获取若干线上平台的真实评论,根据若干所述真实评论建立热词库;整理热词库模块,所述整理热词库模块用于将所述热词库中的若干真实评论进行属性分类并得到字数属性和质量属性;丰富热词库模块,所述丰富热词库模块用于使用word2vec从所述热词库中推演出近义词库,使用所述近义词库对不同所述字数属性的所述真实评论进行逐步迭代并得到已丰富热词库;评论分类模块,所述评论分类模块用于将所述热词库和所述待测文章内容输入至贪婪匹配模型中进行分类,所述贪婪匹配模型在所述热词库中片匹配出对应的所述质量属性。相比现有技术,本专利技术的有益效果在于:本专利技术的一种内容分类聚合方法,通过先对原始文章内容进行分类且建立对应的属性标签,采用分词器对不同种类的原始文章内容进行结构并提取每个原始文章内容对应的高频词组,将高频词组与属性标签建立映射关系,将高频词组输入值线性模型中,从而得到与属性标签对应的已训练线性模型,再使用已训练线性模型对待测文章内容进行筛选并匹配出对应的属性标签,即将待测文章内容与属性标签建立对应关系,并根据对应关系进行分类聚合,这种分类方式不再需要人工干预处理,智能化的将待测文章内容进行分类,提高了分类的精准率,降低了人工成本,根据待测文章内容对应的属性标签可以将其以不同属性标签的方式曾现在用户眼前,极大提高了用户的体验感。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,并可依照说明书的内容予以实施,以下以本专利技术的较佳实施例并配合附图详细说明如后。本专利技术的具本文档来自技高网...

【技术保护点】
1.一种内容分类聚合方法,其特征在于包括:建立文章标签,获取在线平台上的不同种类的原始文章内容以及待测文章内容,当所述原始文章内容和所述待测文章内容均不为评论类文章时,根据不同种类建立与所述原始文章内容对应的属性标签,将所述属性标签与所述原始文章内容建立映射关系;高频词归纳,采用分词器对不同种类的所述原始文章内容进行解构并分别提取每个所述原始文章内容对应的高频词组,并将每个所述高频词组与所述属性标签建立映射关系;建立线性模型,将每个所述高频词组分别输入至若干待训练线性模型中进行训练并得到与所述属性标签对应的已训练线性模型;内容分类,根据不同所述已训练线性模型对待测文章内容进行筛选并匹配出对应的所述属性标签。

【技术特征摘要】
1.一种内容分类聚合方法,其特征在于包括:建立文章标签,获取在线平台上的不同种类的原始文章内容以及待测文章内容,当所述原始文章内容和所述待测文章内容均不为评论类文章时,根据不同种类建立与所述原始文章内容对应的属性标签,将所述属性标签与所述原始文章内容建立映射关系;高频词归纳,采用分词器对不同种类的所述原始文章内容进行解构并分别提取每个所述原始文章内容对应的高频词组,并将每个所述高频词组与所述属性标签建立映射关系;建立线性模型,将每个所述高频词组分别输入至若干待训练线性模型中进行训练并得到与所述属性标签对应的已训练线性模型;内容分类,根据不同所述已训练线性模型对待测文章内容进行筛选并匹配出对应的所述属性标签。2.如权利要求1所述的一种内容分类聚合方法,其特征在于:当所述原始文章内容和所述待测文章内容均为评论类文章时,执行以下步骤:建立热词库,获取若干线上平台的真实评论,根据若干所述真实评论建立热词库;整理热词库,将所述热词库中的若干真实评论进行属性分类并得到字数属性和质量属性;丰富热词库,使用word2vec从所述热词库中推演出近义词库,使用所述近义词库对不同所述字数属性的所述真实评论进行逐步迭代并得到已丰富热词库;评论分类,将所述热词库和所述待测文章内容输入至贪婪匹配模型中进行分类,所述贪婪匹配模型在所述热词库中片匹配出对应的所述质量属性。3.如权利要求2所述的一种内容分类聚合方法,其特征在于:所述整理热词库具体为将所述热词库中的若干真实评论依次按照字数多少进行分类及按照质量的好还进行分类,所述质量属性为好评论、差评论、中等评论。4.如权利要求1所述的一种内容分类聚合方法,其特征在于:每个所述高频词组包含若干高频词汇,所述建立线性模型之前还包括高频词标准化处理,统计每个所述高频词汇在对应的所述原始文章中的当前出现次数,所述原始文章内容中最多出现次数和最少出现数;根据所述当前出现次数、最多出现此数及最少出现次数计算所述高频词汇对应的权重,根据所述权重对每个所述高频词组中的所述高频词汇进行权重排序。5.如权利要求1所述的一种内容分类聚合方法,其特征在于:所述内容分类具体为:将待测文章内容分别输入值不同所述已训练线性模型中,每个所述已训练线性模型输出对应的相性值,筛选出最大所述相性值对应所述已训练...

【专利技术属性】
技术研发人员:李剑陈星
申请(专利权)人:广州品唯软件有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1