一种微信公众号公号主题分类方法及装置制造方法及图纸

技术编号:24708113 阅读:26 留言:0更新日期:2020-06-30 23:59
本发明专利技术适用于微信公众号广告投放技术领域,提供了一种微信公众号公号主题分类方法及装置,通过依次提取微信公号的10篇历史文章数据,人工标注的基于企业广投放业务划分的文章主题,主题为十八个预设主题类型中的一种,清洗文章数据,训练Word2Vec模型,获取embedding,最后训练TextCNN深度学习模型以获得分类模型,获取待预测的微信公众号的10篇历史文章数据,清洗数据,获取embedding,通过训练后的分类模型进行主题分类,输出文章的主题类型;根据所得的所有文章的主题类型,将含有文章数量比例最大的至少一个主题作为微信公众号的主题类型并输出,通过判断微信公众号主题类型是否符合当前业务下的投放标准,为广告投放提供数据上的参考。

【技术实现步骤摘要】
一种微信公众号公号主题分类方法及装置
本专利技术属于微信公众号广告投放领域,尤其涉及一种微信公众号公号主题分类方法及装置。
技术介绍
微信公众平台主要面向名人、政府、媒体、企业等机构推出的合作推广业务。在这里可以通过渠道将品牌推广给线上平台作用。在微信公众号上进行广告推广是一种常见的广告推广方式。但是企业在进行广告投放时需要考虑公众号主题类型是否符合业务场景下的投放标准,进而影响投资回报率,投资回报率是指通过投资而应返回的价值,即企业从一项投资活动中得到的经济回报,因此需要一种能够对微信公众号主题类型进行预测的技术。
技术实现思路
本专利技术提供一种微信公众号公号主题分类方法及装置,旨在解决不能够对微信公众号的主题类型进行预测的问题。本专利技术是这样实现的,一种微信公众号公号主题分类方法,包括以下步骤:S1、提取微信公号的10篇历史文章数据,人工标注的基于企业广投放业务划分的文章主题,所述主题为十八个预设主题类型中的一种;S2、清洗文章数据,训练Word2Vec模型,获取embedding,最后训练TextCNN深度学习模型以获得分类模型;S3、获取待预测的微信公众号的10篇历史文章数据,清洗数据,获取embedding,通过训练后的分类模型进行主题分类,输出文章的主题类型;S4、根据步骤S3获得的所有文章的主题类型,将含有文章数量比例最大的至少一个主题作为微信公众号的主题类型并输出。优选的,所述清洗文章数据具体为:对文章数据进行分词处理。<br>优选的,所述训练Word2Vec模型具体为:根据Word2Vec算法对所述的分词处理结果进行向量转换,得到分词结果向量,将分词得到的词段映射为第一词向量,并根据所述第一词向量构建第一初始矩阵;根据所述词段在所述训练文本集的初始文本中出现的概率和该词段对应的第一词向量得到第二初始矩阵。优选的,所述训练TextCNN深度学习模型以获得分类模型具体为:将第一初始矩阵、第二初始矩阵分别作为TextCNN模型两个通道的输入,对应的文章主题类型作为输出,利用TextCNN模型对所述训练文本集进行训练得到分类模型。本专利技术还提供一种微信公众号公号主题分类装置,包括:数据采集模块,用于提取微信公号的10篇历史文章数据,人工标注的基于企业广投放业务划分的文章主题,所述主题为十八个预设主题类型中的一种;数据处理模块,用于清洗文章数据,训练Word2Vec模型,获取embedding;分类模型训练模块,用于训练TextCNN深度学习模型以获得分类模型。优选的,所述数据处理模块还用于:对文章数据进行分词处理。优选的,所述数据处理模块还用于:根据Word2Vec算法对所述的分词处理结果进行向量转换,得到分词结果向量,将分词得到的词段映射为第一词向量,并根据所述第一词向量构建第一初始矩阵;根据所述词段在所述训练文本集的初始文本中出现的概率和该词段对应的第一词向量得到第二初始矩阵。优选的,所述分类模型训练模块还用于:将第一初始矩阵、第二初始矩阵分别作为TextCNN模型两个通道的输入,对应的文章主题类型作为输出,利用TextCNN模型对所述训练文本集进行训练得到分类模型。与现有技术相比,本专利技术的有益效果是:本专利技术的一种微信公众号公号主题分类方法及装置,通过依次提取微信公号的10篇历史文章数据,人工标注的基于企业广投放业务划分的文章主题,主题为十八个预设主题类型中的一种,清洗文章数据,训练Word2Vec模型,获取embedding,最后训练TextCNN深度学习模型以获得分类模型,获取待预测的微信公众号的10篇历史文章数据,清洗数据,获取embedding,通过训练后的分类模型进行主题分类,输出文章的主题类型;根据所得的所有文章的主题类型,将含有文章数量比例最大的至少一个主题作为微信公众号的主题类型并输出。本专利技术通过判断微信公众号主题类型是否符合当前业务下的投放标准,能够为广告投放提供数据上的参考。附图说明图1为本专利技术的一种微信公众号公号主题分类方法的流程示意图。图2为本专利技术的一种微信公众号公号主题分类装置的结构示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。请参阅图1,本专利技术提供一种技术方案:一种微信公众号公号主题分类方法及装置,一种微信公众号公号主题分类方法包括以下步骤:S1、在数据库内提取微信公号的10篇历史文章数据,人工标注的基于企业广投放业务划分的文章主题,主题为十八个预设主题类型中的一种。S2、清洗文章数据,训练Word2Vec模型,获取embedding,根据Word2Vec算法对的分词处理结果进行向量转换,得到分词结果向量,将分词得到的词段映射为第一词向量,并根据第一词向量构建第一初始矩阵;根据词段在训练文本集的初始文本中出现的概率和该词段对应的第一词向量得到第二初始矩阵。最后训练TextCNN深度学习模型以获得分类模型,将模型参数传输到磁盘内进行存储以便后续使用,将第一初始矩阵、第二初始矩阵分别作为TextCNN模型两个通道的输入,对应的文章主题类型作为输出,利用TextCNN模型对训练文本集进行训练得到分类模型。S3、在数据库内获取待预测的微信公众号的10篇历史文章数据,清洗文章数据,对文章数据进行分词处理,获取embedding,根据Word2Vec算法对的分词处理结果进行向量转换,得到分词结果向量,将分词得到的词段映射为第一词向量,并根据第一词向量构建第一初始矩阵,根据词段在训练文本集的初始文本中出现的概率和该词段对应的第一词向量得到第二初始矩阵。将第一初始矩阵、第二初始矩阵分别输入训练后的分类模型进行主题分类,输出文章的主题类型。S4、根据步骤S3获得的所有文章的主题类型,将含有文章数量比例最大的至少一个主题作为微信公众号的主题类型并输出。请参阅图2,本专利技术的一种微信公众号公号主题分类装置,包括数据采集模块、数据处理模块、分类模型训练模块。数据采集模块用于提取微信公号的10篇历史文章数据,人工标注的基于企业广投放业务划分的文章主题,主题为十八个预设主题类型中的一种。数据处理模块用于清洗文章数据,对文章数据进行分词处理,训练Word2Vec模型,获取embedding,根据Word2Vec算法对的分词处理结果进行向量转换,得到分词结果向量,将分词得到的词段映射为第一词向量,并根据第一词向量构建第一初始矩阵,根据词段在训练文本集的初始文本中出现的概率和该词段对应的第一词向量得到第二初始矩阵。分类模型训练模块用于训练TextCNN深度学习模型以获得分类模型,将第一初始矩阵、第二初始矩阵分别作为TextCNN模型两个通道的输入,对应的文本类型作为输出,利用TextCNN模型对训练文本集进行训练得到分类模型。分类模型能够进本文档来自技高网...

【技术保护点】
1.一种微信公众号公号主题分类方法,其特征在于:包括以下步骤:/nS1、提取微信公号的10篇历史文章数据,人工标注的基于企业广投放业务划分的文章主题,所述主题为十八个预设主题类型中的一种;/nS2、清洗文章数据,训练Word2Vec模型,获取embedding,最后训练TextCNN深度学习模型以获得分类模型;/nS3、获取待预测的微信公众号的10篇历史文章数据,清洗数据,获取embedding,通过训练后的分类模型进行主题分类,输出文章的主题类型;/nS4、根据步骤S3获得的所有文章的主题类型,将含有文章数量比例最大的至少一个主题作为微信公众号的主题类型并输出。/n

【技术特征摘要】
1.一种微信公众号公号主题分类方法,其特征在于:包括以下步骤:
S1、提取微信公号的10篇历史文章数据,人工标注的基于企业广投放业务划分的文章主题,所述主题为十八个预设主题类型中的一种;
S2、清洗文章数据,训练Word2Vec模型,获取embedding,最后训练TextCNN深度学习模型以获得分类模型;
S3、获取待预测的微信公众号的10篇历史文章数据,清洗数据,获取embedding,通过训练后的分类模型进行主题分类,输出文章的主题类型;
S4、根据步骤S3获得的所有文章的主题类型,将含有文章数量比例最大的至少一个主题作为微信公众号的主题类型并输出。


2.如权利要求1所述的一种微信公众号公号主题分类方法,其特征在于:所述清洗文章数据具体为:对文章数据进行分词处理。


3.如权利要求2所述的一种微信公众号公号主题分类方法,其特征在于:所述训练Word2Vec模型具体为:根据Word2Vec算法对所述的分词处理结果进行向量转换,得到分词结果向量,将分词得到的词段映射为第一词向量,并根据所述第一词向量构建第一初始矩阵;根据所述词段在所述训练文本集的初始文本中出现的概率和该词段对应的第一词向量得到第二初始矩阵。


4.如权利要求3所述的一种微信公众号公号主题分类方法,其特征在于:所述训练TextCNN深度学习模型以获得分类模型具体为:将第一初始矩阵、第二初始矩阵分别作为T...

【专利技术属性】
技术研发人员:田东坡
申请(专利权)人:上海昌投网络科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1