【技术实现步骤摘要】
一种自媒体内容热度预测方法
[0001]本专利技术涉及文本分析
,具体地,涉及一种自媒体内容热度预测方法。
技术介绍
[0002]自媒体运营者在运营自媒体时,通常的步骤是熟悉平台规则、分析平台用户特征和喜好、分析爆款文章优点、选取合适的标题和配图、对文章内容进行润色和选取合适的时机进行发表等等。以上每个步骤都对一篇文章是否能获得大量的关注和热度是至关重要,通常评价一篇自媒体文章的好坏,包括有主观评价和客观评价,而现有自媒体运营者对即将发表的文章进行热度预测主要是依靠主观评价,但由于主观评价无法量化且热度评价结果因为不同评价人所带来的差异也较大,因此如何能帮助自媒体运营者对自己即将发表的文章准确的进行热度预测,并根据热度预测结果进行修改来提高文章的热度成为亟待解决的问题。
技术实现思路
[0003]为能更准确的预测自媒体内容热度,本专利技术提供了一种自媒体内容热度预测方法,所述方法包括:获取平台信息,基于所述平台信息构建对应的停用词词典,爬取若干平台数据得到数据集,将所述数据集输入到第一中文预训练模型,并 ...
【技术保护点】
【技术特征摘要】
1.一种自媒体内容热度预测方法,其特征在于,所述方法包括以下步骤:获取平台信息,基于所述平台信息构建对应的停用词词典,爬取若干平台数据得到数据集,将所述数据集输入到第一中文预训练模型,并对所述第一中文预训练模型进行训练得到第二中文预训练模型;获取用户第一文章中的关键词;基于所述关键词,获取预设条件,基于所述预设条件,爬取预设平台对应若干第二文章及所述第二文章对应的热度评价数据;基于所述关键词和所述预设平台的目标词,构造所述第二文章热度距离特征向量;构造所述第二文章波动特征向量;将所有第二文章及对应的热度评价数据输入到所述第二中文预训练模型,所述第二中文预训练模型对第二文章及对应的热度评价数据进行处理得到第二文章内容的词向量数据集,并将所述词向量数据集对应数据与所述热度距离特征向量的数据集对应数据和所述波动特征向量的数据集对应数据进行拼接得到第一向量数据集,将所述第一向量数据集输入到预设神经网络模型,并对所述预设神经网络模型进行训练得到第三中文预训练模型;将所述第一文章输入到所述第三中文预训练模型中进行分析得到分析结果,基于所述分析结果,对所述第一文章进行热度评分。2.根据权利要求1所述的一种自媒体内容热度预测方法,其特征在于,获取用户第一文章中的关键词包括:对所述第一文章中每个句子进行分词得到若干单词并对所述若干单词进行词性标注;获取预设词性,将所述若干单词的词性与所述预设词性进行匹配,将与所述预设词性匹配成功的词性对应的单词进行保留得到若干第一单词,将与所述预设词性匹配失败的词性对应的单词进行过滤;将所述第一单词与所述预设平台的停用词词典中的单词进行匹配,将与所述停用词词典中的单词匹配成功对应的所述第一单词进行过滤,将与所述停用词词典中的单词匹配失败对应的所述第一单词进行保留得到若干第二单词;获取所述第二单词长度和预设单词长度范围,将位于所述预设单词长度范围内对应的所述第二单词进行过滤,将超过所述预设单词长度范围对应的所述第二单词进行保留得到若干第三单词;基于所述第三单词,构造关键词图,基于文本排序公式,迭代计算所述关键词图中各节点的权重值直至收敛;对所述关键词图中各节点的权重值进行倒序排序,得到预设个数节点对应的单词,作为所述第一文章的关键词。3.根据权利要求2所述的一种自媒体内容热度预测方法,其特征在于,基于所述第三单词,构造关键词图,基于文本排序公式,迭代计算所述关键词图中各节点的权重值直至收敛包括:构造关键词图G=(V,E),G为关键词图,V为所述第三单词构成的节点集合,E为所述节点集合中两点之间连边的集合;采用下列公式迭代计算所述关键词图中各节点的权重值直至收敛:
,为节点的权重值,为节点的权重值,为节点的前驱节点集合,为节点的后继节点集合,d为阻尼系数,为节点和节点的连边权重值,为节点和节点连边权重值。4.根据权利要求1所述的一种自媒体内容热度预测方法,其特征在于,爬取预设平台对应若干第二文章及所述第二文章对应的热度评价数据包括:获取所述预设平台类型信息,基于所述预设平台类型信息,获取用于爬取所述预设平台数据的爬虫和所述预设平台热度评价因子,基于所述预设平台热度评价因子,所述爬虫爬取所述第二文章及所述第二文章对应的热度评价数据并存储在关系数据库中。5.根据权利要求1所述的一种自媒体内容热度...
【专利技术属性】
技术研发人员:谢丽菁,邓翼,童颖,何以然,
申请(专利权)人:成都桉尼维尔信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。