基于长文本标签化的内容召回方法及系统技术方案

技术编号：28466958 阅读：29 留言：0更新日期：2021-05-15 21:33

本申请涉及一种基于长文本标签化的内容召回方法及系统，其中，该方法包括：标签体系构建步骤，用于构建标签体系；数据预处理步骤，用于获取原始数据集并基于所述原始数据集及所述标签体系构建输入数据和字典；新闻分类步骤，用于构建一TextCNN模型并利用一测试数据集及一标注数据集训练所述TextCNN模型为目标TextCNN模型，利用所述目标TextCNN模型对所述测试数据集进行分类预测，输出分类标签；内容召回步骤，用于将所述用户数据、新闻内容及分类标签表示为图，根据所述新闻节点相对于用户节点的相关性对所述新闻节点进行筛选并召回。通过本申请利用TextCNN对数据进行预测分类标签，基于分类标签对新闻进行召回，提高召回的多样性。多样性。多样性。

全部详细技术资料下载

【技术实现步骤摘要】
基于长文本标签化的内容召回方法及系统

[0001]本申请涉及互联网
，特别是涉及基于长文本标签化的内容召回方法及系统。

技术介绍

[0002]而新闻内容召回工作是新闻推荐领域中的一项重要工作。现有技术中，由于新闻篇数多，新闻的特征总量大，通过传统的新闻召回方式召回的新闻资讯有些不符合用户兴趣。
[0003]文本多标签分类作为自然语言处理中一个重要的部分，其主要目的是将新闻文本内容按照构建好的分类体系进行划分，给新闻内容打标签可以辅助用户分析和用户洞察，帮助业务人员快速的对新闻有一个认知，然后发现里面显著的特征，获得一些商业灵感，有助于我们发现用户的偏好，为用户推荐更好更恰当的新闻，还可以丰富数据的维度，辅助业务落地。
[0004]而已知每个新闻文本有多个标签，目前主要采用机器学习和深度学习算法进行文本分类，利用word2vec(word to vector，用于将单词转换成向量形式的工具)有效地提取新闻内容中语义信息，构建了基于机器学习和深度学习的分类模型，实现了网络新闻平台上新闻内容的自动分类；效果较好的是基于BERT(Bidirectional Encoder Representation from Transformers，双向注意力神经网络模型)预训练模型的文本分类，但是由于模型较为复杂，目前工业界上线较困难。
[0005]由于显存占用和算力的限制，BERT等预训练语言模型的输入一般来说最长512个token，某些场景下处理长文本分类，BERT可能还不如CNN(Convoluti...

【技术保护点】

【技术特征摘要】
1.一种基于长文本标签化的内容召回方法，其特征在于，包括：标签体系构建步骤，用于构建标签体系；数据预处理步骤，用于获取原始数据集并基于所述原始数据集及所述标签体系构建输入数据和字典；新闻分类步骤，用于构建一TextCNN模型并利用一测试数据集及一标注数据集训练所述TextCNN模型为目标TextCNN模型，利用所述目标TextCNN模型对所述测试数据集进行分类预测，输出分类标签；内容召回步骤，用于将所述用户数据、新闻内容及分类标签表示为图，根据所述新闻节点相对于用户节点的相关性对所述新闻节点进行筛选并召回。2.根据权利要求1所述的基于长文本标签化的内容召回方法，其特征在于，所述新闻分类步骤进一步包括：模型构建步骤，用于构建带注意力机制的所述TextCNN模型；数据蒸馏步骤，用于基于所述测试数据集对一BERT模型进行训练后，利用训练得到的BERT模型对一未标注数据集进行标注得到所述标注数据集后，再利用所述测试数据集和标注数据集对TextCNN模型进行训练，得到目标TextCNN模型；数据标签获取步骤，用于利用所述目标TextCNN模型对所述测试数据集进行分类预测，得到对应的分类标签。3.根据权利要求1或2所述的基于长文本标签化的内容召回方法，其特征在于，所述数据预处理步骤进一步包括：原始数据集获取步骤，用于获取所述原始数据集，所述原始数据集进一步包括：用户数据、新闻内容及新闻标题；输入数据构建步骤，用于提取所述新闻内容的关键词，组合所述新闻标题、关键词、新闻内容得到输入数据；字典构建步骤，用于对所述输入数据以字为单位分割得到若干字元素并统计每一字元素的频率，基于一频率阈值对所述若干字元素筛选、降序排序并基于一设定字典大小构建字典。4.根据权利要求2所述的基于长文本标签化的内容召回方法，其特征在于，所述数据蒸馏步骤进一步包括：BERT模型训练步骤，利用BERT预训练模型基于所述测试数据集训练所述BERT模型；数据标注步骤，用于利用所述BERT模型对所述未标注数据集进行预测，得到标注数据集；TextCNN模型训练步骤，用于基于所述测试数据集和所述标注数据集对所述TextCNN模型进行训练，得到目标TextCNN模型。5.根据权利要求1所述的基于长文本标签化的内容召回方法，其特征在于，所述TextCNN模型计算注意力机制的attention权重时使用以任一字为中心的高斯核函数进行衰减。6.一种基于长文...

【专利技术属性】
技术研发人员：陈倩倩，景艳山，
申请(专利权)人：上海明略人工智能集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人