基于长文本标签化的内容召回方法及系统技术方案

技术编号:28466958 阅读:29 留言:0更新日期:2021-05-15 21:33
本申请涉及一种基于长文本标签化的内容召回方法及系统,其中,该方法包括:标签体系构建步骤,用于构建标签体系;数据预处理步骤,用于获取原始数据集并基于所述原始数据集及所述标签体系构建输入数据和字典;新闻分类步骤,用于构建一TextCNN模型并利用一测试数据集及一标注数据集训练所述TextCNN模型为目标TextCNN模型,利用所述目标TextCNN模型对所述测试数据集进行分类预测,输出分类标签;内容召回步骤,用于将所述用户数据、新闻内容及分类标签表示为图,根据所述新闻节点相对于用户节点的相关性对所述新闻节点进行筛选并召回。通过本申请利用TextCNN对数据进行预测分类标签,基于分类标签对新闻进行召回,提高召回的多样性。多样性。多样性。

【技术实现步骤摘要】
基于长文本标签化的内容召回方法及系统


[0001]本申请涉及互联网
,特别是涉及基于长文本标签化的内容召回方法及系统。

技术介绍

[0002]而新闻内容召回工作是新闻推荐领域中的一项重要工作。现有技术中,由于新闻篇数多,新闻的特征总量大,通过传统的新闻召回方式召回的新闻资讯有些不符合用户兴趣。
[0003]文本多标签分类作为自然语言处理中一个重要的部分,其主要目的是将新闻文本内容按照构建好的分类体系进行划分,给新闻内容打标签可以辅助用户分析和用户洞察,帮助业务人员快速的对新闻有一个认知,然后发现里面显著的特征,获得一些商业灵感,有助于我们发现用户的偏好,为用户推荐更好更恰当的新闻,还可以丰富数据的维度,辅助业务落地。
[0004]而已知每个新闻文本有多个标签,目前主要采用机器学习和深度学习算法进行文本分类,利用word2vec(word to vector,用于将单词转换成向量形式的工具)有效地提取新闻内容中语义信息,构建了基于机器学习和深度学习的分类模型,实现了网络新闻平台上新闻内容的自动分类;效果较好的是基于BERT(Bidirectional Encoder Representation from Transformers,双向注意力神经网络模型)预训练模型的文本分类,但是由于模型较为复杂,目前工业界上线较困难。
[0005]由于显存占用和算力的限制,BERT等预训练语言模型的输入一般来说最长512个token,某些场景下处理长文本分类,BERT可能还不如CNN(Convolutional Neural Networks,卷积神经网络)效果好。但是,尽管CNN在文本分类任务中效果显著,其难以捕获长期的上下文信息和非连续字之间的相关性。BERT虽然强大,但在低耗时场景、少机器场景下,直接拿BERT部署分类模型通常行不通,对于训练一个轻量级的浅层BERT,由于新闻领域与原始训练模型领域的差距,需要重新预训练,即使这样,在加入业务相关特征的时候推断时间上依然是个问题。此外,由于样本分布不平衡导致的分类模型存在很严重的偏向性。

技术实现思路

[0006]本申请实施例提供了一种基于长文本标签化的内容召回方法、系统、计算机设备和计算机可读存储介质,利用TextCNN对数据进行预测分类标签,基于得到的分类标签对新闻进行召回,提高召回的多样性。
[0007]第一方面,本申请实施例提供了一种基于长文本标签化的内容召回方法,包括:
[0008]标签体系构建步骤,用于构建标签体系;
[0009]数据预处理步骤,用于获取原始数据集并基于所述原始数据集及所述标签体系构建输入数据和字典;
[0010]新闻分类步骤,用于构建一TextCNN模型并利用一测试数据集及一标注数据集训
练所述TextCNN模型为目标TextCNN模型,利用所述目标TextCNN模型对所述测试数据集进行分类预测,输出分类标签。
[0011]内容召回步骤,用于将所述用户数据、新闻内容及分类标签表示为图,根据所述新闻节点相对于用户节点的相关性对所述新闻节点进行筛选并召回,具体的,将所述用户数据、新闻内容及分类标签根据用户行为以图的形式表示为用户节点、新闻节点、标签节点并设置节点之间的权重,所述图是由顶点、边及边的权重组成,基于PersonalRank算法计算所述新闻节点相对于用户节点在图上的相关性,根据所述相关性及一预设范围对所述新闻节点进行降序筛选并召回。具体的,PersonalRank算法对通过连接的边为每个节点打分计算相关性,按照相关性从大到小的排序,召回排名前N个新闻,所述N为自然数。
[0012]基于上述步骤,本申请实施例利用TextCNN模型有效解决了现有技术中LSTM模型进行长文本分类容易产生梯度消失的问题,通过图推荐算法PersonalRank算法召回新闻内容,增加召回的多样性。
[0013]在其中一些实施例中,所述新闻分类步骤进一步包括:
[0014]模型构建步骤,用于构建带注意力机制的所述TextCNN模型,该步骤对模型引入注意力机制更便于引入业务相关的特征;
[0015]数据蒸馏步骤,用于基于所述测试数据集对BERT模型进行训练后,利用训练得到的BERT模型对所述未标注数据集进行标注得到标注数据集后,再利用所述测试数据集和标注数据集对TextCNN模型进行训练,得到目标TextCNN模型,该测试数据集、未标注数据集输入到模型中的内容均为基于数据预处理步骤构建的;
[0016]数据标签获取步骤,用于利用所述目标TextCNN模型对所述测试数据集进行分类预测,得到对应的分类标签。
[0017]在其中一些实施例中,所述TextCNN模型进一步包括:
[0018]词向量层,用于将输入数据转化为词向量并输出;
[0019]注意力机制层,用于为每个字创建上下文向量,有效解决了上下文和非连续字之间的的相关性;
[0020]卷积层,用于将所述词向量及所述上下文向量作为字的表示输入所述卷积层进行卷积操作,再使用激活函数激活,每个卷积核都得到了对应的多个特征图feature maps,所述卷积层至少包括6个卷积核,尺寸为2
×
5、3
×
5、5
×
5,每个尺寸各2个;
[0021]池化层,用于对卷积层输出的多个特征图feature maps进行池化操作,可选的,所述池化层使用最大池化max pooling提取出每个特征图feature map的最大值,然后进行级联得到特征表示;
[0022]输出层,用于基于softmax层及Concat vector层进行分类及拼接后输出分类标签。
[0023]在其中一些实施例中,所述数据预处理步骤进一步包括:
[0024]原始数据集获取步骤,用于获取所述原始数据集,所述原始数据集进一步包括:用户数据、新闻内容及新闻标题;
[0025]输入数据构建步骤,用于提取所述新闻内容的关键词,组合所述新闻标题、关键词、新闻内容得到输入数据;
[0026]字典构建步骤,用于对所述输入数据以字为单位分割得到若干字元素并统计每一
字元素的频率,基于一频率阈值min_freq对所述若干字元素筛选、降序排序并基于一设定字典大小max_size构建字典,具体的,基于频率阈值min_freq对频率大于预设频率阈值min_freq的字元素进行排序,取前max_size个元素,按照频率降序构建字典。
[0027]在其中一些实施例中,所述数据蒸馏步骤进一步包括:
[0028]BERT模型训练步骤,利用BERT预训练模型基于所述测试数据集训练所述BERT模型;
[0029]数据标注步骤,用于利用所述BERT模型对所述未标注数据集进行预测,输出准确率大于0.9的作为补充语料,得到标注数据集;
[0030]TextCNN模型训练步骤,用于基于所述测试数据集和所述标注数据集对所述TextCNN模型进行训本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于长文本标签化的内容召回方法,其特征在于,包括:标签体系构建步骤,用于构建标签体系;数据预处理步骤,用于获取原始数据集并基于所述原始数据集及所述标签体系构建输入数据和字典;新闻分类步骤,用于构建一TextCNN模型并利用一测试数据集及一标注数据集训练所述TextCNN模型为目标TextCNN模型,利用所述目标TextCNN模型对所述测试数据集进行分类预测,输出分类标签;内容召回步骤,用于将所述用户数据、新闻内容及分类标签表示为图,根据所述新闻节点相对于用户节点的相关性对所述新闻节点进行筛选并召回。2.根据权利要求1所述的基于长文本标签化的内容召回方法,其特征在于,所述新闻分类步骤进一步包括:模型构建步骤,用于构建带注意力机制的所述TextCNN模型;数据蒸馏步骤,用于基于所述测试数据集对一BERT模型进行训练后,利用训练得到的BERT模型对一未标注数据集进行标注得到所述标注数据集后,再利用所述测试数据集和标注数据集对TextCNN模型进行训练,得到目标TextCNN模型;数据标签获取步骤,用于利用所述目标TextCNN模型对所述测试数据集进行分类预测,得到对应的分类标签。3.根据权利要求1或2所述的基于长文本标签化的内容召回方法,其特征在于,所述数据预处理步骤进一步包括:原始数据集获取步骤,用于获取所述原始数据集,所述原始数据集进一步包括:用户数据、新闻内容及新闻标题;输入数据构建步骤,用于提取所述新闻内容的关键词,组合所述新闻标题、关键词、新闻内容得到输入数据;字典构建步骤,用于对所述输入数据以字为单位分割得到若干字元素并统计每一字元素的频率,基于一频率阈值对所述若干字元素筛选、降序排序并基于一设定字典大小构建字典。4.根据权利要求2所述的基于长文本标签化的内容召回方法,其特征在于,所述数据蒸馏步骤进一步包括:BERT模型训练步骤,利用BERT预训练模型基于所述测试数据集训练所述BERT模型;数据标注步骤,用于利用所述BERT模型对所述未标注数据集进行预测,得到标注数据集;TextCNN模型训练步骤,用于基于所述测试数据集和所述标注数据集对所述TextCNN模型进行训练,得到目标TextCNN模型。5.根据权利要求1所述的基于长文本标签化的内容召回方法,其特征在于,所述TextCNN模型计算注意力机制的attention权重时使用以任一字为中心的高斯核函数进行衰减。6.一种基于长文...

【专利技术属性】
技术研发人员:陈倩倩景艳山
申请(专利权)人:上海明略人工智能集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1