一种内容识别方法、内容分发方法、装置及电子设备制造方法及图纸

技术编号:19903558 阅读:56 留言:0更新日期:2018-12-26 02:57
本发明专利技术实施例提供了一种内容识别、内容分发方法、装置及电子设备,涉及数据处理技术领域,内容识别方法包括:可以将待识别内容的标题经过预处理后输入至预设的时效性内容分类模型,获得标题为时效性内容标题的概率,若概率大于预设概率阈值,则待识别内容为时效性内容,若概率不大于预设概率阈值,则待识别内容为非时效性内容。采用本发明专利技术实施例可以自动识别时效性内容,基于内容识别方法,内容分发方法可以将识别出的时效性内容有针对性地分发给用户。

【技术实现步骤摘要】
一种内容识别方法、内容分发方法、装置及电子设备
本专利技术涉及数据处理
,特别是涉及一种内容识别、内容分发方法、装置及电子设备。
技术介绍
近年来,随着网络技术的发展,人们可以越来越便捷的从网络中获取新内容,同时也对内容的时效性要求越来越高。新媒体时代催生了海量用户原创内容(UserGeneratedContent,简称UGC),这些自媒体借助各内容分发平台推荐算法将自制内容分发给用户,用户的反馈又反作用于推荐算法和内容生产,形成了良好的环路生态。专利技术人在实现本专利技术的过程中发现,现有技术至少存在如下问题:内容分发平台一般都需要人工审核,受人力和审核时间限制,部分高时效性的内容还没过审核可能已经过了其时效期,比如一些爆发性的新闻热点事件可能只有几个小时的关注度,过几个小时就没有人关注了。另一方面,不是所有的用户对时效性内容都有消费意愿,现有技术不能对时效性内容做到定向分发。可见,现有技术虽然能够实现对时效性内容的识别,但是上述方案仅仅是依靠人工审核,审核时间长,效率低,无法自动识别效性内容且分发对象不够明确。
技术实现思路
本专利技术实施例的目的在于提供一种内容识别、分发方法本文档来自技高网...

【技术保护点】
1.一种内容识别方法,其特征在于,包括:获得待识别内容的标题;对所述待识别内容的标题进行预处理,获得至少一个标题字和/或词;将各个标题字和/或词按其在标题中出现的顺序输入至预设的基于长短期记忆循环神经网络LSTM的时效性内容分类模型;所述预设的基于LSTM的时效性内容分类模型是通过拟合泊松分布曲线得到的样本训练后的模型;所述时效性内容分类模型,按输入的顺序对标题字和/或词进行顺序计算,获得标题为时效性内容标题的概率,若所述概率大于预设概率阈值,则所述待识别内容为时效性内容,若所述概率不大于预设概率阈值,则所述待识别内容为非时效性内容。

【技术特征摘要】
1.一种内容识别方法,其特征在于,包括:获得待识别内容的标题;对所述待识别内容的标题进行预处理,获得至少一个标题字和/或词;将各个标题字和/或词按其在标题中出现的顺序输入至预设的基于长短期记忆循环神经网络LSTM的时效性内容分类模型;所述预设的基于LSTM的时效性内容分类模型是通过拟合泊松分布曲线得到的样本训练后的模型;所述时效性内容分类模型,按输入的顺序对标题字和/或词进行顺序计算,获得标题为时效性内容标题的概率,若所述概率大于预设概率阈值,则所述待识别内容为时效性内容,若所述概率不大于预设概率阈值,则所述待识别内容为非时效性内容。2.根据权利要求1所述方法,其特征在于,所述基于LSTM的时效性内容分类模型的训练步骤,包括:获得预设数量的时效性内容标题和非时效性内容标题,分别添加正样本或负样本的标签,作为时效性内容的正样本和负样本;利用时效性内容的正样本和负样本,分别利用指定的各个预处理方式对LSTM神经网络进行训练。3.根据权利要求2所述的方法,其特征在于,所述获得预设数量的时效性内容标题和非时效性内容标题,分别添加正样本或负样本的标签,作为时效性内容的正样本和负样本的步骤,包括:将内容库中每个已分发内容的数据表现曲线分别拟合为泊松分布曲线;所述数据表现曲线为:已分发内容的点击率随时间变化的曲线或视频的播放时长随时间变化的曲线;若拟合的泊松分布曲线的方差λ小于预设方差阈值,则为此泊松分布曲线对应的内容的标题添加正样本标签,确定为时效性内容的正样本;或者,若拟合的泊松分布曲线的方差λ不小于预设方差阈值,则为此泊松分布曲线对应的内容的标题添加负样本标签,确定为时效性内容的负样本。4.根据权利要求2所述的方法,其特征在于:所述指定的各个预处理方式,包括:分字处理、分词处理和汉语语言模型N-Gram处理。5.根据权利要求2所述的方法,其特征在于,所述利用时效性内容的正样本和负样本,分别利用指定的各个预处理方式对LSTM神经网络进行训练的步骤,包括:选择预设数量个样本,所述样本包括正样本和负样本;选择一种预处理方式;针对每个样本,获得至少一个样本标题字和/或词;将各个样本标题字和/或词按其在标题中出现的顺序输入至预设的基于LSTM的初始时效性内容分类神经网络;所述初始时效性内容分类神经网络,按输入的顺序对标题词语进行顺序计算,获得每个标题为时效性内容标题的概率;记录每个标题为时效性内容标题的概率;将所记录的每个标题为时效性内容标题的概率及其分类标签,代入预设的损失函数,获得损失函数值;根据损失函数值,判断当前时效性内容分类神经网络是否收敛;如果收敛,记录损失函数值和所述当前时效性内容神经网络每层的权重参数W和偏置参数b,将所述当前时效性内容神经网络确定为待确定神经网络;如果不收敛,更新所述当前时效性内容神经网络各层的权重参数W和偏置参数b;将各个样本标题字和/或词按其在标题中出现的顺序输入至调整参数后的LSTM时效性内容分类神经网络,得到各标题为时效性内容的概率,返回所述记录每个样本为时效性内容的概率的步骤;判断指定的各个预处理方式是否都训练完成;如果否,则选择下一种预处理方式,返回所述针对每个样本,获得至少一个样本标题字和/或词的步骤;如果是,将在模型收敛时损失函数值最小的待确定神经网络确定为时效性内容分类神经网络;将所述时效性内容分类神经网络对应的预处理方式,确定为时效性内容分类模型的预处理方式;在时效性内容分类神经网络后增加预设阈值判断部分,将时效性内容分类神经网络与预设概率阈值判断部分组合成时效性内容分类模型。6.根据权利要求5所述的方法,其特征在于,所述损失函数包括:其中,N为样本的数量,oi为第i个样本的输出值,yi为第i个样本的标签。7.根据权利要求5所述的方法,其特征在于,所述更新所述当前时效性内容神经网络各层权重参数W和偏置参数b的步骤,包括:将损失函数分别对各层权重参数W和偏置参数b求偏导数,得到所述各层权重参数W和偏置参数b的梯度;按照预设学习率采用梯度下降的方式更新所述各层权重参数W和偏置参数b。8.根据权利要求2所述的方法,其特征在于:还包括:所述LSTM时效性内容分类模型的更新步骤;所述LSTM时效性内容分类模型的更新步骤,包括:每隔一段预设时间,更新时效性内容的正样本和负样本;利用更新后的时效性内容的正样本和负样本经过时效性内容分类模型的预处理方式训练当前LSTM时效性内容分类神经网络,获得更新后的LSTM时效性内容分类模型。9.根据权利要求8所述的方法,其特征在于,所述每隔一段预设时间,更新时效性内容的正样本和负样本的步骤,包括:每隔一段预设时间,删除部分当前时效性内容正样本和负样本,将内容库中分发效果好的部分时效性内容,确定为新增的时效性内容正样本,将内容库中分发效果差的部分非时效性内容,确定为新增的时效性内容负样本;其中,分发效果好的内容包括:点击率大于预设第一点击率阈值的时效性内容和观看时长大于预设第一观看时长阈值的时效性内容;分发效果差的内容包括:点击率小于预设第二点击率阈值的非时效性内容,和点击率大于预设第一点击率阈值但观看时长小于预设第二观看时长阈值的非时效性内容。10.一种内容分发方法,其特征在于,包括:获得当前用户对被识别为时效性内容的消费行为;根据所述消费行为,判断所述当前用户是否具有对时效性内容的消费意愿;如果有,则从内容库中预设有效期内的时效性内容中,获得预设数量的当前用户未消费过的时效性内容;其中,所述内容库中的时效性内容为采用预先构建的基于长短期记忆循环神经网络LSTM的时效性内容分类模型识别出的内容库中的时效性内容;将获得的时效性内容分发给当前用户。11.根据权利要求10所述的方法,其特征在于,所述获得用户对所述时效性内容的消费行为的步骤,包括:收集用户对内容库中已分发的所述时效性内容的正向行为和负向行为;其中,所述正向行为包括:对时效性内容的点击、观看、点赞、收藏和分享,负向行为包括:没有正向行为和点击了显示的不喜欢按键。12.根据权利要求10所述的方法,其特征在于,所述判断所述当前用户是否具有对时效性内容的消费意愿的步骤,包括:计算当前用户的消费意愿;所述消费意愿的计算包括:其中,ai为当前用户对展示给当前用户的时效性内容的正向行为或负向行为的次数或观看时长,bi为当前用户对展示给当前用户的时效性内容的正向行为或负向行为对应的预设权重,N为时效性内容展示给当前用户的次数;将消费意愿大于预设意愿阈值的用户定义为有时效性内容消费意愿的用户。13.根据权利要求10所述的方法,其特征在于,所述采用预先构建的基于长短期记忆循环神经网络LSTM的时效性内容分类模型识别出内容库中的时效性内容的步骤,包括:获得待识别内容的标题;对所述待识别内容的标题进行预处理,获得至少一个标题字和/或词;将各个标题字和/或词按其在标题中出现的顺序输入至预设的基于长短期记忆循环神经网络LSTM的时效性内容分类模型;所述预设的基于LSTM的时效性内容分类模型是通过拟合泊松分布曲线得到的样本训练后的模型;所述时效性内容分类模型,按输入的顺序对标题字和/或词进行顺序计算,获得标题为时效性内容标题的概率,若所述概率大于预设概率阈值,则所述待识别内容为时效性内容,若所述概率不大于预设概率阈值,则所述待识别内容为非时效性内容。14.根据权利要求10所述的方法,其特征在于,所述将所述时效性内容分发给有时效性内容消费意愿的用户的步骤,包括:根据用户对所述时效性内容的消费意愿,从内容库中选取一定数量的时效性内容分发给用户;所述选取一定数量为预设数量与所述消费意愿的乘积。15.一种内容识别装置,其特征在于,包括:获得模块,用于获得待识别内容的标题;预处理模块,用于对所述待识别内容的标题进行预处理,获得至少一个标题字和/或词;输入模块,用于将各个标题字和/或词按其在标题中出现的顺序输入至预设的基于长短期记忆循环神经网络LSTM的时效性内容分类模型;所述预设的基于LSTM的时效性内容分类模型是通过拟合泊松分布曲线得到的样本训练后的模型;识别模块,用于所述时效性内容分类模型,按输入的顺序对标题字和/或词进行顺序计算,获得标题为时效性内容标题的概率,若所述概率大于预设概率阈值,则所述待识别内容为时效...

【专利技术属性】
技术研发人员:王志华宋华查强
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1