标题处理方法和装置制造方法及图纸

技术编号:14854438 阅读:46 留言:0更新日期:2017-03-18 21:47
本发明专利技术涉及一种标题处理方法和装置。其中,该方法包括从待处理标题中提取候选内容;提取所述候选内容的关联特征;根据所述候选内容的关联特征,计算所述候选内容的营销评分;根据所述营销评分和判定阈值,确定所述候选内容是否是营销内容;在所述候选内容是所述营销内容的情况下,从所述待处理标题中删除所述营销内容。本发明专利技术实施例能够对大量标题自动进行营销内容的识别与清除,时间延迟短,清除效率高。

【技术实现步骤摘要】

本专利技术涉及互联网
,尤其涉及一种标题处理方法和装置
技术介绍
在互联网视频的标题中,除了包括视频本身特征的内容外,通常还包括以许多营销为目的的内容。这些内容会干扰用户对视频本身内容的浏览。目前,对互联网视频标题中的营销内容进行定向清除,通常的做法有两种:1.采用人工编辑的方式,逐一手工修改已有的内容标题。2.采用用户协同编辑的社会化模式,人人可以修改其标题。但是,这些清除方法存在清除效率较低、处理时机滞后、处理方式趋同等问题。
技术实现思路
技术问题有鉴于此,本专利技术要解决的技术问题是,如何提高对标题中的营销内容进行清除的效率。解决方案为了解决上述技术问题,根据本专利技术的一实施例,提供了一种标题处理方法,包括:从待处理标题中提取候选内容;提取所述候选内容的关联特征;根据所述候选内容的关联特征,计算所述候选内容的营销评分;根据所述营销评分和判定阈值,确定所述候选内容是否是营销内容;在所述候选内容是所述营销内容的情况下,从所述待处理标题中删除所述营销内容。对于上述方法,在一种可能的实现方式中,所述候选内容包括以下至少一种:具有社交账号的文本片段、具有通话账号的文本片段、具有价格的文本片段、具有网址的文本片段、具有营销词汇的文本片段。对于上述方法,在一种可能的实现方式中,所述候选内容的关联特征包括以下至少一种:所述候选内容的长度、所述候选内容是否出现营销词汇、所述候选内容是否出现数字、所述候选内容是否出现通话账号、所述候选内容是否出现网址、所述候选内容是否出现社交账号和所述待处理标题的资源发布者的用户是否优质用户。对于上述方法,在一种可能的实现方式中,根据所述候选内容的关联特征,计算所述候选内容的营销评分,包括:根据所述候选内容的关联特征对应的特征向量和权重向量,计算所述候选内容的营销评分。对于上述方法,在一种可能的实现方式中,根据所述候选内容的关联特征对应的特征向量和权重向量,计算所述候选内容的营销评分,包括:采用式1的S型函数,计算所述候选内容的营销评分,在式1中,y表示所述候选内容的营销评分,x表示所述候选内容的特征向量,w表示与x具有相同维度的权重向量;其中,采用下式2所示的向量内积来计算wx的值,在式2中,wi为所述候选内容的特征向量中的第i个特征的特征值,xi为所述第i个特征对应的权重值,i的取值范围为从0到n的整数,n为x和w的维度。对于上述方法,在一种可能的实现方式中,根据所述营销评分和判定阈值,确定所述候选内容是否是所述营销内容,包括:将所述营销评分大于判定阈值的所述候选内容确定为所述营销内容。对于上述方法,在一种可能的实现方式中,还包括:获取各训练样本,所述训练样本包括待训练标题以及所述待训练标题的营销内容;根据所述训练样本生成正样本的特征向量和标注结果,所述正样本的特征向量为所述待训练标题的营销内容对应的第一特征向量;根据所述训练样本生成负样本的特征向量和标注结果,所述负样本的特征向量为所述待训练标题的非营销内容对应的第二特征向量;从各所述第一特征向量和各所述第二特征向量中选取预定数量的特征向量,代入逻辑回模型或支持向量机模型进行训练,得到权重向量。对于上述方法,在一种可能的实现方式中,还包括:根据训练得到的权重向量,对各所述第一特征向量和各所述第二特征向量中未参与训练的特征向量进行评分;选择不同的阈值统计未参与训练的特征向量对应的正样本,以判断准确率;将准确率最高的阈值确定为判定阈值。本专利技术实施例还提供一种标题处理装置,包括:内容提取模块,用于从待处理标题中提取候选内容;特征提取模块,用于提取所述候选内容的关联特征;第一评分模块,用于根据所述候选内容的关联特征,计算所述候选内容的营销评分;内容确定模块,用于根据所述营销评分和判定阈值,确定所述候选内容是否是营销内容;内容删除模块,用于在所述候选内容是所述营销内容的情况下,从所述待处理标题中删除所述营销内容。对于上述装置,在一种可能的实现方式中,所述候选内容包括以下至少一种:具有社交账号的文本片段、具有通话账号的文本片段、具有价格的文本片段、具有网址的文本片段、具有营销词汇的文本片段。对于上述装置,在一种可能的实现方式中,所述候选内容的关联特征包括以下至少一种:所述候选内容的长度、所述候选内容是否出现营销词汇、所述候选内容是否出现数字、所述候选内容是否出现通话账号、所述候选内容是否出现网址、所述候选内容是否出现社交账号和所述待处理标题的资源发布者的用户是否优质用户。对于上述装置,在一种可能的实现方式中,所述第一评分模块还用于根据所述候选内容的关联特征对应的特征向量和权重向量,计算所述候选内容的营销评分。对于上述装置,在一种可能的实现方式中,所述第一评分模块还用于:采用式1的S型函数,计算所述候选内容的营销评分,在式1中,y表示所述候选内容的营销评分,x表示所述候选内容的特征向量,w表示与x具有相同维度的权重向量;其中,采用下式2所示的向量内积来计算wx的值,在式2中,wi为所述候选内容的特征向量中的第i个特征的特征值,xi为所述第i个特征对应的权重值,i的取值范围为从0到n的整数,n为x和w的维度。对于上述装置,在一种可能的实现方式中,所述内容确定模块还用于将所述营销评分大于判定阈值的所述候选内容确定为所述营销内容。对于上述装置,在一种可能的实现方式中,还包括:样本获取模块,用于获取各训练样本,所述训练样本包括待训练标题以及所述待训练标题的营销内容;正样本生成模块,用于根据所述训练样本生成正样本的特征向量和标注结果,所述正样本的特征向量为所述待训练标题的营销内容对应的第一特征向量;负样本生成模块,用于根据所述训练样本生成负样本的特征向量和标注结果,所述负样本的特征向量为所述待训练标题的非营销内容对应的第二特征向量;训练模块,用于从各所述第一特征向量和各所述第二特征向量中选取预定数量的特征向量,代入逻辑回模型或支持向量机模型进行训练,得到权重向量。对于上述装置,在一种可能的实现方式中,还包括:第二评分模块,用于根据训练得到的权重向量,对各所述第一特征向量和各所述第二特征向量中未参与训练的特征向量进行评分;准确率判断模块,用于选择不同的阈值统计未参与训练的特征向量对应的正样本,以判断准确率;阈值确定模块,用于将准确率最高的阈值确定为判定阈值。有益效果本专利技术实施例与人工清除相比,能够对大量标题自动进行营销内容的识别与清除,时间延迟短,清除效率高。此外,有利于使得标题的发布规范化,提高用户观看各种多媒体资源的数量。根据下面参考附图对示例性实施例的详细说明,本专利技术的其它特征及方面将变得清楚。附图说明包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本专利技术的示例性实施例、特征和方面,并且用于解释本专利技术的原理。图1示出根据本专利技术一实施例的标题处理方法的流程图;图2示出根据本专利技术一实施例的标题处理方法中训练过程的流程图;图3示出根据本专利技术另一实施例的标题处理方法的示意图;图4示出根据本专利技术一实施例的标题处理装置的结构框图;图5示出根据本专利技术另一实施例的标题处理装置的结构框图;图6示出根据本专利技术另一实施例的标题处理装置的结构框图。具体实施方式以下将参考附图详细说明本专利技术的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能本文档来自技高网...
标题处理方法和装置

【技术保护点】
一种标题处理方法,其特征在于,包括:从待处理标题中提取候选内容;提取所述候选内容的关联特征;根据所述候选内容的关联特征,计算所述候选内容的营销评分;根据所述营销评分和判定阈值,确定所述候选内容是否是营销内容;在所述候选内容是所述营销内容的情况下,从所述待处理标题中删除所述营销内容。

【技术特征摘要】
1.一种标题处理方法,其特征在于,包括:从待处理标题中提取候选内容;提取所述候选内容的关联特征;根据所述候选内容的关联特征,计算所述候选内容的营销评分;根据所述营销评分和判定阈值,确定所述候选内容是否是营销内容;在所述候选内容是所述营销内容的情况下,从所述待处理标题中删除所述营销内容。2.根据权利要求1所述的方法,其特征在于,所述候选内容包括以下至少一种:具有社交账号的文本片段、具有通话账号的文本片段、具有价格的文本片段、具有网址的文本片段、具有营销词汇的文本片段。3.根据权利要求1或2所述的方法,其特征在于,所述候选内容的关联特征包括以下至少一种:所述候选内容的长度、所述候选内容是否出现营销词汇、所述候选内容是否出现数字、所述候选内容是否出现通话账号、所述候选内容是否出现网址、所述候选内容是否出现社交账号和所述待处理标题的资源发布者的用户是否优质用户。4.根据权利要求1至3中任一项所述的方法,其特征在于,根据所述候选内容的关联特征,计算所述候选内容的营销评分,包括:根据所述候选内容的关联特征对应的特征向量和权重向量,计算所述候选内容的营销评分。5.根据权利要求4所述的方法,其特征在于,根据所述候选内容的关联特征对应的特征向量和权重向量,计算所述候选内容的营销评分,包括:采用式1的S型函数,计算所述候选内容的营销评分,在式1中,y表示所述候选内容的营销评分,x表示所述候选内容的特征向量,w表示与x具有相同维度的权重向量;其中,采用下式2所示的向量内积来计算wx的值,在式2中,wi为所述候选内容的特征向量中的第i个特征的特征值,xi为所述第i个特征对应的权重值,i的取值范围为从0到n的整数,n为x和w的维度。6.根据权利要求1至5中任一项所述的方法,其特征在于,根据所述营销评分和判定阈值,确定所述候选内容是否是所述营销内容,包括:将所述营销评分大于判定阈值的所述候选内容确定为所述营销内容。7.根据权利要求1至6中任一项所述的方法,其特征在于,还包括:获取各训练样本,所述训练样本包括待训练标题以及所述待训练标题的营销内容;根据所述训练样本生成正样本的特征向量和标注结果,所述正样本的特征向量为所述待训练标题的营销内容对应的第一特征向量;根据所述训练样本生成负样本的特征向量和标注结果,所述负样本的特征向量为所述待训练标题的非营销内容对应的第二特征向量;从各所述第一特征向量和各所述第二特征向量中选取预定数量的特征向量,代入逻辑回模型或支持向量机模型进行训练,得到权重向量。8.根据权利要求7所述的方法,其特征在于,还包括:根据训练得到的权重向量,对各所述第一特征向量和各所述第二特征向量中未参与训练的特征向量进行评分;选择不同的阈值统计未参与训练的特征向量对应的正样本,以判断准确率;将准确率最高的阈值确定为判定阈值。9.一种标题处理装置,其特征在于,包括:内容提...

【专利技术属性】
技术研发人员:吴迎宾王高林王建宇顾思斌潘柏宇王冀
申请(专利权)人:合一网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1