【技术实现步骤摘要】
本专利技术涉及互联网
,尤其涉及一种标题处理方法和装置。
技术介绍
在互联网视频的标题中,除了包括视频本身特征的内容外,通常还包括以许多营销为目的的内容。这些内容会干扰用户对视频本身内容的浏览。目前,对互联网视频标题中的营销内容进行定向清除,通常的做法有两种:1.采用人工编辑的方式,逐一手工修改已有的内容标题。2.采用用户协同编辑的社会化模式,人人可以修改其标题。但是,这些清除方法存在清除效率较低、处理时机滞后、处理方式趋同等问题。
技术实现思路
技术问题有鉴于此,本专利技术要解决的技术问题是,如何提高对标题中的营销内容进行清除的效率。解决方案为了解决上述技术问题,根据本专利技术的一实施例,提供了一种标题处理方法,包括:从待处理标题中提取候选内容;提取所述候选内容的关联特征;根据所述候选内容的关联特征,计算所述候选内容的营销评分;根据所述营销评分和判定阈值,确定所述候选内容是否是营销内容;在所述候选内容是所述营销内容的情况下,从所述待处理标题中删除所述营销内容。对于上述方法,在一种可能的实现方式中,所述候选内容包括以下至少一种:具有社交账号的文本片段、具有通话账号的文本片段、具有价格的文本片段、具有网址的文本片段、具有营销词汇的文本片段。对于上述方法,在一种可能的实现方式中,所述候选内容的关联特征包括以下至少一种:所述候选内容的长度、所述候选内容是否出现营销词汇、所述候选内容是否出现数字、所述候选内容是否出现通话账号、所述候选内容是否出现网址、所述候选内容是否出现社交账号和所述待处理标题的资源发布者的用户是否优质用户。对于上述方法,在一种可能的实现方式 ...
【技术保护点】
一种标题处理方法,其特征在于,包括:从待处理标题中提取候选内容;提取所述候选内容的关联特征;根据所述候选内容的关联特征,计算所述候选内容的营销评分;根据所述营销评分和判定阈值,确定所述候选内容是否是营销内容;在所述候选内容是所述营销内容的情况下,从所述待处理标题中删除所述营销内容。
【技术特征摘要】
1.一种标题处理方法,其特征在于,包括:从待处理标题中提取候选内容;提取所述候选内容的关联特征;根据所述候选内容的关联特征,计算所述候选内容的营销评分;根据所述营销评分和判定阈值,确定所述候选内容是否是营销内容;在所述候选内容是所述营销内容的情况下,从所述待处理标题中删除所述营销内容。2.根据权利要求1所述的方法,其特征在于,所述候选内容包括以下至少一种:具有社交账号的文本片段、具有通话账号的文本片段、具有价格的文本片段、具有网址的文本片段、具有营销词汇的文本片段。3.根据权利要求1或2所述的方法,其特征在于,所述候选内容的关联特征包括以下至少一种:所述候选内容的长度、所述候选内容是否出现营销词汇、所述候选内容是否出现数字、所述候选内容是否出现通话账号、所述候选内容是否出现网址、所述候选内容是否出现社交账号和所述待处理标题的资源发布者的用户是否优质用户。4.根据权利要求1至3中任一项所述的方法,其特征在于,根据所述候选内容的关联特征,计算所述候选内容的营销评分,包括:根据所述候选内容的关联特征对应的特征向量和权重向量,计算所述候选内容的营销评分。5.根据权利要求4所述的方法,其特征在于,根据所述候选内容的关联特征对应的特征向量和权重向量,计算所述候选内容的营销评分,包括:采用式1的S型函数,计算所述候选内容的营销评分,在式1中,y表示所述候选内容的营销评分,x表示所述候选内容的特征向量,w表示与x具有相同维度的权重向量;其中,采用下式2所示的向量内积来计算wx的值,在式2中,wi为所述候选内容的特征向量中的第i个特征的特征值,xi为所述第i个特征对应的权重值,i的取值范围为从0到n的整数,n为x和w的维度。6.根据权利要求1至5中任一项所述的方法,其特征在于,根据所述营销评分和判定阈值,确定所述候选内容是否是所述营销内容,包括:将所述营销评分大于判定阈值的所述候选内容确定为所述营销内容。7.根据权利要求1至6中任一项所述的方法,其特征在于,还包括:获取各训练样本,所述训练样本包括待训练标题以及所述待训练标题的营销内容;根据所述训练样本生成正样本的特征向量和标注结果,所述正样本的特征向量为所述待训练标题的营销内容对应的第一特征向量;根据所述训练样本生成负样本的特征向量和标注结果,所述负样本的特征向量为所述待训练标题的非营销内容对应的第二特征向量;从各所述第一特征向量和各所述第二特征向量中选取预定数量的特征向量,代入逻辑回模型或支持向量机模型进行训练,得到权重向量。8.根据权利要求7所述的方法,其特征在于,还包括:根据训练得到的权重向量,对各所述第一特征向量和各所述第二特征向量中未参与训练的特征向量进行评分;选择不同的阈值统计未参与训练的特征向量对应的正样本,以判断准确率;将准确率最高的阈值确定为判定阈值。9.一种标题处理装置,其特征在于,包括:内容提...
【专利技术属性】
技术研发人员:吴迎宾,王高林,王建宇,顾思斌,潘柏宇,王冀,
申请(专利权)人:合一网络技术北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。