【技术实现步骤摘要】
文章新章节的检测方法及装置本申请是2013年06月06日提交的申请号为201310223253.0、专利技术名称为“文章新章节的检测方法及装置”的专利技术专利申请的分案申请。
本专利技术涉及互联网
,特别涉及一种文章新章节的检测方法及装置。
技术介绍
随着互联网网络科技的发展,越来越多的人们可以通过互联网进行各种活动,例如人们可以通过互联网阅读一些连载的文章等等。现有技术中,随着网络文章的日益火爆也催生了越来越多的文章网站的诞生,据不完全统计,各种中小型文章网站数量已经达到数十万个,其质量良莠不齐,经常存在一些盗取内容甚至制造虚假的新章节以骗取文章用户点击,伤害用户体验的行为。作为文章聚合平台,在抓取这些网站的文章的新章节数据后,对文章的新章节进行人工审核,将虚假的新章节识别出来并及时过滤掉,以向用户提供较高质量的文章。该方案为提高文章聚合平台质量、优化用户阅读体验的重要环节。在实现本专利技术的过程中,专利技术人发现现有技术至少存在以下问题:上述现有的采用人工审核的方式审核文章的新章节的方法,审核时间较长,导致文章的新章节不能被及时推送。
技术实现思路
为了解决现有技术的问题,本专利技术实施例提供了一种文章新章节的检测方法及装置。所述技术方案如下:一方面,提供了一种文章新章节的检测方法,用于文章聚合平台,所述方法包括:对文章的新章节进行文字拆分,得到多个候选词;计算所述多个候选词中每个所述候选词的权重;根据所述多个候选词以及所述多个候选词中每个所述候选词的权重,生成第二主题词向量,所述第二主题词向量是指所述新章节的主题词向量;计算所述第二主题词向量和第一 ...
【技术保护点】
1.一种文章新章节的检测方法,其特征在于,用于文章聚合平台,所述方法包括:对文章的新章节进行文字拆分,得到多个候选词;计算所述多个候选词中每个所述候选词的权重;根据所述多个候选词以及所述多个候选词中每个所述候选词的权重,生成第二主题词向量,所述第二主题词向量是指所述新章节的主题词向量;计算所述第二主题词向量和第一主题词向量的相似度,所述第一主题词向量是指所述文章的已检测章节的主题词向量;当所述相似度小于预设相似度阈值时,确定所述新章节为所述文章的虚假章节。
【技术特征摘要】
1.一种文章新章节的检测方法,其特征在于,用于文章聚合平台,所述方法包括:对文章的新章节进行文字拆分,得到多个候选词;计算所述多个候选词中每个所述候选词的权重;根据所述多个候选词以及所述多个候选词中每个所述候选词的权重,生成第二主题词向量,所述第二主题词向量是指所述新章节的主题词向量;计算所述第二主题词向量和第一主题词向量的相似度,所述第一主题词向量是指所述文章的已检测章节的主题词向量;当所述相似度小于预设相似度阈值时,确定所述新章节为所述文章的虚假章节。2.根据权利要求1所述的方法,其特征在于,所述计算所述多个候选词中每个所述候选词的权重,包括:计算每个所述候选词的长度、在所述文章中出现的频率、左邻字符集的熵和右邻字符集的熵;根据每个所述候选词的长度、在所述文章中出现的频率、所述左邻字符集的熵和所述右邻字符集的熵,计算每个所述候选词的权重。3.根据权利要求2所述的方法,其特征在于,所述根据每个所述候选词的长度、在所述文章中出现的频率、所述左邻字符集的熵和所述右邻字符集的熵,计算每个所述候选词的权重,包括:采用如下公式计算每个所述候选词的权重:其中,所述W是所述候选词的权重,所述TF为所述候选词在所述文章中出现的频率,所述Ha为所述左邻字符集的熵,所述Hb为所述右邻字符集的熵,所述L为所述候选词的长度。4.根据权利要求2所述的方法,其特征在于,所述左邻字符集的熵根据所述左邻字符集中每个字符在所述左邻字符集中的概率计算得到,所述右邻字符集的熵根据所述右邻字符集中每个字符在所述右邻字符集中的概率计算得到。5.根据权利要求1所述的方法,其特征在于,所述根据所述多个候选词以及所述多个候选词中每个所述候选词的权重,生成第二主题词向量,包括:从所述多个候选词中,按照权重由高到低的顺序取出M个候选词,生成所述第二主题词向量。6.根据权利要求1所述的方法,其特征在于,所述计算所述多个候选词中每个所述候选词的权重之后,所述方法还包括:统计所述多个候选词中每个所述候选词的文档频率,所述文档频率为所述候选词在文章池所包括的N篇文章中出现的文章篇数;根据所述多个候选词中每个所述候选词的文档频率和所述文章池所包括的文章数量N,更新所述多个候选词中每个所述候选词的权重,得到每个所述候选词更新后的权重;所述根据所述多个候选词以及所述多个候选词中每个所述候选词的权重,生成第二主题词向量,包括:根据所述多个候选词以及所述多个候选词中每个所述候选词更新后的权重,生成所述第二主题词向量。7.根据权利要求6所述的方法,其特征在于,所述根据所述多个候选词中每个所述候选词的文档频率和所述文章池所包括的文章数量N,更新所述多个候选词中每个所述候选词的权重,得到每个所述候选词更新后的权重,包括:采用如下公式计算每个所述候选词更新后的权重:W=W*log(N/DF),其中所述W为所述候选词的权重,所述DF为所述候选词的文档频率。8.根据权...
【专利技术属性】
技术研发人员:蔡兵,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。