【技术实现步骤摘要】
文章新章节的检测方法及装置
本专利技术涉及互联网
,特别涉及一种文章新章节的检测方法及装置。
技术介绍
随着互联网网络科技的发展,越累越多的人们可以通过互联网进行各种活动,例 如人们可以通过互联网阅读一些连载的文章等等。 现有技术中,随着网络文章的日益火爆也催生了越来越多的文章网站的诞生,据 不完全统计,各种中小型文章网站数量已经达到数十万个,其质量良莠不齐,经常存在一些 盗取内容甚至制造虚假的新章节以骗取文章用户点击,伤害用户体验的行为。作为文章聚 合平台,在抓取这些网站的文章的新章节数据后,对文章的新章节进行人工审核,将虚假的 新章节识别出来并及时过滤掉,以向用户提供较高质量的文章。该方案为提高文章聚合平 台质量、优化用户阅读体验的重要环节。 在实现本专利技术的过程中,专利技术人发现现有技术至少存在以下问题:上述现有的采 用人工审核的方式审核文章的新章节的方法,审核时间较长,导致文章的新章节不能被及 时推送。
技术实现思路
为了解决现有技术的问题,本专利技术实施例提供了一种文章新章节的检测方法及装 置。所述技术方案如下: -方面,提供了一种文章新章节的检测方法,所述方法包括: 确定文章的已检测章节的第一主题词向量;所述第一主题词向量用于标识所述文 章的已检测章节的内容; 确定所述文章的新章节的第二主题词向量;所述第二主题词向量用于标识所述文 章的新章节的内容; 计算所述第一主题词向量和所述第二主题词向量的相似度; 根据所述相似度与预设相似度阈值的大小关系,判断所述新章节是否为所 ...
【技术保护点】
一种文章新章节的检测方法,其特征在于,所述方法包括:确定文章的已检测章节的第一主题词向量;所述第一主题词向量用于标识所述文章的已检测章节的内容;确定所述文章的新章节的第二主题词向量;所述第二主题词向量用于标识所述文章的新章节的内容;计算所述第一主题词向量和所述第二主题词向量的相似度;根据所述相似度与预设相似度阈值的大小关系,判断所述新章节是否为所述文章的虚假章节。
【技术特征摘要】
1. 一种文章新章节的检测方法,其特征在于,所述方法包括: 确定文章的已检测章节的第一主题词向量;所述第一主题词向量用于标识所述文章的 已检测章节的内容; 确定所述文章的新章节的第二主题词向量;所述第二主题词向量用于标识所述文章的 新章节的内容; 计算所述第一主题词向量和所述第二主题词向量的相似度; 根据所述相似度与预设相似度阈值的大小关系,判断所述新章节是否为所述文章的虚 假章节。2. 根据权利要求1所述的方法,其特征在于,所述确定文章的已检测章节的第一主题 词向量,包括: 对所述文章的已检测章节进行文字拆分,得到多个候选词; 计算所述多个候选词中每个所述候选词的权重; 根据所述多个候选词以及所述多个候选词中每个所述候选词的权重,生成所述第一主 题词向量。3. 根据权利要求2所述的方法,其特征在于,计算所述多个候选词中每个所述候选词 的权重,包括: 计算每个所述候选词的长度、在所述文章中出现的频率、左邻字符集的熵和右邻字符 集的熵; 根据每个所述候选词的长度、在所述文章中出现的频率、所述左邻字符集的熵和所述 右邻字符集的熵,计算每个所述候选词的权重。4. 根据权利要求3所述的方法,其特征在于,根据每个所述候选词的长度、在所述文章 中出现的频率、所述左邻字符集的熵和所述右邻字符集的熵,计算每个所述候选词的权重, 具体采用如下公式计算每个所述候选词的权重: if=λ/777 *他* //6 * /.;其中,所述W是所述候选词的权重,所述TF为所述候选词在所 述文章中出现的频率,所述Ha为所述左邻字符集的熵,所述Hb为所述右邻字符集的熵,所 述L为所述候选词的长度。5. 根据权利要求2所述的方法,其特征在于,根据所述多个候选词以及所述多个候选 词中每个所述候选词的权重,生成所述第一主题词向量,包括: 从所述多个候选词中,按照权重由高到低的顺序取出M个候选词,生成所述第一主题 词向量。6. 根据权利要求2-5任一所述的方法,其特征在于,计算所述多个候选词中每个所述 候选词的权重之后,根据所述多个候选词以及所述多个候选词中每个所述候选词的权重, 生成所述第一主题词向量之前,所述方法还包括: 统计所述多个候选词中每个所述候选词的文档频率;所述文档频率为所述候选词在文 章池所包括的N篇文章中出现的文章篇数; 根据所述多个候选词中每个所述候选词的文档频率和所述文章池所包括的N篇文章, 更新所述多个候选词中每个所述候选词的权重。7. 根据权利要求6所述的方法,其特征在于,根据所述多个候选词中每个所述候选词 的文档频率和所述文章池所包括的N篇文章,更新所述多个候选词中每个所述候选词的权 重,具体采用如下公式计算每个所述候选词的权重: W=W*log(N/DF),其中所述W为所述候选词的权重,所述DF为所述候选词的文档频率。8. 根据权利要求1所述的方法,其特征在于,计算所述第一主题词向量和所述第二主 题词向量的相似度,包括采用如下公式计算所述第一主题词向量和所述第二主题词向量的 相似度:其中所述D表示所述第一主题词向量,所述Di表示第一主题词向量中第i个主题词;所 述Q表示所述第二主题词向量,所述Qi表示第二主题词向量中第i个主题词;所述m表示 所述第一主题词向量和所述第二主题词向量各所包括的主题词的数目;所述sim(D,Q)表 示所述第一主题词向量和所述第二主题词向量的相似度。9. 根据权利要求7或者8所述的方法,其特征在于,根据所述相似度与预设相似度阈值 的大小关系,判断所述新章节是否为所述文章的虚假章节,包括: 当所述相似度大于等于所述预设相似度阈值,确定所述新章节为所述文章的有效章 节; 当所述相似度小于所述预设相似度阈值,确定所述新章节为所述文章的虚假章节。10. 根据权利要...
【专利技术属性】
技术研发人员:蔡兵,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。