文章新章节的检测方法及装置制造方法及图纸

技术编号:10832324 阅读:81 留言:0更新日期:2014-12-27 17:13
本发明专利技术公开了一种文章新章节的检测方法及装置,属于互联网技术领域。所述方法包括:确定文章的已检测章节的第一主题词向量;所述第一主题词向量用于标识所述文章的已检测章节的内容;确定所述文章的新章节的第二主题词向量;所述第二主题词向量用于标识所述文章的新章节的内容;计算所述第一主题词向量和所述第二主题词向量的相似度;根据所述相似度与预设相似度阈值的大小关系,判断所述新章节是否为所述文章的虚假章节。通过采用本发明专利技术的技术方案,在线识别过程仅需要毫秒级,丝毫不影响章节推送速度,从而能够在新章节为有效章节时,及时的推送新章节,有效地保证了文章新章节的推送效率。

【技术实现步骤摘要】
文章新章节的检测方法及装置
本专利技术涉及互联网
,特别涉及一种文章新章节的检测方法及装置。
技术介绍
随着互联网网络科技的发展,越累越多的人们可以通过互联网进行各种活动,例 如人们可以通过互联网阅读一些连载的文章等等。 现有技术中,随着网络文章的日益火爆也催生了越来越多的文章网站的诞生,据 不完全统计,各种中小型文章网站数量已经达到数十万个,其质量良莠不齐,经常存在一些 盗取内容甚至制造虚假的新章节以骗取文章用户点击,伤害用户体验的行为。作为文章聚 合平台,在抓取这些网站的文章的新章节数据后,对文章的新章节进行人工审核,将虚假的 新章节识别出来并及时过滤掉,以向用户提供较高质量的文章。该方案为提高文章聚合平 台质量、优化用户阅读体验的重要环节。 在实现本专利技术的过程中,专利技术人发现现有技术至少存在以下问题:上述现有的采 用人工审核的方式审核文章的新章节的方法,审核时间较长,导致文章的新章节不能被及 时推送。
技术实现思路
为了解决现有技术的问题,本专利技术实施例提供了一种文章新章节的检测方法及装 置。所述技术方案如下: -方面,提供了一种文章新章节的检测方法,所述方法包括: 确定文章的已检测章节的第一主题词向量;所述第一主题词向量用于标识所述文 章的已检测章节的内容; 确定所述文章的新章节的第二主题词向量;所述第二主题词向量用于标识所述文 章的新章节的内容; 计算所述第一主题词向量和所述第二主题词向量的相似度; 根据所述相似度与预设相似度阈值的大小关系,判断所述新章节是否为所述文章 的虚假章节。 另一方面,提供了一种文章新章节的检测装置,所述装置包括: 第一确定模块,用于确定文章的已检测章节的第一主题词向量;所述第一主题词 向量用于标识所述文章的已检测章节的内容; 第二确定模块,用于确定所述文章的新章节的第二主题词向量;所述第二主题词 向量用于标识所述文章的新章节的内容; 计算模块,用于计算所述第一主题词向量和所述第二主题词向量的相似度; 判断模块,用于根据所述相似度与预设相似度阈值的大小关系,判断所述新章节 是否为所述文章的虚假章节。 本专利技术实施例的文章新章节的检测方法及装置,通过确定文章的已检测章节的第 一主题词向量;第一主题词向量用于标识文章的已检测章节的内容;确定文章的新章节的 第二主题词向量;第二主题词向量用于标识文章的新章节的内容;计算第一主题词向量和 第二主题词向量的相似度;根据相似度与预设相似度阈值的大小关系,判断新章节是否为 文章的虚假章节。采用本专利技术实施例的技术方案,整个文章新章节的检测流程不需要人工 干预,代价极低,可以避免采用人工审核的方式审核文章的新章节,可以有效地节省人力成 本。而且采用本专利技术实施例的技术方案,通过智能化地有效地深入分析文章的已检测章节 及新章节,能够准确地确定出新章节是否为虚假章节。本专利技术实施例的技术方案在线识别 过程仅需要毫秒级,丝毫不影响章节推送速度,从而能够在新章节为有效章节时,及时的推 送新章节,有效地保证了文章新章节的推送效率。 【附图说明】 为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使 用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于 本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他 的附图。 图1为本专利技术一实施例提供的文章新章节的检测方法的流程图; 图2为本专利技术另一实施例提供的文章新章节的检测方法的流程图; 图3为本专利技术一实施例提供的文章新章节的检测装置的结构示意图; 图4为本专利技术另一实施例提供的文章新章节的检测装置的结构示意图。 【具体实施方式】 为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方 式作进一步地详细描述。 图1为本专利技术一实施例提供的文章新章节的检测方法的流程图。如图1所示,本 实施例的文章新章节的检测方法,具体可以包括如下步骤: 100、确定文章的已检测章节的第一主题词向量; 其中第一主题词向量用于标识文章的已检测章节的内容;本实施例的已检测章节 为该文章的已经确定的有效章节,该有效章节可以理解为采用本专利技术实施例的方法已经确 定为有效章节的章节。需要说明的是,在确定该文章的第一章节时,由于不存在已检测章 节,不能采用本专利技术实施例的方法,可以采用人工审核的方法审核第一章节是否为有效章 节。 例如,确定文章的已检测章节的第一主题词向量的过程可以理解为对已检测章节 进行训练提取第一主题词向量的过程。 101、确定文章的新章节的第二主题词向量; 其中第二主题词向量用于标识文章的新章节的内容。 本实施例中,步骤101确定文章的新章节的第二主题词向量与步骤确定文章 的已检测章节的第一主题词向量的具体实现过程可以相同。例如,确定文章的新章节的第 二主题词向量的过程可以理解为对新章节进行训练提取第二主题词向量的过程。其中优选 地,本实施例中第二主题词向量与第一主题词向量包括的主题词的数量相同。 102、计算第一主题词向量和第二主题词向量的相似度; 103、根据相似度与预设相似度阈值的大小关系,判断新章节是否为文章的虚假章 节。 本实施例的文章新章节的检测方法的执行主体可以为一文章新章节的检测装置。 例如该文章新章节的检测装置可以设置在文章聚合平台中。 本实施例的文章新章节的检测方法,通过确定文章的已检测章节的第一主题词向 量;第一主题词向量用于标识文章的已检测章节的内容;确定文章的新章节的第二主题词 向量;第二主题词向量用于标识文章的新章节的内容;计算第一主题词向量和第二主题词 向量的相似度;根据相似度与预设相似度阈值的大小关系,判断新章节是否为文章的虚假 章节。采用本实施例的技术方案,整个文章新章节的检测流程不需要人工干预,代价极低, 可以避免采用人工审核的方式审核文章的新章节,可以有效地节省人力成本。而且采用本 实施例的技术方案,通过智能化地有效地深入分析文章的已检测章节及新章节,能够准确 地确定出新章节是否为虚假章节。本实施例的技术方案在线识别过程仅需要毫秒级,丝毫 不影响章节推送速度,从而能够在新章节为有效章节时,及时的推送新章节,有效地保证了 文章新章节的推送效率。 可选地,在上述图1所示实施例的技术方案的基础上,其中步骤100 确定文章的 已检测章节的第一主题词向量,具体可以包括如下步骤: (1)对文章的已检测章节进行文字拆分,得到多个候选词; (2)计算多个候选词中每个候选词的权重; (3)根据多个候选词以及多个候选词中每个候选词的权重,生成第一主题词向量。 例如其中步骤(2)计算多个候选词中每个候选词的权重,具体可以包括:计算每 个候选词的长度、在文章中出现的频率、左邻字符集的熵和右邻字符集的熵;并根据每个候 选词的长度、在文章中出现的频率、左邻字符集的熵和右邻字符集的熵,计算每个候选词的 权重。左邻字符集是指一段话里某个词左边出现的字符集的集合,右邻字符集是指一段话 里某个词右边出现的字符集的集合。比如看他们的样子,觉得他们特本文档来自技高网...

【技术保护点】
一种文章新章节的检测方法,其特征在于,所述方法包括:确定文章的已检测章节的第一主题词向量;所述第一主题词向量用于标识所述文章的已检测章节的内容;确定所述文章的新章节的第二主题词向量;所述第二主题词向量用于标识所述文章的新章节的内容;计算所述第一主题词向量和所述第二主题词向量的相似度;根据所述相似度与预设相似度阈值的大小关系,判断所述新章节是否为所述文章的虚假章节。

【技术特征摘要】
1. 一种文章新章节的检测方法,其特征在于,所述方法包括: 确定文章的已检测章节的第一主题词向量;所述第一主题词向量用于标识所述文章的 已检测章节的内容; 确定所述文章的新章节的第二主题词向量;所述第二主题词向量用于标识所述文章的 新章节的内容; 计算所述第一主题词向量和所述第二主题词向量的相似度; 根据所述相似度与预设相似度阈值的大小关系,判断所述新章节是否为所述文章的虚 假章节。2. 根据权利要求1所述的方法,其特征在于,所述确定文章的已检测章节的第一主题 词向量,包括: 对所述文章的已检测章节进行文字拆分,得到多个候选词; 计算所述多个候选词中每个所述候选词的权重; 根据所述多个候选词以及所述多个候选词中每个所述候选词的权重,生成所述第一主 题词向量。3. 根据权利要求2所述的方法,其特征在于,计算所述多个候选词中每个所述候选词 的权重,包括: 计算每个所述候选词的长度、在所述文章中出现的频率、左邻字符集的熵和右邻字符 集的熵; 根据每个所述候选词的长度、在所述文章中出现的频率、所述左邻字符集的熵和所述 右邻字符集的熵,计算每个所述候选词的权重。4. 根据权利要求3所述的方法,其特征在于,根据每个所述候选词的长度、在所述文章 中出现的频率、所述左邻字符集的熵和所述右邻字符集的熵,计算每个所述候选词的权重, 具体采用如下公式计算每个所述候选词的权重: if=λ/777 *他* //6 * /.;其中,所述W是所述候选词的权重,所述TF为所述候选词在所 述文章中出现的频率,所述Ha为所述左邻字符集的熵,所述Hb为所述右邻字符集的熵,所 述L为所述候选词的长度。5. 根据权利要求2所述的方法,其特征在于,根据所述多个候选词以及所述多个候选 词中每个所述候选词的权重,生成所述第一主题词向量,包括: 从所述多个候选词中,按照权重由高到低的顺序取出M个候选词,生成所述第一主题 词向量。6. 根据权利要求2-5任一所述的方法,其特征在于,计算所述多个候选词中每个所述 候选词的权重之后,根据所述多个候选词以及所述多个候选词中每个所述候选词的权重, 生成所述第一主题词向量之前,所述方法还包括: 统计所述多个候选词中每个所述候选词的文档频率;所述文档频率为所述候选词在文 章池所包括的N篇文章中出现的文章篇数; 根据所述多个候选词中每个所述候选词的文档频率和所述文章池所包括的N篇文章, 更新所述多个候选词中每个所述候选词的权重。7. 根据权利要求6所述的方法,其特征在于,根据所述多个候选词中每个所述候选词 的文档频率和所述文章池所包括的N篇文章,更新所述多个候选词中每个所述候选词的权 重,具体采用如下公式计算每个所述候选词的权重: W=W*log(N/DF),其中所述W为所述候选词的权重,所述DF为所述候选词的文档频率。8. 根据权利要求1所述的方法,其特征在于,计算所述第一主题词向量和所述第二主 题词向量的相似度,包括采用如下公式计算所述第一主题词向量和所述第二主题词向量的 相似度:其中所述D表示所述第一主题词向量,所述Di表示第一主题词向量中第i个主题词;所 述Q表示所述第二主题词向量,所述Qi表示第二主题词向量中第i个主题词;所述m表示 所述第一主题词向量和所述第二主题词向量各所包括的主题词的数目;所述sim(D,Q)表 示所述第一主题词向量和所述第二主题词向量的相似度。9. 根据权利要求7或者8所述的方法,其特征在于,根据所述相似度与预设相似度阈值 的大小关系,判断所述新章节是否为所述文章的虚假章节,包括: 当所述相似度大于等于所述预设相似度阈值,确定所述新章节为所述文章的有效章 节; 当所述相似度小于所述预设相似度阈值,确定所述新章节为所述文章的虚假章节。10. 根据权利要...

【专利技术属性】
技术研发人员:蔡兵
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1