文章新章节的检测方法及装置制造方法及图纸

技术编号:22330269 阅读:34 留言:0更新日期:2019-10-19 12:18
本发明专利技术公开了一种文章新章节的检测方法及装置,属于互联网技术领域。所述方法包括:确定文章的已检测章节的第一主题词向量;所述第一主题词向量用于标识所述文章的已检测章节的内容;确定所述文章的新章节的第二主题词向量;所述第二主题词向量用于标识所述文章的新章节的内容;计算所述第一主题词向量和所述第二主题词向量的相似度;根据所述相似度与预设相似度阈值的大小关系,判断所述新章节是否为所述文章的虚假章节。通过采用本发明专利技术的技术方案,在线识别过程仅需要毫秒级,丝毫不影响章节推送速度,从而能够在新章节为有效章节时,及时的推送新章节,有效地保证了文章新章节的推送效率。

Detection method and device of new chapter

【技术实现步骤摘要】
文章新章节的检测方法及装置本申请是2013年06月06日提交的申请号为201310223253.0、专利技术名称为“文章新章节的检测方法及装置”的专利技术专利申请的分案申请。
本专利技术涉及互联网
,特别涉及一种文章新章节的检测方法及装置。
技术介绍
随着互联网网络科技的发展,越来越多的人们可以通过互联网进行各种活动,例如人们可以通过互联网阅读一些连载的文章等等。现有技术中,随着网络文章的日益火爆也催生了越来越多的文章网站的诞生,据不完全统计,各种中小型文章网站数量已经达到数十万个,其质量良莠不齐,经常存在一些盗取内容甚至制造虚假的新章节以骗取文章用户点击,伤害用户体验的行为。作为文章聚合平台,在抓取这些网站的文章的新章节数据后,对文章的新章节进行人工审核,将虚假的新章节识别出来并及时过滤掉,以向用户提供较高质量的文章。该方案为提高文章聚合平台质量、优化用户阅读体验的重要环节。在实现本专利技术的过程中,专利技术人发现现有技术至少存在以下问题:上述现有的采用人工审核的方式审核文章的新章节的方法,审核时间较长,导致文章的新章节不能被及时推送。
技术实现思路
为了解决现有技术的问题,本专利技术实施例提供了一种文章新章节的检测方法及装置。所述技术方案如下:一方面,提供了一种文章新章节的检测方法,用于文章聚合平台,所述方法包括:对文章的新章节进行文字拆分,得到多个候选词;计算所述多个候选词中每个所述候选词的权重;根据所述多个候选词以及所述多个候选词中每个所述候选词的权重,生成第二主题词向量,所述第二主题词向量是指所述新章节的主题词向量;计算所述第二主题词向量和第一主题词向量的相似度,所述第一主题词向量是指所述文章的已检测章节的主题词向量;当所述相似度小于预设相似度阈值时,确定所述新章节为所述文章的虚假章节。另一方面,提供了一种文章新章节的检测装置,所述装置包括:拆分单元,用于对文章的新章节进行文字拆分,得到多个候选词;计算单元,用于计算所述多个候选词中每个所述候选词的权重;生成单元,用于根据所述多个候选词以及所述多个候选词中每个所述候选词的权重,生成第二主题词向量,所述第二主题词向量是指所述新章节的主题词向量;计算模块,用于计算所述第二主题词向量和第一主题词向量的相似度,所述第一主题词向量是指所述文章的已检测章节的主题词向量;判断模块,用于当所述相似度小于预设相似度阈值时,确定所述新章节为所述文章的虚假章节。再一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在被处理器执行时,用于实现上述文章新章节的检测方法。本专利技术实施例的文章新章节的检测方法及装置,通过确定文章的已检测章节的第一主题词向量;第一主题词向量用于标识文章的已检测章节的内容;确定文章的新章节的第二主题词向量;第二主题词向量用于标识文章的新章节的内容;计算第一主题词向量和第二主题词向量的相似度;根据相似度与预设相似度阈值的大小关系,判断新章节是否为文章的虚假章节。采用本专利技术实施例的技术方案,整个文章新章节的检测流程不需要人工干预,代价极低,可以避免采用人工审核的方式审核文章的新章节,可以有效地节省人力成本。而且采用本专利技术实施例的技术方案,通过智能化地有效地深入分析文章的已检测章节及新章节,能够准确地确定出新章节是否为虚假章节。本专利技术实施例的技术方案在线识别过程仅需要毫秒级,丝毫不影响章节推送速度,从而能够在新章节为有效章节时,及时的推送新章节,有效地保证了文章新章节的推送效率。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术一实施例提供的文章新章节的检测方法的流程图。图2为本专利技术另一实施例提供的文章新章节的检测方法的流程图。图3为本专利技术一实施例提供的文章新章节的检测装置的结构示意图。图4为本专利技术另一实施例提供的文章新章节的检测装置的结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进一步地详细描述。图1为本专利技术一实施例提供的文章新章节的检测方法的流程图。如图1所示,本实施例的文章新章节的检测方法,具体可以包括如下步骤:100、确定文章的已检测章节的第一主题词向量;其中第一主题词向量用于标识文章的已检测章节的内容;本实施例的已检测章节为该文章的已经确定的有效章节,该有效章节可以理解为采用本专利技术实施例的方法已经确定为有效章节的章节。需要说明的是,在确定该文章的第一章节时,由于不存在已检测章节,不能采用本专利技术实施例的方法,可以采用人工审核的方法审核第一章节是否为有效章节。例如,确定文章的已检测章节的第一主题词向量的过程可以理解为对已检测章节进行训练提取第一主题词向量的过程。101、确定文章的新章节的第二主题词向量;其中第二主题词向量用于标识文章的新章节的内容。本实施例中,步骤101“确定文章的新章节的第二主题词向量”与步骤“确定文章的已检测章节的第一主题词向量”的具体实现过程可以相同。例如,确定文章的新章节的第二主题词向量的过程可以理解为对新章节进行训练提取第二主题词向量的过程。其中优选地,本实施例中第二主题词向量与第一主题词向量包括的主题词的数量相同。102、计算第一主题词向量和第二主题词向量的相似度;103、根据相似度与预设相似度阈值的大小关系,判断新章节是否为文章的虚假章节。本实施例的文章新章节的检测方法的执行主体可以为一文章新章节的检测装置。例如该文章新章节的检测装置可以设置在文章聚合平台中。本实施例的文章新章节的检测方法,通过确定文章的已检测章节的第一主题词向量;第一主题词向量用于标识文章的已检测章节的内容;确定文章的新章节的第二主题词向量;第二主题词向量用于标识文章的新章节的内容;计算第一主题词向量和第二主题词向量的相似度;根据相似度与预设相似度阈值的大小关系,判断新章节是否为文章的虚假章节。采用本实施例的技术方案,整个文章新章节的检测流程不需要人工干预,代价极低,可以避免采用人工审核的方式审核文章的新章节,可以有效地节省人力成本。而且采用本实施例的技术方案,通过智能化地有效地深入分析文章的已检测章节及新章节,能够准确地确定出新章节是否为虚假章节。本实施例的技术方案在线识别过程仅需要毫秒级,丝毫不影响章节推送速度,从而能够在新章节为有效章节时,及时的推送新章节,有效地保证了文章新章节的推送效率。可选地,在上述图1所示实施例的技术方案的基础上,其中步骤100“确定文章的已检测章节的第一主题词向量”,具体可以包括如下步骤:(1)对文章的已检测章节进行文字拆分,得到多个候选词;(2)计算多个候选词中每个候选词的权重;(3)根据多个候选词以及多个候选词中每个候选词的权重,生成第一主题词向量。例如其中步骤(2)“计算多个候选词中每个候选词的权重”,具体可以包括:计算每个候选词的长度、在文章中出现的频率、左邻字符集的熵和右邻字符集的熵;并根据每个候选词的长度、在文章中出现的频率、左邻字符集的熵和右邻字符集的熵,计算每个候选词的权重。左邻字符集是指一段话里某个词左边出现的字符集的集合,右邻字本文档来自技高网...

【技术保护点】
1.一种文章新章节的检测方法,其特征在于,用于文章聚合平台,所述方法包括:对文章的新章节进行文字拆分,得到多个候选词;计算所述多个候选词中每个所述候选词的权重;根据所述多个候选词以及所述多个候选词中每个所述候选词的权重,生成第二主题词向量,所述第二主题词向量是指所述新章节的主题词向量;计算所述第二主题词向量和第一主题词向量的相似度,所述第一主题词向量是指所述文章的已检测章节的主题词向量;当所述相似度小于预设相似度阈值时,确定所述新章节为所述文章的虚假章节。

【技术特征摘要】
1.一种文章新章节的检测方法,其特征在于,用于文章聚合平台,所述方法包括:对文章的新章节进行文字拆分,得到多个候选词;计算所述多个候选词中每个所述候选词的权重;根据所述多个候选词以及所述多个候选词中每个所述候选词的权重,生成第二主题词向量,所述第二主题词向量是指所述新章节的主题词向量;计算所述第二主题词向量和第一主题词向量的相似度,所述第一主题词向量是指所述文章的已检测章节的主题词向量;当所述相似度小于预设相似度阈值时,确定所述新章节为所述文章的虚假章节。2.根据权利要求1所述的方法,其特征在于,所述计算所述多个候选词中每个所述候选词的权重,包括:计算每个所述候选词的长度、在所述文章中出现的频率、左邻字符集的熵和右邻字符集的熵;根据每个所述候选词的长度、在所述文章中出现的频率、所述左邻字符集的熵和所述右邻字符集的熵,计算每个所述候选词的权重。3.根据权利要求2所述的方法,其特征在于,所述根据每个所述候选词的长度、在所述文章中出现的频率、所述左邻字符集的熵和所述右邻字符集的熵,计算每个所述候选词的权重,包括:采用如下公式计算每个所述候选词的权重:其中,所述W是所述候选词的权重,所述TF为所述候选词在所述文章中出现的频率,所述Ha为所述左邻字符集的熵,所述Hb为所述右邻字符集的熵,所述L为所述候选词的长度。4.根据权利要求2所述的方法,其特征在于,所述左邻字符集的熵根据所述左邻字符集中每个字符在所述左邻字符集中的概率计算得到,所述右邻字符集的熵根据所述右邻字符集中每个字符在所述右邻字符集中的概率计算得到。5.根据权利要求1所述的方法,其特征在于,所述根据所述多个候选词以及所述多个候选词中每个所述候选词的权重,生成第二主题词向量,包括:从所述多个候选词中,按照权重由高到低的顺序取出M个候选词,生成所述第二主题词向量。6.根据权利要求1所述的方法,其特征在于,所述计算所述多个候选词中每个所述候选词的权重之后,所述方法还包括:统计所述多个候选词中每个所述候选词的文档频率,所述文档频率为所述候选词在文章池所包括的N篇文章中出现的文章篇数;根据所述多个候选词中每个所述候选词的文档频率和所述文章池所包括的文章数量N,更新所述多个候选词中每个所述候选词的权重,得到每个所述候选词更新后的权重;所述根据所述多个候选词以及所述多个候选词中每个所述候选词的权重,生成第二主题词向量,包括:根据所述多个候选词以及所述多个候选词中每个所述候选词更新后的权重,生成所述第二主题词向量。7.根据权利要求6所述的方法,其特征在于,所述根据所述多个候选词中每个所述候选词的文档频率和所述文章池所包括的文章数量N,更新所述多个候选词中每个所述候选词的权重,得到每个所述候选词更新后的权重,包括:采用如下公式计算每个所述候选词更新后的权重:W=W*log(N/DF),其中所述W为所述候选词的权重,所述DF为所述候选词的文档频率。8.根据权...

【专利技术属性】
技术研发人员:蔡兵
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1