章节目录筛选方法及装置制造方法及图纸

技术编号:14388186 阅读:79 留言:0更新日期:2017-01-10 15:41
本发明专利技术公开了一种章节目录筛选方法及装置,属于互联网领域。所述方法包括:对于文章的各个章节目录,计算每个章节目录的杂质率,该杂质率是指该章节目录中杂质字符串占全部字符串的比例,该杂质字符串为属于杂质词库的字符串;将杂质率高于杂质率阈值的章节目录判定为与文章的内容无关的无关章节目录;将杂质率低于杂质率阈值的章节目录判定为第一待定章节目录,根据各个第一待定章节目录的章节内容确定出与文章的内容无关的无关章节目录。本公开解决了由于网络书籍中混入了大量与网络书籍无关的杂质信息,导致影响用户的阅读效率下降的问题;达到了仅显示与文章相关的相关章节,提高用户的阅读效率的效果。

【技术实现步骤摘要】

本专利技术涉及互联网领域,特别涉及一种章节目录筛选方法及装置
技术介绍
近年来随着网络文学的兴起,越来越多的人已经摆脱纸质书籍,而选择在电脑和手机上看网络书籍。网络书籍是以网络为媒介手段,实现浏览借阅与管理网络一体化的电子图书,用户通过在线或离线的方式可以在智能设备上进行阅读。目前许多网络书籍中混入了大量与网络书籍无关的杂质信息,比如广告信息、推荐信息等,而这些杂质信息非常影响用户的阅读效率。
技术实现思路
为了解决由于网络书籍中混入了大量与网络书籍无关的杂质信息,导致影响用户的阅读效率下降的问题,本专利技术实施例提供了一种章节目录筛选方法及装置。所述技术方案如下:根据本专利技术实施例的第一方面,提供了一种章节目录筛选方法,所述方法包括:对于文章的各个章节目录,计算每个章节目录的杂质率,所述杂质率是指所述章节目录中杂质字符串占全部字符串的比例,所述杂质字符串为属于杂质词库的字符串;将杂质率高于杂质率阈值的章节目录判定为与所述文章的内容无关的无关章节目录;将杂质率低于杂质率阈值的章节目录判定为第一待定章节目录,根据各个第一待定章节目录的章节内容确定出与所述文章的内容无关的无关章节目录。根据本专利技术实施例的第二方面,提供了一种章节目录筛选装置,所述装置包括:计算模块,用于对于文章的各个章节目录,计算每个章节目录的杂质率,所述杂质率是指所述章节目录中杂质字符串占全部字符串的比例,所述杂质字符串为属于杂质词库的字符串;判定模块,用于将杂质率高于杂质率阈值的章节目录判定为与所述文章的内容无关的无关章节目录;确定模块,用于将杂质率低于杂质率阈值的章节目录判定为第一待定章节目录,根据各个第一待定章节目录的章节内容确定出与所述文章的内容无关的无关章节目录。本专利技术实施例提供的技术方案带来的有益效果是:通过获取文章的章节目录和章节内容,根据章节目录和章节内容确定出该文章的无关章节,由于无关章节的章节内容与该文章的内容无关,易影响用户的阅读效率;因此解决了由于网络书籍中混入了大量与网络书籍无关的杂质信息,导致影响用户的阅读效率下降的问题;达到了仅显示与文章相关的相关章节,提高用户的阅读效率的效果。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一个实施例的一种章节目录筛选系统的结构示意图;图2是本专利技术一个实施例提供的服务器的结构示意图;图3是本专利技术一个实施例中提供的章节目录筛选方法的流程图;图4A是本专利技术另一个实施例中提供的章节目录筛选方法的流程图;图4B是本专利技术一个实施例中提供的计算每个章节目录的杂质率方法的流程图;图4C是本专利技术一个实施例中提供的根据各个第一待定章节目录的章节内容确定出与文章的内容无关的无关章节目录方法的流程图;图4D是本专利技术一个实施例中提供的对各个第二待定章节目录对应的章节内容进行主题相关性检测,从第二待定章节目录中筛选出无关章节目录方法的流程图;图4E是本专利技术一个实施例中提供的计算该文章的文章特征向量方法的流程图;图4F是本专利技术一个实施例中提供的计算各个第二待定章节目录对应的章节特征向量的流程图;图5是本专利技术一个实施例中提供的章节目录筛选装置的结构方框图。具体实施方式系统环境:请参考图1,其示出了本专利技术一个实施例的一种章节目录筛选系统的结构示意图。该系统包括资源服务器100、后台服务器集群120和至少一个终端140。资源服务器100可以是一台服务器,或者由若干台服务器组成的服务器集群,或者是一个云计算服务中心。类似的,后台服务器集群120可以是一台服务器,或者由若干台服务器组成的服务器集群,或者是一个云计算服务中心。后台服务器集群120分别与资源服务器100和终端140通过无线网络或者有线网络相连。终端140可以是手机、平板电脑、电子书阅读器、膝上型便携计算机和台式计算机等等。示意性实施例:图2示出了本专利技术一个实施例提供的服务器的结构示意图。该服务器可以是后台服务器集群120中的服务器。具体来讲:服务器200包括中央处理单元(CPU)201、包括随机存取存储器(RAM)202和只读存储器(ROM)203的系统存储器204,以及连接系统存储器204和中央处理单元201的系统总线205。服务器200还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)206,和用于存储操作系统213、应用程序214和其他程序模块215的大容量存储设备207。基本输入/输出系统206包括有用于显示信息的显示器208和用于用户输入信息的诸如鼠标、键盘之类的输入设备209。其中显示器208和输入设备209都通过连接到系统总线205的输入输出控制器210连接到中央处理单元201。基本输入/输出系统206还可以包括输入输出控制器210以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器210还提供输出到显示屏、打印机或其他类型的输出设备。大容量存储设备207通过连接到系统总线205的大容量存储控制器(未示出)连接到中央处理单元201。大容量存储设备207及其相关联的计算机可读介质为服务器200提供非易失性存储。也就是说,大容量存储设备207可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术,CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器204和大容量存储设备207可以统称为存储器。根据本专利技术的各种实施例,服务器200还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器200可以通过连接在系统总线205上的网络接口单元211连接到网络212,或者说,也可以使用网络接口单元211来连接到其他类型的网络或远程计算机系统(未示出)。上述存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,被配置由CPU执行。为了更详细地说明本专利技术实施例,下面采用方法实施例对本专利技术实施例提供的章节目录筛选系统的运作原理进行阐述。图3是本专利技术一个实施例中提供的章节目录筛选方法的流程图。本实施例以该章节目录筛选方法应用于图1所示的后台服务器集群来举例说明。该方法包括。步骤301,对于文章的各个章节目录,计算每个章节目录的杂质率,该杂质率是指该章节目录中杂质字符串占全部字符串的比例,该杂质字符串为属于杂质词库的字符串。步骤302,将杂质率高于杂质率阈值的章节目录判定为与文章的内容无关的无关章节目录。步骤303,将杂质率低于杂质率阈值的章节目录判定为第一待定章节目录,根据各个第一待定章节目录的章节内容确定出与文章的内容无关的无关章节目录。综上所述,本专利技术实施例本文档来自技高网...
章节目录筛选方法及装置

【技术保护点】
一种章节目录筛选方法,其特征在于,所述方法包括:对于文章的各个章节目录,计算每个章节目录的杂质率,所述杂质率是指所述章节目录中杂质字符串占全部字符串的比例,所述杂质字符串为属于杂质词库的字符串;将杂质率高于杂质率阈值的章节目录判定为与所述文章的内容无关的无关章节目录;将杂质率低于杂质率阈值的章节目录判定为第一待定章节目录,根据各个第一待定章节目录的章节内容确定出与所述文章的内容无关的无关章节目录。

【技术特征摘要】
1.一种章节目录筛选方法,其特征在于,所述方法包括:对于文章的各个章节目录,计算每个章节目录的杂质率,所述杂质率是指所述章节目录中杂质字符串占全部字符串的比例,所述杂质字符串为属于杂质词库的字符串;将杂质率高于杂质率阈值的章节目录判定为与所述文章的内容无关的无关章节目录;将杂质率低于杂质率阈值的章节目录判定为第一待定章节目录,根据各个第一待定章节目录的章节内容确定出与所述文章的内容无关的无关章节目录。2.根据权利要求1所述的方法,其特征在于,在所述计算每个章节目录的杂质率之前,所述方法还包括:对于每个章节目录,检测所述章节目录是否包含符合白名单的模式串;当所述章节目录不包含符合所述白名单的模式串时,检测所述章节目录是否包含符合黑名单的模式串;当检测到所述章节目录包含符合所述黑名单的模式串时,确定所述章节目录为无关章节目录;当检测到所述章节目录不包含符合所述黑名单的模式串时,将所述章节目录确定为需要计算杂质率的章节目录。3.根据权利要求2所述的方法,其特征在于,在所述对于每个章节目录,检测所述章节目录是否包含符合白名单的模式串之前,所述方法还包括:对所述章节目录进行预处理,所述预处理包括如下至少一项:文字转码、去除超文本标记语言HTML标签。4.根据权利要求1所述的方法,其特征在于,所述计算每个章节目录的杂质率,包括:对于每个章节目录,获取所述章节目录字符串中属于所述杂质词库的杂质词的长度;将所述杂质词的长度除以所述章节目录的总长度,得到所述章节目录的杂质率。5.根据权利要求1-4中任一所述的方法,其特征在于,所述根据各个第一待定章节目录的章节内容确定出与所述文章的内容无关的无关章节目录,包括:对各个第一待定章节目录对应的章节内容进行预处理;对于每个第一待定章节目录,将所述第一待定章节目录的章节内容输入数据分析模型,将该数据分析模型判定为无关章节目录的第一待定章节目录筛选为第二待定章节目录;对各个第二待定章节目录对应的章节内容进行主题相关性检测,从第二待定章节目录中筛选出无关章节目录。6.根据权利要求5所述的方法,其特征在于,所述对各个第二待定章节目录对应的章节内容进行主题相关性检测,从第二待定章节目录中筛选出无关章节目录,包括:根据所述文章的所有章节目录对应的章节内容,计算所述文章的文章特征向量;根据各个第二待定章节目录对应的章节内容,计算各个第二待定章节目录对应的章节特征向量;对于每个第二待定章节目录,计算所述文章特征向量与所述第二待定章节目录对应的章节特征向量之间的余弦距离;当所述余弦距离小于预定距离时,将所述第二待定章节目录判定为无关章节目录。7.根据权利要求6所述的方法,其特征在于,所述计算所述文章的文章特征向量,包括:统计所述文章中各个字符串的出现频率;对于每个字符串,将所述字符串与所述字符串对应的出现频率记为所述字符串对应的二元组;将各个字符串对应的二元组组成的二元组集合记为所述文章对应的特征向量。8.根据权利要求6所述的方法,其特征在于,所述计算各个第二待定章节目录对应的章节特征向量,包括:对于每个第二待定章节目录,统计所述第二待定章节中各个字符串的出现频率;对于每个字符串,将所述字符串与所述字符串对应的出现频率记为所述字符串对应的二元组;将各个字符串对应的二元组组成的二元组集合记为所述第二待定章节对应的特征向量。9.根据权利要求5所述的方法,其特征在于,所述将所述第一待定章节目录的章节内容输入数据分析模型,包括:按照预定规则从所述第一待定章节目录对应的章节内容中抽取部分内容,将所述部分内容输入数据分析模型。10.一种章节目录筛选装置,其特征在于,所述装置包括:计算模块,用于对于文章...

【专利技术属性】
技术研发人员:荆宁
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1