【技术实现步骤摘要】
本专利技术涉及互联网领域,特别涉及一种章节目录筛选方法及装置。
技术介绍
近年来随着网络文学的兴起,越来越多的人已经摆脱纸质书籍,而选择在电脑和手机上看网络书籍。网络书籍是以网络为媒介手段,实现浏览借阅与管理网络一体化的电子图书,用户通过在线或离线的方式可以在智能设备上进行阅读。目前许多网络书籍中混入了大量与网络书籍无关的杂质信息,比如广告信息、推荐信息等,而这些杂质信息非常影响用户的阅读效率。
技术实现思路
为了解决由于网络书籍中混入了大量与网络书籍无关的杂质信息,导致影响用户的阅读效率下降的问题,本专利技术实施例提供了一种章节目录筛选方法及装置。所述技术方案如下:根据本专利技术实施例的第一方面,提供了一种章节目录筛选方法,所述方法包括:对于文章的各个章节目录,计算每个章节目录的杂质率,所述杂质率是指所述章节目录中杂质字符串占全部字符串的比例,所述杂质字符串为属于杂质词库的字符串;将杂质率高于杂质率阈值的章节目录判定为与所述文章的内容无关的无关章节目录;将杂质率低于杂质率阈值的章节目录判定为第一待定章节目录,根据各个第一待定章节目录的章节内容确定出与所述文章的内容无关的无关章节目录。根据本专利技术实施例的第二方面,提供了一种章节目录筛选装置,所述装置包括:计算模块,用于对于文章的各个章节目录,计算每个章节目录的杂质率,所述杂质率是指所述章节目录中杂质字符串占全部字符串的比例,所述杂质字符串为属于杂质词库的字符串;判定模块,用于将杂质率高于杂质率阈值的章节目录判定为与所述文章的内容无关的无关章节目录;确定模块,用于将杂质率低于杂质率阈值的章节目录判定为第一待 ...
【技术保护点】
一种章节目录筛选方法,其特征在于,所述方法包括:对于文章的各个章节目录,计算每个章节目录的杂质率,所述杂质率是指所述章节目录中杂质字符串占全部字符串的比例,所述杂质字符串为属于杂质词库的字符串;将杂质率高于杂质率阈值的章节目录判定为与所述文章的内容无关的无关章节目录;将杂质率低于杂质率阈值的章节目录判定为第一待定章节目录,根据各个第一待定章节目录的章节内容确定出与所述文章的内容无关的无关章节目录。
【技术特征摘要】
1.一种章节目录筛选方法,其特征在于,所述方法包括:对于文章的各个章节目录,计算每个章节目录的杂质率,所述杂质率是指所述章节目录中杂质字符串占全部字符串的比例,所述杂质字符串为属于杂质词库的字符串;将杂质率高于杂质率阈值的章节目录判定为与所述文章的内容无关的无关章节目录;将杂质率低于杂质率阈值的章节目录判定为第一待定章节目录,根据各个第一待定章节目录的章节内容确定出与所述文章的内容无关的无关章节目录。2.根据权利要求1所述的方法,其特征在于,在所述计算每个章节目录的杂质率之前,所述方法还包括:对于每个章节目录,检测所述章节目录是否包含符合白名单的模式串;当所述章节目录不包含符合所述白名单的模式串时,检测所述章节目录是否包含符合黑名单的模式串;当检测到所述章节目录包含符合所述黑名单的模式串时,确定所述章节目录为无关章节目录;当检测到所述章节目录不包含符合所述黑名单的模式串时,将所述章节目录确定为需要计算杂质率的章节目录。3.根据权利要求2所述的方法,其特征在于,在所述对于每个章节目录,检测所述章节目录是否包含符合白名单的模式串之前,所述方法还包括:对所述章节目录进行预处理,所述预处理包括如下至少一项:文字转码、去除超文本标记语言HTML标签。4.根据权利要求1所述的方法,其特征在于,所述计算每个章节目录的杂质率,包括:对于每个章节目录,获取所述章节目录字符串中属于所述杂质词库的杂质词的长度;将所述杂质词的长度除以所述章节目录的总长度,得到所述章节目录的杂质率。5.根据权利要求1-4中任一所述的方法,其特征在于,所述根据各个第一待定章节目录的章节内容确定出与所述文章的内容无关的无关章节目录,包括:对各个第一待定章节目录对应的章节内容进行预处理;对于每个第一待定章节目录,将所述第一待定章节目录的章节内容输入数据分析模型,将该数据分析模型判定为无关章节目录的第一待定章节目录筛选为第二待定章节目录;对各个第二待定章节目录对应的章节内容进行主题相关性检测,从第二待定章节目录中筛选出无关章节目录。6.根据权利要求5所述的方法,其特征在于,所述对各个第二待定章节目录对应的章节内容进行主题相关性检测,从第二待定章节目录中筛选出无关章节目录,包括:根据所述文章的所有章节目录对应的章节内容,计算所述文章的文章特征向量;根据各个第二待定章节目录对应的章节内容,计算各个第二待定章节目录对应的章节特征向量;对于每个第二待定章节目录,计算所述文章特征向量与所述第二待定章节目录对应的章节特征向量之间的余弦距离;当所述余弦距离小于预定距离时,将所述第二待定章节目录判定为无关章节目录。7.根据权利要求6所述的方法,其特征在于,所述计算所述文章的文章特征向量,包括:统计所述文章中各个字符串的出现频率;对于每个字符串,将所述字符串与所述字符串对应的出现频率记为所述字符串对应的二元组;将各个字符串对应的二元组组成的二元组集合记为所述文章对应的特征向量。8.根据权利要求6所述的方法,其特征在于,所述计算各个第二待定章节目录对应的章节特征向量,包括:对于每个第二待定章节目录,统计所述第二待定章节中各个字符串的出现频率;对于每个字符串,将所述字符串与所述字符串对应的出现频率记为所述字符串对应的二元组;将各个字符串对应的二元组组成的二元组集合记为所述第二待定章节对应的特征向量。9.根据权利要求5所述的方法,其特征在于,所述将所述第一待定章节目录的章节内容输入数据分析模型,包括:按照预定规则从所述第一待定章节目录对应的章节内容中抽取部分内容,将所述部分内容输入数据分析模型。10.一种章节目录筛选装置,其特征在于,所述装置包括:计算模块,用于对于文章...
【专利技术属性】
技术研发人员:荆宁,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。