一种处理信息源的方法、装置及电子设备制造方法及图纸

技术编号:17007458 阅读:26 留言:0更新日期:2018-01-11 03:49
本发明专利技术的实施例公开一种处理信息源的方法、装置及电子设备,涉及信息处理技术,能够提升信息源质量。包括:按照预设的隔断策略对待推送信息源设置隔断标识;提取预设的垃圾组合判断策略集中的任意两种以上垃圾判断策略;遍历待推送信息源相邻两隔断标识之间的信息,按照提取的垃圾判断策略,分别对相邻两隔断标识之间的信息进行垃圾信息判断,并进行相应标记;依据所述相邻两隔断标识包含的信息数,构建基于提取的垃圾判断策略的数组向量,依据构建的数组向量计算对应于相邻两隔断标识之间的信息的文本垃圾密度;若计算的文本垃圾密度大于预设的垃圾密度阈值,删除计算的文本垃圾密度对应的相邻两隔断标识之间的信息。适用于对信息进行预处理。

【技术实现步骤摘要】
一种处理信息源的方法、装置及电子设备
本专利技术涉及信息处理技术,尤其涉及一种处理信息源的方法、装置及电子设备。
技术介绍
随着计算机通信以及互联网技术的不断发展,电子设备,例如,智能移动电话、个人数字助理、掌上电脑、笔记本电脑等应用越来越广泛,同时,电子设备中安装的应用程序(APP,Application)也越来越多,例如,通讯类应用程序(浏览器)、游戏类应用程序、娱乐类应用程序、社交类应用程序(QQ、微信等)、实用生活类应用程序(淘宝、京东、天猫等)等,应用程序提供的应用功能(增值业务)也越来越丰富。其中,一些应用程序具有用户行为特征统计记录功能,并将记录的用户行为特征上报至相应服务器,使得相应服务器可以基于用户的上网浏览的网页等行为特征,定期或不定期向用户推送与用户行为特征相关联的信息源。目前,由于推送信息源的服务器数量众多,推送的信息源种类繁多,一些推送的信息源的质量得不到有效保障,例如,一些服务器为了推广增值业务信息或推广恶意网站,会在推送的原始信息源中添加增值业务信息或恶意网站等信息,使之随同推送的信息源进行展示或转载等,但这些添加的信息相对于用户来说是无用信息,不仅浪费用户的浏览时间,也影响用户缓存信息的缓存速度,使得推送给用户的信息源质量较低,影响用户的浏览体验,使得用户的浏览体验感较差;而且,推送的信息源会消耗用户的流量资源,而流量资源需要用户付费,从而增加了用户的成本。
技术实现思路
有鉴于此,本专利技术实施例提供一种处理信息源的方法、装置及电子设备,能够提升推送的信息源质量,以解决现有的处理信息源的方法中,在推送的信息源中添加信息导致推送的信息源质量较低的问题。第一方面,本专利技术实施例提供一种处理信息源的方法,包括:按照预先设置的隔断策略对待推送信息源设置隔断标识;提取预先设置的垃圾组合判断策略集中的任意两种以上垃圾判断策略;遍历所述待推送信息源相邻两隔断标识之间的信息,按照提取的垃圾判断策略,分别对所述相邻两隔断标识之间的信息进行垃圾信息判断,并进行相应标记;依据所述相邻两隔断标识包含的信息数,构建基于所述提取的垃圾判断策略的数组向量,依据构建的数组向量计算对应于相邻两隔断标识之间的信息的文本垃圾密度;如果计算的文本垃圾密度大于预先设置的垃圾密度阈值,删除所述计算的文本垃圾密度对应的相邻两隔断标识之间的信息。结合第一方面,在第一方面的第一种实施方式中,在所述按照预先设置的隔断策略对待推送信息源设置隔断标识之前,所述方法还包括:获取所述待推送信息源中的段落分隔符,删除所述段落分隔符之外的信息。结合第一方面,在第一方面的第二种实施方式中,所述遍历所述待推送信息源相邻两隔断标识之间的信息,按照提取的垃圾判断策略,分别对所述相邻两隔断标识之间的信息进行垃圾信息判断,并进行相应标记包括:读取所述待推送信息源相邻两隔断标识之间的一信息,按照提取的第一垃圾判断策略,对所述相邻两隔断标识之间的一信息进行垃圾信息判断,并进行第一垃圾判断策略标记;按照提取的第二垃圾判断策略,对所述相邻两隔断标识之间的一信息再次进行垃圾信息判断,并进行第二垃圾判断策略标记;判断所述待推送信息源相邻两隔断标识之间的信息是否读取完毕,如果是,结束流程,如果否,读取所述待推送信息源相邻两隔断标识之间未被读取的一信息,执行所述按照提取的第一垃圾判断策略的步骤结合第一方面的第二种实施方式,在第一方面的第三种实施方式中,所述读取所述待推送信息源相邻两隔断标识之间的一信息,按照提取的第一垃圾判断策略,对所述相邻两隔断标识之间的一信息进行垃圾信息判断,并进行第一垃圾判断策略标记包括:提取读取的信息中包含的关键字词;将提取的关键字词与预先设置的垃圾字词库进行匹配,如果相匹配,标记所述读取的信息为垃圾信息,如果不相匹配,标记所述读取的信息为非垃圾信息,所述标记映射关键字匹配策略。结合第一方面的第二种实施方式,在第一方面的第四种实施方式中,所述读取所述待推送信息源相邻两隔断标识之间的一信息,按照提取的第一垃圾判断策略,对所述相邻两隔断标识之间的一信息进行垃圾信息判断,并进行第一垃圾判断策略标记包括:获取读取的信息中的语句的词语关系;对获取的词语关系进行贝叶斯过滤,如果过滤结果表明为垃圾,标记所述读取的信息为垃圾信息,如果过滤结果表明为非垃圾,标记所述读取的信息为非垃圾信息,所述标记映射贝叶斯过滤策略。结合第一方面的第二种实施方式,在第一方面的第五种实施方式中,所述读取所述待推送信息源相邻两隔断标识之间的一信息,按照提取的第一垃圾判断策略,对所述相邻两隔断标识之间的一信息进行垃圾信息判断,并进行第一垃圾判断策略标记包括:获取读取的信息对应的初始消息摘要算法第五版值;对所述读取的信息进行消息摘要算法第五版值计算,得到当前消息摘要算法第五版值;如果初始消息摘要算法第五版值与当前消息摘要算法第五版值不相同,标记所述读取的信息为垃圾信息,如果初始消息摘要算法第五版值与当前消息摘要算法第五版值相同,标记所述读取的信息为非垃圾信息,所述标记映射消息摘要算法第五版策略。结合第一方面、第一方面的第一种至第五种中任一种实施方式,在第一方面的第六种实施方式中,所述依据所述相邻两隔断标识包含的信息数,构建基于所述提取的垃圾判断策略的数组向量包括:依次以隔断包含的每一信息为一行,以每一垃圾判断策略为一列构建所述数组向量;将每一垃圾判断策略为每一所述读取的信息标记的数值写入所述数组向量相应的行列中。结合第一方面的第六种实施方式,在第一方面的第七种实施方式中,所述依据构建的数组向量计算对应于相邻两隔断标识之间的信息的文本垃圾密度包括:统计一行中标记为垃圾信息的总列数;将统计得到的总列数除以所述数组向量的总行数,得到该行的文本垃圾密度。第二方面,本专利技术实施例提供一种处理信息源的装置,包括:隔断模块、策略提取模块、标记模块、文本垃圾密度计算模块以及文本垃圾处理模块,其中,隔断模块,用于按照预先设置的隔断策略对待推送信息源设置隔断标识;策略提取模块,用于提取预先设置的垃圾组合判断策略集中的任意两种以上垃圾判断策略;标记模块,用于遍历所述待推送信息源相邻两隔断标识之间的信息,按照提取的垃圾判断策略,分别对所述相邻两隔断标识之间的信息进行垃圾信息判断,并进行相应标记;文本垃圾密度计算模块,用于依据所述相邻两隔断标识包含的信息数,构建基于所述提取的垃圾判断策略的数组向量,依据构建的数组向量计算对应于相邻两隔断标识之间的信息的文本垃圾密度;文本垃圾处理模块,如果计算的文本垃圾密度大于预先设置的垃圾密度阈值,删除所述计算的文本垃圾密度对应的相邻两隔断标识之间的信息。结合第二方面,在第二方面的第一种实施方式中,所述装置还包括:段落分隔符处理模块,用于获取所述待推送信息源中的段落分隔符,删除所述段落分隔符之外的信息。结合第二方面,在第二方面的第二种实施方式中,所述标记模块包括:隔断信息第一标记单元、隔断信息第二标记单元以及第一判断单元,其中,隔断信息第一标记单元,用于读取所述待推送信息源相邻两隔断标识之间的一信息,按照提取的第一垃圾判断策略,对所述相邻两隔断标识之间的一信息进行垃圾信息判断,并进行第一垃圾判断策略标记;隔断信息第二标记单元,用于按照提取的第二垃圾判断策略,对所述相邻两隔本文档来自技高网...
一种处理信息源的方法、装置及电子设备

【技术保护点】
一种处理信息源的方法,其特征在于,包括:按照预先设置的隔断策略对待推送信息源设置隔断标识;提取预先设置的垃圾组合判断策略集中的任意两种以上垃圾判断策略;遍历所述待推送信息源相邻两隔断标识之间的信息,按照提取的垃圾判断策略,分别对所述相邻两隔断标识之间的信息进行垃圾信息判断,并进行相应标记;依据所述相邻两隔断标识包含的信息数,构建基于所述提取的垃圾判断策略的数组向量,依据构建的数组向量计算对应于相邻两隔断标识之间的信息的文本垃圾密度;如果计算的文本垃圾密度大于预先设置的垃圾密度阈值,删除所述计算的文本垃圾密度对应的相邻两隔断标识之间的信息。

【技术特征摘要】
1.一种处理信息源的方法,其特征在于,包括:按照预先设置的隔断策略对待推送信息源设置隔断标识;提取预先设置的垃圾组合判断策略集中的任意两种以上垃圾判断策略;遍历所述待推送信息源相邻两隔断标识之间的信息,按照提取的垃圾判断策略,分别对所述相邻两隔断标识之间的信息进行垃圾信息判断,并进行相应标记;依据所述相邻两隔断标识包含的信息数,构建基于所述提取的垃圾判断策略的数组向量,依据构建的数组向量计算对应于相邻两隔断标识之间的信息的文本垃圾密度;如果计算的文本垃圾密度大于预先设置的垃圾密度阈值,删除所述计算的文本垃圾密度对应的相邻两隔断标识之间的信息。2.根据权利要求1所述的处理信息源的方法,其特征在于,在所述按照预先设置的隔断策略对待推送信息源设置隔断标识之前,所述方法还包括:获取所述待推送信息源中的段落分隔符,删除所述段落分隔符之外的信息。3.根据权利要求1所述的处理信息源的方法,其特征在于,所述遍历所述待推送信息源相邻两隔断标识之间的信息,按照提取的垃圾判断策略,分别对所述相邻两隔断标识之间的信息进行垃圾信息判断,并进行相应标记包括:读取所述待推送信息源相邻两隔断标识之间的一信息,按照提取的第一垃圾判断策略,对所述相邻两隔断标识之间的一信息进行垃圾信息判断,并进行第一垃圾判断策略标记;按照提取的第二垃圾判断策略,对所述相邻两隔断标识之间的一信息再次进行垃圾信息判断,并进行第二垃圾判断策略标记;判断所述待推送信息源相邻两隔断标识之间的信息是否读取完毕,如果是,结束流程,如果否,读取所述待推送信息源相邻两隔断标识之间未被读取的一信息,执行所述按照提取的第一垃圾判断策略的步骤。4.根据权利要求3所述的处理信息源的方法,其特征在于,所述读取所述待推送信息源相邻两隔断标识之间的一信息,按照提取的第一垃圾判断策略,对所述相邻两隔断标识之间的一信息进行垃圾信息判断,并进行第一垃圾判断策略标记包括:提取读取的信息中包含的关键字词;将提取的关键字词与预先设置的垃圾字词库进行匹配,如果相匹配,标记所述读取的信息为垃圾信息,如果不相匹配,标记所述读取的信息为非垃圾信息,所述标记映射关键字匹配策略。5.根据权利要求3所述的处理信息源的方法,其特征在于,所述读取所述待推送信息源相邻两隔断标识之间的一信息,按照提取的第一垃圾判断策略,对所述相邻两隔断标识之间的一信息进行垃圾信息判断,并进行第一垃圾判断策略标记包括:获取读取的信息中的语句的词语关系;对获取的词语关系进行贝叶斯过滤,如果过滤结果表...

【专利技术属性】
技术研发人员:高飞
申请(专利权)人:北京金山安全软件有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1