数据配置方法、公众号文章清洗方法、装置及系统制造方法及图纸

技术编号:21090022 阅读:43 留言:0更新日期:2019-05-11 10:07
本发明专利技术公开一种数据配置方法、公众号文章清洗方法、装置及系统,方法包括:将公众号的待清洗文章与文本库进行文本匹配,得到待清洗文章中的匹配文本;文本库包括参考文章中已标记的至少一个干扰文本;根据文本库中与待清洗文章相匹配的干扰文本所对应的文本清洗方式,及待清洗文章中的匹配文本,对待清洗文章进行清洗,得到文本清洗结果;将文本清洗结果中的图片与图库进行图片相似度匹配,得到所述待清洗文章中的匹配图片;图库包括参考文章中带有标记的至少一个干扰图片;将所述匹配图片从文本清洗结果中清除。采用上述技术方案能够有效清除微信公众号所推送文章中的干扰信息,提高干扰信息的清除效率。

【技术实现步骤摘要】
数据配置方法、公众号文章清洗方法、装置及系统
本专利技术涉及计算机
,特别是涉及数据配置方法、公众号文章清洗方法、装置及系统。
技术介绍
公众号文章,即微信公众号推送的文章,是公众获取媒体信息等内容的重要来源。目前大部分公众号的文章顶部或底部会带有宣传类的文字或者图片,如“点击蓝字,快来关注”等与公众号所推送文章的内容无关的文字或图片。这些无关的文字和图片,给需要对公众号的文章内容进行提取的用户造成了干扰。对于批量处理公众号的人来说,通过手动删除来清除掉这些干扰信息,不仅工作量大,效率低,而且容易遗漏或者误删。
技术实现思路
基于此,有必要提供一种数据配置方法、公众号文章清洗方法、装置及系统,能够有效清除微信公众号所推送文章中的干扰信息,提高干扰信息的清除效率。一方面,本专利技术提供一种公众号文章清洗方法,其包括:将公众号的待清洗文章与文本库进行文本匹配,得到所述待清洗文章中的匹配文本;所述文本库包括参考文章中带有标记的至少一个干扰文本;根据所述文本库中与所述待清洗文章相匹配的干扰文本所对应的文本清洗方式,及所述待清洗文章中的匹配文本,对所述待清洗文章进行清洗,得到文本清洗结果;将本文档来自技高网...

【技术保护点】
1.一种公众号文章清洗方法,其特征在于,包括:将公众号的待清洗文章与文本库进行文本匹配,得到所述待清洗文章中的匹配文本;所述文本库包括参考文章中已标记的至少一个干扰文本;根据所述文本库中与所述待清洗文章相匹配的干扰文本所对应的文本清洗方式,及所述待清洗文章中的匹配文本,对所述待清洗文章进行清洗,得到文本清洗结果;将所述文本清洗结果中的图片与图库进行图片相似度匹配,得到所述待清洗文章中的匹配图片;所述图库包括所述参考文章中带有标记的至少一个干扰图片;将所述匹配图片从所述文本清洗结果中清除;其中,与所述干扰文本所对应的文本清洗方式为:对所述待清洗文章中所述匹配文本之前的段落进行删除的方式、对所述待...

【技术特征摘要】
1.一种公众号文章清洗方法,其特征在于,包括:将公众号的待清洗文章与文本库进行文本匹配,得到所述待清洗文章中的匹配文本;所述文本库包括参考文章中已标记的至少一个干扰文本;根据所述文本库中与所述待清洗文章相匹配的干扰文本所对应的文本清洗方式,及所述待清洗文章中的匹配文本,对所述待清洗文章进行清洗,得到文本清洗结果;将所述文本清洗结果中的图片与图库进行图片相似度匹配,得到所述待清洗文章中的匹配图片;所述图库包括所述参考文章中带有标记的至少一个干扰图片;将所述匹配图片从所述文本清洗结果中清除;其中,与所述干扰文本所对应的文本清洗方式为:对所述待清洗文章中所述匹配文本之前的段落进行删除的方式、对所述待清洗文章中所述匹配文本所在段落进行删除的方式、对所述待清洗文章中所述匹配文本进行删除的方式或对所述待清洗文章中所述匹配文本之后的段落进行删除的方式。2.根据权利要求1所述的公众号文章清洗方法,其特征在于,所述干扰图片的标记为:“设置为干扰图片”、“设置为广告图片”、设置为“二维码图片”、“标记以上内容删除”、“标记以下内容删除”或“设置为正常图片”。3.根据权利要求1所述的公众号文章清洗方法,其特征在于,所述将公众号的待清洗文章与文本库进行文本匹配,包括:检索所述待清洗文章中与所述干扰文本相同的文本;将检索到的文本确定为所述待清洗文章的匹配文本。4.根据权利要求1所述的公众号文章清洗方法,其特征在于,所述方法还包括:在将公众号的待清洗文章与文本库进行文本匹配之前,提供参考文章,并标记所述参考文章中的至少一个干扰文本;根据所述参考文章中已标记的至少一个干扰文本创建文本库;为所述至少一个干扰文本配置与所述干扰文本对应的文本清洗方式;为所述参考文章中的至少一张干扰图片添加标记;根据所述参考文章中带有标记的至少一张干扰图片创建图库。5.根据权利要求1所述的公众号文章清洗方法,其特征在于,所述方法还包括:在将公众号的待清洗文章与文本库进行文本匹配之前,将同一所述公众号的参考文章与文本库进行文本匹配,得到所述待清洗文章中的匹配文本;根据所述文本库中与所述参考文章相匹配的干扰文本所对应的文本清洗方式,及所述参考文章中的匹配文本,对所述参考文章进行清洗,得到参考文章文本清洗结果;将所述参考文章文本清洗结果中的图片与图库进行图片相似度匹配,得到所述参考文章中的匹配图片。所述图库包括所述参考文章中带有标记的至少...

【专利技术属性】
技术研发人员:姚洲鹏
申请(专利权)人:杭州凡闻科技有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1