网络信息的过滤方法,计算机可读存储介质和移动终端技术

技术编号:23191058 阅读:19 留言:0更新日期:2020-01-24 16:19
本发明专利技术关于一种网络信息过滤方法,包括从营业执照等图片格式的数据中选取关键词,对关键词在搜索引擎上进行检索,根据检索结果的数量以及更新时间对关键词的相关性进行排序以去除干扰选出重要性高的关键词,从重要性高的关键词中挑选多个进行组合,以形成用于监控的更准确的检索式,以及根据该检索式再次检索,查找检索结果中监控目标词与检索式中的关键词是否一起出现且具有关联性,并将具有关联性的关键词进行过滤以便于自动统计辖区内网络经营主体是否存在违规行为。本发明专利技术还公开了执行该方法的计算机可读存储介质和移动终端。

Filtering method of network information, computer readable storage medium and mobile terminal

【技术实现步骤摘要】
网络信息的过滤方法,计算机可读存储介质和移动终端
本申请关于网络监控技术的领域,更具体地关于一种网络信息过滤方法,以及计算机可读存储介质和移动终端。
技术介绍
在网络监管领域中需要在一定的辖区范围之内对在网上提供特定种类商品或者服务的所有经营主体进行核查,判断其是否存在违法违规行为,如消费者投诉、安全生产事故、失信行为、假冒伪劣、侵权知识产权等。由于网络经营主体的数量大且实际身份难以确认,以及需要进行核查的监管规则众多,批量统计辖区内所有经营主体是否存在违法违规行为需要较大工作量的人工核验。又因为网络经营主体的经营范围,经营地点和违法违规行为都可能频繁地出现变化,如果没有可以自动批量进行网络监管的方法存在,人工定时进行更新工作所消耗的资源一般是难以接受的。因此需要一种可以自动批量对辖区内的大量网络经营主体进行违法违规行为监控的手段。
技术实现思路
本专利技术的目的在于提供一种网络信息过滤方法,包括从来源接收图像形式的源数据,从图像形式的源数据中截取多个预设形状的矩形区域,从多个矩形区域中识别多个关键词,根据多个关键词之中的每个进行检索以获取多个候选地址,根据所获取的多个候选地址的数量和更新时间的顺序对多个关键词排序,将所排序的多个关键词存储在离线表格中,从离线表格中按照所排序的顺序逐个选取至少两个关键词形成检索式并删除未被选取的关键词,将预先确定的目标词加入检索式进行检索以获取多个监控地址,在多个监控地址所对应的页面中的文本格式内容中寻找目标词,根据目标词的出现频率以及目标词与检索式所包括的至少两个关键词的关联性来确定是否对至少两个关键词进行过滤,以及若确定进行过滤,则将所述至少两个关键词及其来源确定为关于所述目标词的被过滤内容并存储和显示该被过滤内容。在优选实施例中,关联性根据目标词与检索式所包括的至少两个关键词相隔的距离而变化。在优选实施例中,目标词与检索式所包括的至少两个关键词在根据预先建立的概率分布数据库中语义相似性越低,则关联性就越大。在优选实施例中,所识别的多个关键词中的每个的长度大于预设的长度阈值。在优选实施例中,根据多个关键词之中的每个进行检索以获取多个候选地址的步骤还包括根据多个候选地址的数量而减少每个关键词所包含的字符的数量。在优选实施例中,检索式包括至少两个关键词以“与”逻辑相互组合以形成的组合。在优选实施例中,检索式包括以“或”逻辑相互组合的两个或更多所述组合。在优选实施例中,还包括根据所述关联性确定根据所述检索式进行检索的频度,以及根据所确定的频度检索并更新所存储的关于所述目标词的所述被过滤内容。本专利技术的实施例还公开了计算机可读存储介质和移动终端,以用于执行本专利技术的实施例所公开的方法步骤。本专利技术所提供的优势在于可以通过所批量截取的图像数据提取关键词,并对关键词进行排序来找出更新日期较近,高频出现且可信度较高的关键词以用于自动监管过程。在自动监管过程中,定义反映监管规则的特定目标词与关键词之间的关联性,以允许以更高的准确性来判断是否存在违规行为并去除检索中发现的无关信息。本专利技术的实施例使得可能实现辖区内经营主体的自动监管,以每月甚至每日的高更新频度从产品广告、营业执照等图片信息保持分析该经营主体是否有各类负面信息,并且可以输出对整个辖区内所有违规的经营主体情况的统计信息。附图说明本专利技术申请的附图是为了提供实施例的图示说明而不是为了限制实施例,在图中相似的附图标记表示相似的元素。图1是根据本公开一些实施例的网络信息过滤方法的流程图。图2是根据本专利技术一些实施例的移动终端的框图。具体实施方式需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。如图1所示,在步骤S101中,首先从来源接收图像形式的源数据。来源可以是主机或Internet上的地址等。从来源接收的图像形式的源数据可以是以图像等不可编辑格式来保存的含有监管中需要审核的特定信息的数据,例如产品海报,营业执照等。根据源数据的特性可以从中截取多个具有预设大小和形状的矩形区域,这些矩形区域之内包含有字符。可以根据分布有字符的区域的特征,如色彩分布等使得矩形区域尽量少地包含不具有字符的区域。可以在截取矩形区域之前先进行图像二值化等操作以进一步便于选取包含文字的区域。矩形区域的大小优选包括3-10个字符,这可以根据监管所需来确定。矩形区域的数量根据字符的估计数量来选取。矩形区域可以相互重叠从而具有共同的几个字符但并不完全重合。此后,从每个矩形区域中通过光学字符识别OCR等来提取矩形区域内的字符所构成的字符串,也就是关键词。所识别的多个关键词中的每个的长度应大于预设的长度阈值,如7-8个字符,以避免所截取的关键词带来过多的检索噪声。在步骤S102中,对所提取的关键词进行初步检索,根据使用场景检索可以在预备的以哈希表,查找树等结构进行存储的离线数据库中进行,也可以在在线的情况下在商用的搜索引擎上进行。所检索到的地址此时为候选地址,其中将包括大量的干扰信息,或者由于关键词选择不当而无法得到正确结果。所检索出的候选地址的数量和更新时间将用于评价所使用的关键词是否能产生具有充足数量且更新及时的搜索结果,可以对关键词进行排序,检索结果数量较多且更新时间较新的关键词也将被排序为较靠前的位置,而检索结果数量小且在感兴趣时间内无更新的则被排序到靠近末尾的位置。对于所提取的关键词数量较多的情况,仅从排序在前的关键词中进行选择,而在后的关键词通过初步检索被去除。优选将关键词的预设长度阈值设置为相对于监管所需的关键词如公司名称,商品名称等具有更多的字符,在检索到的后续地址数量过少时,应减少所对应关键词中的字符数以便对该部分的关键词尝试进行修正。还优选根据监管中所关注的特定方面,如法人或个人名称,地址,时间等来对排序后的关键词进行筛选,删除与所关注的特定方面无关的部分关键词。在步骤S103中,将所排序的多个关键词依次存储在离线表格中,并从该表格中按照排序的顺序选择至少两个关键词用于之后的第二步检索。本文档来自技高网
...

【技术保护点】
1.一种网络信息过滤方法,其特征在于包括:/n从来源接收图像形式的源数据;/n从所述图像形式的源数据中截取多个预设形状的矩形区域;/n从所述多个矩形区域中识别多个关键词;/n根据所述多个关键词之中的每个进行检索以获取多个候选地址;/n根据所获取的所述多个候选地址的数量和更新时间的顺序对所述多个关键词排序;/n将所排序的多个关键词存储在离线表格中;/n从所述离线表格中按照所排序的顺序逐个选取至少两个关键词形成检索式并删除未被选取的关键词;/n将预先确定的目标词加入所述检索式进行检索以获取多个监控地址;/n在多个监控地址所对应的页面中的文本格式内容中寻找所述目标词;/n根据目标词的出现频率以及目标词与所述检索式所包括的所述至少两个关键词的关联性来确定是否对所述至少两个关键词进行过滤;以及/n若确定进行过滤,则将所述至少两个关键词及其来源确定为关于所述目标词的被过滤内容并存储和显示所述被过滤内容。/n

【技术特征摘要】
1.一种网络信息过滤方法,其特征在于包括:
从来源接收图像形式的源数据;
从所述图像形式的源数据中截取多个预设形状的矩形区域;
从所述多个矩形区域中识别多个关键词;
根据所述多个关键词之中的每个进行检索以获取多个候选地址;
根据所获取的所述多个候选地址的数量和更新时间的顺序对所述多个关键词排序;
将所排序的多个关键词存储在离线表格中;
从所述离线表格中按照所排序的顺序逐个选取至少两个关键词形成检索式并删除未被选取的关键词;
将预先确定的目标词加入所述检索式进行检索以获取多个监控地址;
在多个监控地址所对应的页面中的文本格式内容中寻找所述目标词;
根据目标词的出现频率以及目标词与所述检索式所包括的所述至少两个关键词的关联性来确定是否对所述至少两个关键词进行过滤;以及
若确定进行过滤,则将所述至少两个关键词及其来源确定为关于所述目标词的被过滤内容并存储和显示所述被过滤内容。


2.权利要求1所述的方法,其特征在于所述关联性根据所述目标词与所述检索式所包括的所述至少两个关键词相隔的距离而变化。


3.权利要求2所述的方法,其特征在于所述目标词与所述检索式所包括的所述至少两个关键词在根据预先建立的概率分布数据库...

【专利技术属性】
技术研发人员:李友宙钟央丹
申请(专利权)人:浙江善政科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1