一种基于深度学习审核短信文本链接的方法及装置制造方法及图纸

技术编号:25440282 阅读:37 留言:0更新日期:2020-08-28 22:28
本发明专利技术涉及文本信息审核技术领域,尤其是一种基于深度学习审核短信文本链接的方法及装置,本发明专利技术先调用第三方接口检查网址是否健康,再给短信链接页面截图,接着通过调用OCR接口提取截图页面中的字符,再清洗字符,最后进行审核;采用本发明专利技术的方法短信文本与网址可分开同时处理,能自动对包含网址链接的短信文本进行审核,完全替代人工审核。因此可以提供高并发的短信链接审核,提供高准确率的短信链接审核,提供持续的短信链接审核,极大的提高了短信审核的准确率与效率。

【技术实现步骤摘要】
一种基于深度学习审核短信文本链接的方法及装置
本专利技术涉及文本信息审核
,尤其是一种基于深度学习审核短信文本链接的方法及装置。
技术介绍
在短信发送平台,大多数短信都带有网址信息。当人工审核短信时,除了审核短信文本内容外,还需要手动打开浏览器查看短信文本链接是否符合规范性。由于全过程需要人工处理,这导致了审核效率低且准确率低。目前只有检测网址是否健康的第三方接口,但是没有专门针对短信业务的审核工具,所以这类第三方接口无法直接作为短信文本链接的审核工具。综上所述,现有技术基于人工审核短信链接的准确率低且效率低,因此本专利技术提出了一种基于深度学习审核短信文本链接的方法及装置可以解决上述缺陷。现有技术相关知识点介绍:OCR接口:OCR(OpticalCharacterRecognition,光学字符识别),对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。亦即将图像中的文字进行识别,并以文本的形式返回。它的处理过程为版面分析,预处理,行列切割,字符识别,后处理识别矫正。把这种功能做成其它函数可以调用的接口,即为OCR接口。
技术实现思路
针对上述现有技术中存在的不足,本专利技术的目的在于提供了一种基于深度学习审核短信文本链接的方法及装置,解决现有技术准确率低且效率低的问题。为解决上述问题,本专利技术公开了一种基于深度学习审核短信文本链接的方法,包括以下步骤:S1.从待审核的含网站信息的短信文本中分离出文本信息和网址信息;S2.通过事先训练好的行业分类器对待审核的短信文本进行行业类别识别,对含有网址信息的短信文本记作r_text;S3.调用第三方的接口检查网址是否健康;若不健康,则直接驳回该条短信文本;若健康,则模拟浏览器打开该网址链接后截图整个页面;S4.调用第三方的接口对S3的截图进行文本信息识别;S5.对S4的文本信息进行数据清洗,只保留中文字符;S6.用行业分类器对清洗后的数据进行分类识别,对应结果记作r_url;S7.匹配r_text的行业类别与r_url的行业类别,如果一致则说明该条短信文本审核通过,若不一致则直接驳回该条短信文本。作为优先,S1所述的从短信文本中分离出文本信息和网址信息具体方法如下:通过正则表达式从含有网址的短信文本中提取网址。作为优先,S2所述的行业分类器生成方法如下:把短信文本集合按类别划分,然后利用基于语言模型的深度学习分类器进行训练,最后生成一个行业分类器。作为优先,S4所述的第三方接口采用开源的Tesseract-OCR。为解决上述问题,本专利技术公开了一种基于深度学习审核短信文本链接的装置,包括:文本分离模块,用于从待审核的含网站信息的短信文本中分离出文本信息和网址信息;行业分类模块,用于对待审核的短信文本进行行业类别识别,对含有网址信息的短信文本记作r_text;对清洗后的数据进行分类识别,对应结果记作r_url;接口检测模块,用于检查网址是否健康;若不健康,则直接驳回该条短信文本;若健康,则模拟浏览器打开该网址链接后截图整个页面;文本识别模块,用于对截图进行文本信息识别;数据清洗模块,用于对文本信息进行数据清洗,只保留中文字符;数据匹配模块,用于匹配r_text的行业类别与r_url的行业类别,如果一致则说明该条短信文本审核通过,若不一致则直接驳回该条短信文本。为解决上述问题,本专利技术还公开了一种计算设备,包括:一个或多个处理器;存储器;以及一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据所述的方法中的任一方法的指令。为解决上述问题,本专利技术还公开了一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行根据所述的方法中的任一方法。由于采用上述技术方案,本专利技术有着如下有益效果:本专利技术先调用第三方接口检查网址是否健康,再给短信链接页面截图,接着通过调用OCR接口提取截图页面中的字符,再清洗字符,最后进行审核。采用本专利技术的方法短信文本与网址可分开同时处理,能自动对包含网址链接的短信文本进行审核,完全替代人工审核。因此可以提供高并发的短信链接审核,提供高准确率的短信链接审核,提供持续的短信链接审核,极大的提高了短信审核的准确率与效率。附图说明图1是本专利技术的整体流程示意图;图2是本专利技术实施例的流程示意图。具体实施方式以下结合附图对本专利技术的实施例进行详细说明,但是本专利技术可以由权利要求限定和覆盖的多种不同方式实施。本专利技术公开了一种基于深度学习审核短信文本链接的方法,如图1所述,包括以下步骤:S1.从待审核的含网站信息的短信文本中分离出文本信息和网址信息;S2.通过事先训练好的行业分类器对待审核的短信文本进行行业类别识别,对含有网址信息的短信文本记作r_text;S3.调用第三方的接口检查网址是否健康;若不健康,则直接驳回该条短信文本;若健康,则模拟浏览器打开该网址链接后截图整个页面;所述第三方接口为360或者百度的检查网址的接口,把网址当作参数传入到该接口,然后该接口会返回如下面例子中的结果;S4.调用第三方的接口对S3的截图进行文本信息识别;S5.对S4的文本信息进行数据清洗,只保留中文字符;S6.用行业分类器对清洗后的数据进行分类识别,对应结果记作r_url;S7.匹配r_text的行业类别与r_url的行业类别,如果一致则说明该条短信文本审核通过,若不一致则直接驳回该条短信文本。S1所述的从短信文本中分离出文本信息和网址信息具体方法如下:通过正则表达式从含有网址的短信文本中提取网址;正则表达式如下:r‘((http|ftp|https)://)?[\w\-_]+(((\.[\w\-_]+){3})|((\.[\w\-_]+)*(\.[A-Za-z]+)+))([\w\-\.,@?^=%&:/~\+#!]*[\w\-\@?^=%&/~\+#!])?’S2所述的行业分类器,也是一个接口,具体实现过程为:先把短信文本集合按类别划分;然后,利用基于语言模型的深度学习分类器进行训练;最后当分类器的评价指标达到预期97%以上,则分类器停止训练,这个训练好的分类器就是此处使用的行业分类器。具体训练方式为现有技术手段,此处不再展开描述。S4所述的第三方接口采用谷歌开源的Tesseract-OCR,OCR的具体实现过程也为现有技术手段,此处不再展开描述。本专利技术还公开了一种基于深度学习审核短信文本链接的装置,包括:文本分离模块,用于从待审核的含网站信息的短信文本中分离出文本信息和网址信息;行业分类模块,用于对待审核的短信文本进行行业类别识别,对本文档来自技高网...

【技术保护点】
1.一种基于深度学习审核短信文本链接的方法,其特征在于,包括以下步骤:/nS1.从待审核的含网站信息的短信文本中分离出文本信息和网址信息;/nS2.通过事先训练好的行业分类器对待审核的短信文本进行行业类别识别,对含有网址信息的短信文本记作r_text;/nS3.调用第三方的接口检查网址是否健康;若不健康,则直接驳回该条短信文本;若健康,则模拟浏览器打开该网址链接后截图整个页面;/nS4.调用第三方的接口对S3的截图进行文本信息识别;/nS5.对S4的文本信息进行数据清洗,只保留中文字符;/nS6.用行业分类器对清洗后的数据进行分类识别,对应结果记作r_url;/nS7.匹配r_text的行业类别与r_url的行业类别,如果一致则说明该条短信文本审核通过,若不一致则直接驳回该条短信文本。/n

【技术特征摘要】
1.一种基于深度学习审核短信文本链接的方法,其特征在于,包括以下步骤:
S1.从待审核的含网站信息的短信文本中分离出文本信息和网址信息;
S2.通过事先训练好的行业分类器对待审核的短信文本进行行业类别识别,对含有网址信息的短信文本记作r_text;
S3.调用第三方的接口检查网址是否健康;若不健康,则直接驳回该条短信文本;若健康,则模拟浏览器打开该网址链接后截图整个页面;
S4.调用第三方的接口对S3的截图进行文本信息识别;
S5.对S4的文本信息进行数据清洗,只保留中文字符;
S6.用行业分类器对清洗后的数据进行分类识别,对应结果记作r_url;
S7.匹配r_text的行业类别与r_url的行业类别,如果一致则说明该条短信文本审核通过,若不一致则直接驳回该条短信文本。


2.根据权利要求1所述的一种基于深度学习审核短信文本链接的方法,其特征在于:S1所述的从短信文本中分离出文本信息和网址信息具体方法如下:通过正则表达式从含有网址的短信文本中提取网址。


3.根据权利要求2所述的一种基于深度学习审核短信文本链接的方法,其特征在于:S2所述的行业分类器生成方法如下:把短信文本集合按类别划分,然后利用基于语言模型的深度学习分类器进行训练,最后生成一个行业分类器。


4.根据权利要求3所述的一种基于深度学习审核短信文本链接的...

【专利技术属性】
技术研发人员:元方唐小波余彬晶吴衡代素侠
申请(专利权)人:上海创蓝文化传播有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1