一种基于OCR和文本处理技术识别网贷网站的方法及系统技术方案

技术编号:23983906 阅读:46 留言:0更新日期:2020-04-29 12:36
本发明专利技术提供一种基于OCR和文本处理技术识别网贷网站的方法,包括以下步骤:S101,获取待检测网站URL;S102,使用爬虫技术,对待检测网站进行图片爬取,并输出URL图片集;S103,使用OCR技术,对爬取的图片集进行文字提取;104,使用jieba分词技术,对已提取文字进行内容过滤并分词,然后翻译成拼音分词内容;S105,对拼音分词内容,进行网贷关键词匹配,输出对应URL是否为网贷网站。通对网站图片中的文字内容和网贷业务专家建立网贷信息关键词库,使用OCR技术、文本处理技术,实现拼音匹配,完成了系统化的网贷网站识别方法,该方法高效、准确,有效的弥补了该领域技术空缺。

A method and system to identify online loan website based on OCR and text processing technology

【技术实现步骤摘要】
一种基于OCR和文本处理技术识别网贷网站的方法及系统
本专利技术涉及网贷网站识别
,具体来说是一种基于OCR和文本处理技术识别网贷网站的方法及系统。
技术介绍
随着互联网金融行业的快速发展,网站的建立更便捷,门槛也更低,从而导致很多不良、不法网站,如不法网贷网站、钓鱼网站、赌博网站等。近年来,P2P公司跑路、网络诈骗、电信诈骗等事件频繁发生,给民众造成了较为严重的财产损失,有些甚至危害到了个人人身安全,同时产生了不良的社会影响。对网贷网站的准确及时识别,进而及时提醒用户谨慎操作,能够避免用户的财产等受到损失,同时提高了企业的社会责任及企业形象。其中网络贷款要求门槛愈来愈低,由此产生了很多以网络贷款为主营业务的组织或企业,一般来说这类企业都会有自己的网贷在线申请平台,借助互联网的时域性、互动性发展贷款业务。这类网贷网站的访问链接和普通网站链接并无明显差异,对于它们的区分,一种方式是人工进行链接访问,通过其网站展示内容从而判别是否为网贷网站。这种方式会耗费大量的人力资源和时间,效率低。申请号为201910565890.3公开的网站信息本文档来自技高网...

【技术保护点】
1.一种基于OCR和文本处理技术识别网贷网站的方法,其特征在于:包括以下步骤:/nS101,获取待检测网站URL;/nS102,使用爬虫技术,对待检测网站进行图片爬取,并输出URL图片集;/nS103,使用OCR技术,对爬取的图片集进行文字提取;/nS104,使用jieba分词技术,对已提取文字进行内容过滤并分词并将分词翻译成拼音,得到拼音分词内容M;/nS105,构建拼音关键词库K,利用拼音关键词库,对拼音分词内容M,进行网贷关键词匹配,输出对应URL是否为网贷网站。/n

【技术特征摘要】
1.一种基于OCR和文本处理技术识别网贷网站的方法,其特征在于:包括以下步骤:
S101,获取待检测网站URL;
S102,使用爬虫技术,对待检测网站进行图片爬取,并输出URL图片集;
S103,使用OCR技术,对爬取的图片集进行文字提取;
S104,使用jieba分词技术,对已提取文字进行内容过滤并分词并将分词翻译成拼音,得到拼音分词内容M;
S105,构建拼音关键词库K,利用拼音关键词库,对拼音分词内容M,进行网贷关键词匹配,输出对应URL是否为网贷网站。


2.根据权利要求1所述的一种基于OCR和文本处理技术识别网贷网站的方法,其特征在于:所述步骤S102具体为:
S1021.使用爬虫技术,搭建对网站图片的爬虫系统,记为R;
S1022.将待检测的URL,输入至爬虫系统,输出对应URL的图片集合{P}。


3.根据权利要求1所述的一种基于OCR和文本处理技术识别网贷网站的方法,其特征在于:所述步骤S103具体为:
S1031.对图片集合{P}内的每一张图片进行图像二值化,噪声去除,倾斜较正的预处理;
S1032.使用版面分析算法将图片分段落、分行;
S1033.使用字符切割算法处理字符粘连、断笔造成字符难以简单切割的问题;
S1034.使用字符特征提取算法对字符图像提取多维的特征;
S1035.使用字符识别算法将当前字符提取的特征向量与特征模板库进行模板粗分类和模板细匹配,识别出字符;
S1036.根据语义对已识别字符进行校正,并整理输出成文本格式。


4.根据权利要求3所述的一种基于OCR和文本处理技术识别网贷网站的方法,其特征在于:所述步骤S104具体为:
S1041.使用jieba分词工具,对S1036输出的文本内容进行特殊字符过滤,然后再并分词,最后将分词翻译成拼音,得到拼音分词内容M。


5.根据权利要求4所述的一种基于OCR和文本处理技术识别网贷网站的方法,其特征在于:所述步骤S105具体为:
S1051.通过大量网贷类网站及材料,网贷业务专家整理得到网贷信息关键词keywords;
S1052.使用jieba分词工具,将S1051中的网贷信息关键词库翻译为拼音格式,记为K;
S1053.使用FuzzyWuzzy工具针对K中的每个关键词在M中进行模糊匹配,若匹配结果中出现相似度大于预设值的匹配项,则说明文本中含有网贷信息,该文本对应的UR...

【专利技术属性】
技术研发人员:陶景龙梁淑云刘胜马影王启凡魏国富徐明殷钱安余贤喆周晓勇
申请(专利权)人:上海观安信息技术股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1