温馨提示:您尚未登录,请点 登陆 后下载,如果您还没有账户请点 注册 ,登陆完成后,请刷新本页查看技术详细信息。
本发明提供网站错别字识别方法和系统,包括以下步骤:针对特定的主域名地址,利用分布式爬虫按照预先设定的爬取深度和爬取页面地址的规则进行爬取获得符合爬取深度要求的所有子页面的源代码,根据抓取的源代码获得正文文字并利用正则将正文文字中长句切分为短...该专利属于江苏百达智慧网络科技有限公司所有,仅供学习研究参考,未经过江苏百达智慧网络科技有限公司授权不得商用。
温馨提示:您尚未登录,请点 登陆 后下载,如果您还没有账户请点 注册 ,登陆完成后,请刷新本页查看技术详细信息。
本发明提供网站错别字识别方法和系统,包括以下步骤:针对特定的主域名地址,利用分布式爬虫按照预先设定的爬取深度和爬取页面地址的规则进行爬取获得符合爬取深度要求的所有子页面的源代码,根据抓取的源代码获得正文文字并利用正则将正文文字中长句切分为短...