网站错别字识别方法和系统技术方案

技术编号:26478794 阅读:35 留言:0更新日期:2020-11-25 19:23
本发明专利技术提供网站错别字识别方法和系统,包括以下步骤:针对特定的主域名地址,利用分布式爬虫按照预先设定的爬取深度和爬取页面地址的规则进行爬取获得符合爬取深度要求的所有子页面的源代码,根据抓取的源代码获得正文文字并利用正则将正文文字中长句切分为短句,并将短句分词;基于预先训练完成的kenlm模型,利用kenlm模型对各个词打分,根据打分结果识别出网站所有子页面中包含的错别字词。本发明专利技术使用方便,用户只需提供需要监控的网站地址即可,按需求识别该网站相关子页面错别字。

【技术实现步骤摘要】
网站错别字识别方法和系统
本专利技术属于人工智能计算机对自然语言处理
,具体涉及网站错别字识别方法和系统。
技术介绍
市面上目前提供错别字识别服务的产品包括百度,网易等。每家专注的领域不同,各有优缺点。有些业务场景,仅采用一家的服务又无法满足数据的精准性要求。全部引入又存在数据格式不一致,数据需要清洗,且购买成本高的问题。目前各大平台仅提供接口服务,主要针对文本内容,且文本长度也有限制。无法针对web页面做错别字识别,因为web页面还有html代码标签混淆,影响判断结果。
技术实现思路
本专利技术旨在解决现有技术中存在的以上技术问题,提供网站错别字识别方法。为实现上述技术目的,本专利技术采用以下技术方案。一方面,本专利技术提供网站错别字识别方法,包括以下步骤:针对特定的主域名地址,利用分布式爬虫按照预先设定的爬取深度和爬取页面地址的规则进行爬取获得符合爬取深度要求的所有子页面的源代码,根据抓取的源代码获得正文文字并利用正则将正文文字中长句切分为短句,并将短句分词;基于预先训练完成的ken本文档来自技高网...

【技术保护点】
1.网站错别字识别方法,其特征在于,包括以下步骤:/n针对特定的主域名地址,利用分布式爬虫按照预先设定的爬取深度和爬取页面地址的规则进行爬取获得符合爬取深度要求的所有子页面的源代码,根据抓取的源代码获得正文文字并利用正则将正文文字中长句切分为短句,并将短句分词;/n基于预先训练完成的kenlm模型,利用kenlm模型对各个词打分,根据打分结果识别出网站所有子页面中包含的错别字词。/n

【技术特征摘要】
1.网站错别字识别方法,其特征在于,包括以下步骤:
针对特定的主域名地址,利用分布式爬虫按照预先设定的爬取深度和爬取页面地址的规则进行爬取获得符合爬取深度要求的所有子页面的源代码,根据抓取的源代码获得正文文字并利用正则将正文文字中长句切分为短句,并将短句分词;
基于预先训练完成的kenlm模型,利用kenlm模型对各个词打分,根据打分结果识别出网站所有子页面中包含的错别字词。


2.如权利要求1所述的网站错别字识别方法,其特征在于,根据抓取的源代码获得正文文字的方法包括以下步骤:
分布式爬虫抓取网站源代码,将结果存入kafka;
利用logstash将kafka中的数据清洗后存入elasticsearch;
Beautifulsoup使用正则表达式取出页面源代码中的页面标签,提取出正文文字。


3.如权利要求1所述的网站错别字识别方法,其特征在于,
所述kenlm模型的训练方法包括:
将训练文本的正文按照段落及标点切分,将页面切分为符合选定厂商接口长度要求的多个句子,并分配给各个厂商接口;
分别获取各个厂商的接口返回的对同一页面中语句的分析结果,并分别将分析结果整合,得到整个页面的错别字;
对各个厂商确定的页面中的错别字格式清洗,得到训练语料库,通过训练预料库训练得到kenlm模型。


4.如权利要求3所述的网站错别字识别方法,其特征在于,所述kenlm模型的训练方法还包括按照设定时间对所述错词整合模型进行重新训练,具体重新训练的方法包括:
基于各个厂商的接口返回的对同一页面中语句的分析结果对训练文本进行纠错,将纠错后的文本结果加入训练语料库,基于纠错后的训练语料库对kenlm进行重新训练得到新的klm模型。


5.如权利要求1所述的网站错别字识别方法,其特征在于,识别出网站所有子页面中包含的错别字之后还包括对错别字进行纠错,具体包括以下步骤:
根据预先获取的中文常用字数据集、同音字数据集、同形字数据集和混淆字数据集,将识别出的错别字词的同音字,同形字,混淆字带入原句子,计算PPL,并将PPL最小的值替换原句子;计算PPL的方法如下:



两边取对数






...

【专利技术属性】
技术研发人员:邬鹏程陈可义邹林杰
申请(专利权)人:江苏百达智慧网络科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1