网站错别字的识别方法及装置制造方法及图纸

技术编号:15329543 阅读:82 留言:0更新日期:2017-05-16 13:11
本发明专利技术公开了一种网站错别字的识别方法及装置,涉及互联网技术领域,主要目的在于提高识别网站错别字的准确率。本发明专利技术的主要技术方案包括:获取待检测网站内所有内容页面,并确定第一人物与职称关系,所述第一人物与职称关系为从所述待检测网站内所有内容页面中提取的人物与职称关系;确定所述第一人物与职称关系与第二人物与职称关系是否一致,所述第二人物与职称关系存储于人物职称库中,所述人物职称库记录有预设官方媒体网站的页面内容中包含的人物与职称之间的对应关系;若确定所述第一人物与职称关系与所述第二人物与职称关系不一致,则输出显示所述待检测网站中有错别字的提示信息。本发明专利技术应用于识别网站中错别字的过程中。

Recognition method and device for typos website

The invention discloses a method and device for identifying the site of wrongly written characters, relates to the technical field of the Internet, the main purpose is to improve the recognition accuracy of the website typos. Including the technical scheme of the invention: access to all content pages within the website to be detected, and to determine the first character and the title, the first character and the title for the title character and the relationship between the extraction of all content page detection from the website; determine the first character and the relationship with the second characters and titles the title of the relationship is consistent, the second characters and the title characters Title relations are stored in the library, the correspondence between the characters and the title page contains the contents of the preset official media sites in the title character library records; if the first to determine the relationship between the characters and the relationship between the second characters and the title and the title is not the same, the output display the tooltip typos in the test site. The process of the invention is applied to the recognition site of typos.

【技术实现步骤摘要】
网站错别字的识别方法及装置
本专利技术涉及互联网
,特别是涉及一种网站错别字的识别方法及装置。
技术介绍
网站错别字,顾名思义是指网站所有内容网页出现的错字和别字。网站错别字的出现,原因是多方面的,其不良的影响或者危害也是不容忽视的。特别是政府网站,随着一些政策性文件的出台,错别字识别已作为政府网站硬性的考核指标项。政府网站错别字识别的主要任务在于人物和职称不对称信息的查找,例如:某某人的职称为副主任,若政府网站上展示成某某人为正主任,这种错误在政府行业是及其严重的错误,特别是对某人职称的降低更是不允许出现的;因此,能够快速、准确识别出政府网站内所有内容网页中的错别字是亟需解决的问题。目前,识别网站错别字的方式为通过人工查找的方式确定网站中是否存在错别字,由于网站中人物和职称之间的对应关系是随时变动的,因此网站错别字识别的参与人员需要每天对网站中人物和职称之间的对应关系进行学习,而网站错别字识别的参与人员的人工素质和状态存在差异,导致识别网站中错别字的准确率较低。
技术实现思路
有鉴于此,本专利技术提供的一种网站错别字的识别方法及装置,主要目的在于提高识别网站错别字的准确率。为了解本文档来自技高网...
网站错别字的识别方法及装置

【技术保护点】
一种网站错别字的识别方法,其特征在于,包括:获取待检测网站内所有内容页面,并确定第一人物与职称关系,所述第一人物与职称关系为从所述待检测网站内所有内容页面中提取的人物与职称关系;确定所述第一人物与职称关系与第二人物与职称关系是否一致,所述第二人物与职称关系存储于人物职称库中,所述人物职称库记录有预设官方媒体网站的页面内容中包含的人物与职称之间的对应关系;若确定所述第一人物与职称关系与所述第二人物与职称关系不一致,则输出显示所述待检测网站中有错别字的提示信息。

【技术特征摘要】
1.一种网站错别字的识别方法,其特征在于,包括:获取待检测网站内所有内容页面,并确定第一人物与职称关系,所述第一人物与职称关系为从所述待检测网站内所有内容页面中提取的人物与职称关系;确定所述第一人物与职称关系与第二人物与职称关系是否一致,所述第二人物与职称关系存储于人物职称库中,所述人物职称库记录有预设官方媒体网站的页面内容中包含的人物与职称之间的对应关系;若确定所述第一人物与职称关系与所述第二人物与职称关系不一致,则输出显示所述待检测网站中有错别字的提示信息。2.根据权利要求1所述的方法,其特征在于,在确定所述第一人物与职称关系与第二人物与职称关系是否一致之前,所述方法还包括:根据所述预设官方媒体网站的页面内容中包含的人物与职称关系生成所述人物职称库。3.根据权利要求2所述的方法,其特征在于,在根据所述预设官方媒体网站的页面内容中包含的人物与职称关系生成所述人物职称库之后,所述方法还包括:更新所述人物职称库中的人物与职称关系。4.根据权利要求3所述的方法,其特征在于,所述更新所述人物职称库中的人物与职称关系包括:基于爬虫程序获取所述预设官方媒体网站的页面内容;对所述预设官方媒体网站的页面内容进行分析,并确定所述预设官方媒体网站的页面内容中的人物与职称关系;基于确定后的所述人物与职称关系更新所述人物职称库。5.根据权利要求4所述的方法,其特征在于,在确定所述预设官方媒体网站的页面内容中的人物与职称关系之前,所述方法还包括:获取从不同预设官方媒体网站的页面内容中分析的人物与职称关系;确定从不同预设官方媒体网站的页面内容中分析的人物与职称关系是否存在差异;所述确定所述预设官方媒体网站的页面内容中的人物与职称关系包括:若确定从不同预设官方媒体网站的页面内容中分析的人物与职称关系未存在差异,则将从不同预设官方媒体网站的页面内容中分析的人物与职称关系进行合并,并确定所述人物与职称关系;所述确定所述预设官方媒体网站的页面内容中的人物与职称关系还包括:若确定从不同预设官方媒体网站的页面内容中分析的人物与职称关系存在差异,则基于权重值对不同预设官方媒体网站的页面内容中分析的人物与职称关系进行加权处理,并确定加权值最高的人物与职称关系为所述人物与职称关系;其中,所述权重值与不同预设官方媒体一一对应。6.根据权利要求5所述的方法,其特征在于,基于确定后的所述人物与职称关系更新所述人物职称库包括:将确定后的所述人物与职称关系与所述人物职称库已有的人物与职称关系进行归并。7.一种网站错别字的识别装置,其特征在于,包括:获取单元,用于获取待检测网站内所有内容页面;第一确定单元,用于在所述获取单元获取待检测网站内所有内容页面之后,确定第一人物与职称关系,所述第一人物与职称关系为从所述待...

【专利技术属性】
技术研发人员:冯鸳鹤
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1