网站校对信息的建立方法及装置制造方法及图纸

技术编号:15329542 阅读:57 留言:0更新日期:2017-05-16 13:11
本发明专利技术公开了一种网站校对信息的建立方法及装置,涉及互联网技术领域,主要目的在于解决由于人物与职称的信息发布渠道不统一,需要人工在互联网上随机查找人物与职称关系,导致确定的人物与职称关系不全面、不准确的问题。本发明专利技术的主要技术方案包括:获取预设网站内的内容页面中的页面内容;将所述页面内容拆分为句子,并对每个句子进行分词;从所述分词中确定人物与职称关系;将所述人物与职称关系保存到人物职称库,所述人物职称库用于存储所述人物与职称关系。本发明专利技术是要应用于识别网站错别字的过程中。

Method and device for establishing website Proofreading Information

The invention discloses a method and device for proofreading information website, relates to the technical field of the Internet, the main purpose is to solve the characters and titles of the information channel is not unified, the need for manual on the Internet find random characters and titles, to determine the relationship between the characters and the title is not comprehensive, the problem of inaccurate. Including the technical scheme of the invention: acquiring preset page content sites within the content of the page; the page content is split into sentences, and the word of each sentence; determine the character and Title Relationship from the word segmentation; save the characters and titles related to the title character library, the title character database is used to store the relationship between characters and titles. The invention is a process to be applied to identify the sites of typos.

【技术实现步骤摘要】
网站校对信息的建立方法及装置
本专利技术涉及互联网
,特别是涉及一种网站校对信息的建立方法及装置。
技术介绍
网站错别字,顾名思义是指网站所有内容网页出现的错字和别字。网站错别字的出现,原因是多方面的,其不良的影响或者危害也是不容忽视的。特别是政府网站,随着一些政策性文件的出台,错别字识别已作为政府网站硬性的考核指标项。政府网站错别字识别的主要任务在于人物和职称不对称信息的查找,例如:某某人的职称为副主任,若政府网站上展示成某某人为正主任,这种错误在政府行业是及其严重的错误,特别是对某人职称的降低更是不允许出现的;而确定人物与职称之间的关系是政府网站错别字识别的前提。目前,在确定人物与职称之间的关系时,通常是人工从各种网站内收集人物与职称关系;但是,由于人物与职称的信息发布渠道不统一,即人物与职称关系分散在各种网页中,需要人工在互联网上随机查找人物与职称关系,导致确定的人物与职称关系不全面、不准确。
技术实现思路
有鉴于此,本专利技术提供的一种网站校对信息的建立方法及装置,主要目的在于解决由于人物与职称的信息发布渠道不统一,需要人工在互联网上随机查找人物与职称关系,导致确定的人物与本文档来自技高网...
网站校对信息的建立方法及装置

【技术保护点】
一种网站校对信息的建立方法,其特征在于,包括:获取预设网站内的内容页面中的页面内容;将所述页面内容拆分为句子,并对每个句子进行分词;从所述分词中确定人物与职称关系;将所述人物与职称关系保存到人物职称库,所述人物职称库用于存储所述人物与职称关系。

【技术特征摘要】
1.一种网站校对信息的建立方法,其特征在于,包括:获取预设网站内的内容页面中的页面内容;将所述页面内容拆分为句子,并对每个句子进行分词;从所述分词中确定人物与职称关系;将所述人物与职称关系保存到人物职称库,所述人物职称库用于存储所述人物与职称关系。2.根据权利要求1所述的方法,其特征在于,从所述分词中确定人物与职称关系包括:基于隐马尔可夫模型HMM提取所述分词中的命名实体,所述命名实体包含:人物、职称、机构、地点;从所述命名实体中获取人物、职称以及人物与职称对应的修饰与被修饰关系;判断按照所述人物与职称对应的修饰与被修饰关系是否能够确定人物与职称关系;若按照所述人物与职称对应的修饰与被修饰关系能够确定人物与职称关系,则基于所述人物与职称对应的修饰与被修饰关系确定人物与职称关系;若按照所述人物与职称对应的修饰与被修饰关系不能够确定人物与职称关系,则基于预设语法规则对所述人物和/或所述职称所在的句子进行匹配,并确定人物与职称关系。3.根据权利要求2所述的方法,其特征在于,所述获取预设网站内的内容页面中的页面内容包括:基于爬虫程序获取预设网站内的内容页面中的页面内容。4.根据权利要求3所述的方法,其特征在于,基于爬虫程序获取预设网站内的内容页面中的页面内容包括:判断所述预设网站内的页面是否为所述内容页面;若所述预设网站内的页面不是所述内容页面,则获取所述页面内的网页链接地址,基于所述网页链接地址获取对应的页面,并重复执行判断所述预设网站内的页面是否为所述内容页面;若所述预设网站内的页面是所述内容页面,则基于所述爬虫程序获取所述内容页面中的所述页面内容。5.根据权利要求1-4中任一项所述的方法,其特征在于,在将所述人物与职称关系保存到人物职称库之前,所述方法还包括:将不同预设网站确定的所述人物与职称关系进行合并;将所述人物与职称关系保存到人物职称库包括:将合并后的不同预设网站确定的所述人物与职称关系归并,并保存到所述人物职称库。6.一种网站校对信息的建立装置,其特征在于,包括:获取单元,用于获取预设网站内的内容页面中的页面内容;拆分单元,用于将所述获取单元获取的所...

【专利技术属性】
技术研发人员:冯鸳鹤
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1