一种机构别称的获取方法和装置制造方法及图纸

技术编号:8215669 阅读:216 留言:0更新日期:2013-01-17 13:20
本发明专利技术提供了一种机构别称的获取方法和装置,所述方法包括:获取互联网中各网页页面对应的站点首页,利用所述站点首页提取各站点相对应的机构全称;获取互联网中各网页页面包含的链接信息及对应的锚文本;利用预先构建的机构名称词典或者预设的语义规则,将能够与所述机构名称词典相匹配或满足所述语义规则的锚文本识别为机构名称;将具有相同链接信息的所述机构名称与机构全称相关联,并将满足预设要求的机构名称识别为机构别称。相较于现有技术,本发明专利技术能自动对全网中网页信息进行挖掘,建立组织机构的别称与全称之间的对应关系,节省人力成本,提高准确率和召回率。

【技术实现步骤摘要】
一种机构别称的获取方法和装置
本专利技术涉及互联网信息处理
,特别涉及一种机构别称的获取方法和装置。
技术介绍
电子地图中兴趣点(point of interest, POI)数据,通常包括名称、地址、联系电话、类别、位置坐标等信息,用以表示电子地图中的位置实体,可以是地名,也可以是企业、单位等组织机构名称。当用户进行兴趣点查询时,搜索引擎在接收到用户输入的搜索词(query)后,找出兴趣点名称与搜索词相匹配的数据,并返回相关搜索结果给用户。在日常生活中,人们经常使用别称来描述事物,包括简称、别名、俗称、曾用名等等,例如“北京大学”的简称为“北大”,“国家体育场”的别名为“鸟巢”等,也就是说,一个组织机构除了有一个完整的官方名称(全称)外,通常还会有多种简称及别名信息。而在进行查询时,人们往往也习惯输入地名的简称或别名作为搜索词,特别是在不能确定对应的全称的情况下,人们更愿意输入这些别称,意图可以进行模糊查询。然而,目前大部分的兴趣点数据的名称字段采用的都是对应的全称,由于目前的搜索引擎并不能自动处理全称与别称之间的对应关系,当用户使用地名的简称或别称进行查询时,例如,“鸟巢”是“国家体育场”的别称,如果在POI数据库中只包含“国家体育场”,而不包含“鸟巢”,在用户搜索关键词“鸟巢”时,很有可能将无法返回相应的搜索结果,这就造成了大量数据资源的浪费,影响用户的体验。现有的搜索引擎在处理全称与别称之间的对应关系时,只能依靠人工添加的方式来实现。这样将耗费大量的人力,而且还容易出现更新不及时或遗漏的情形,就会造成覆盖不到相关的搜索结果,导致召回率低,用户体验差。
技术实现思路
有鉴于此,本专利技术提供了一种机构别称的获取方法和装置,能够自动利用网页中的信息进行挖掘,节省人力成本,提高准确率和信息召回率,能够提高数据的利用率,提升用户体验。具体技术方案如下一种机构别称的获取方法,该方法包括以下步骤获取互联网中各网页页面对应的站点首页,利用所述站点首页提取各站点相对应的机构全称;获取互联网中各网页页面包含的链接信息及对应的锚文本;利用预先构建的机构名称词典或者预设的语义规则,将能够与所述机构名称词典相匹配或满足所述语义规则的锚文本识别为机构名称;将具有相同链接信息的所述机构名称与机构全称相关联,并将满足预设要求的机构名称识别为机构别称。根据本专利技术一优选实施例,所述获取互联网中各网页页面对应的站点首页,具体包括从所述网页页面的网址中取出域名地址,对所述域名地址进行跳转处理,得到对应的站点首页;或者,利用站点的首页样本集合,统计分析其链接锚文本及网址样式特征构建首页分类器,利用所构建的首页分类器对所述网页页面进行分类,得到所有的站点首页。根据本专利技术一优选实施例,所述利用站点首页提取各站点对应的机构全称,具体包括将所述站点首页解析成文档对象模型树,获取所述站点首页的页面标题,将所述页面标题识别为机构全称;或者,将所述站点首页解析成文档对象模型树,获取所述站点首页的页面标题和版权块信息,将能够与预先构建的机构名称词典相匹配的页面标题或版权块信息识别为机构全称。根据本专利技术一优选实施例,在所述提取各站点相对应的机构全称之后,还包括利用预先构建的机构名称词典,从同一站点内的其他网页中识别该站点的机构名称;利用识别到的不同来源的机构名称,对所述机构全称进行校验。根据本专利技术一优选实施例,在所述获取互联网中各网页页面包含的链接信息及对应的锚文本之后,还包括将所获取的链接信息及对应的锚文本组成二元信息对,统计各二元信息对的出现频次,形成三元信息组;所述满足预设要求包括所述机构名称对应的锚文本的出现频次,超过预设次数阈值或者排在前N个,N为预设正整数。根据本专利技术一优选实施例,在所述将具有相同链接信息的所述机构名称与机构全称相关联之后,还包括计算所述机构名称与相关联的机构全称之间的相似度;所述满足预设要求包括所述机构名称与对应的机构全称的相似度大于预设相似度阈值。根据本专利技术一优选实施例,所述计算机构名称与相关联的机构全称之间的相似度,具体包括判断所述机构名称中的各个字符是否在所述机构全称中出现,计算字面相似度;利用预先定义的语义规则,确定所述机构名称与机构全称的核心词,判断所述机构名称的核心词是否与机构全称的核心词相同,为具有相同核心词的机构名称赋予核心词相似度;利用字面相似度与核心词相似度进行加权,得到所述机构名称与机构全称的相似度。一种机构别称的获取装置,该装置包括全称获取模块,用于获取互联网中各网页页面对应的站点首页,利用所述站点首页提取各站点对应的机构全称;锚文本获取模块,用于获取互联网中各网页页面包含的链接信息及对应的锚文本;名称识别模块,用于利用预设的机构名称词典或预设的语义规则,将所述锚文本获取模块获取的锚文本中能够与所述机构名称词典相匹配或满足预设语义规则的锚文本识别为机构名称;关联模块,用于将具有相同链接信息的所述机构名称与机构全称相关联,并将满足预设要求的机构名称识别为机构别称。根据本专利技术一优选实施例,所述全称获取模块获取互联网中各网页页面对应的站点首页,具体配置为从所述网页页面的网址中取出域名地址,对所述域名地址进行跳转处理,得到对应的站点首页;或者,利用站点的首页样本集合,统计分析其链接锚文本及网址样式特征构建首页分类器,利用所构建的首页分类器对所述网页页面进行分类,得到所有的站点首页。根据本专利技术一优选实施例,所述全称获取模块利用站点首页提取各站点对应的机构全称,具体配置为将所述站点首页解析成文档对象模型树,获取所述站点首页的页面标题,将所述页面标题识别为机构全称;或者,将所述站点首页解析成文档对象模型树,获取所述站点首页的页面标题和版权块信息,将能够与预先构建的机构名称词典相匹配的页面标题或版权块信息识别为机构全称。根据本专利技术一优选实施例,该装置还包括校验模块,用于利用预先构建的机构名称词典,从同一站点内的其他网页中识别该站点的机构名称,利用识别到的不同来源的机构名称,对所述全称获取模块获取到的机构全称进行校验。根据本专利技术一优选实施例,该装置还包括统计模块,用于在所述锚文本获取模块获取链接信息及对应的锚文本之后,统计由所获取的链接信息及对应的锚文本组成二元信息对的出现频次,用以形成三元信息组;所述名称识别模块对所述统计模块得到的三元信息组中的锚文本进行识别,得到包含机构名称的三元信息组;所述关联模块中满足预设要求具体包括所述机构名称对应的锚文本的出现频次,超过预设次数阈值或者排在前N个,N为预设正整数。根据本专利技术一优选实施例,该装置还包括相似度计算模块,用于在所述关联模块将具有相同链接信息的所述机构名称与机构全称相关联之后,计算所述机构名称与相关联的机构全称之间的相似度;所述关联模块中满足预设要求具体包括所述机构名称与对应的机构全称的相似度大于预设相似度阈值。根据本专利技术一优选实施例,所述相似度计算模块具体配置为判断所述机构名称中的各个字符是否在所述机构全称中出现,计算字面相似度;利用预先定义的语义规则,确定所述机构名称与机构全称的核心词,判断所述机构名称的核心词是否与机构全称的核心词相同,为具有相同核心词的机构名称赋予核心词相似度;利用字面相似度与核心词相似度进行加权,得到所述机构名称与机构全称的相似本文档来自技高网
...

【技术保护点】
一种机构别称的获取方法,其特征在于,包括:获取互联网中各网页页面对应的站点首页,利用所述站点首页提取各站点相对应的机构全称;获取互联网中各网页页面包含的链接信息及对应的锚文本;利用预先构建的机构名称词典或者预设的语义规则,将能够与所述机构名称词典相匹配或满足所述语义规则的锚文本识别为机构名称;将具有相同链接信息的所述机构名称与机构全称相关联,并将满足预设要求的机构名称识别为机构别称。

【技术特征摘要】

【专利技术属性】
技术研发人员:王松
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1