一种机构别称的获取方法和装置制造方法及图纸

技术编号：8215669 阅读：216 留言：0更新日期：2013-01-17 13:20

本发明专利技术提供了一种机构别称的获取方法和装置，所述方法包括：获取互联网中各网页页面对应的站点首页，利用所述站点首页提取各站点相对应的机构全称；获取互联网中各网页页面包含的链接信息及对应的锚文本；利用预先构建的机构名称词典或者预设的语义规则，将能够与所述机构名称词典相匹配或满足所述语义规则的锚文本识别为机构名称；将具有相同链接信息的所述机构名称与机构全称相关联，并将满足预设要求的机构名称识别为机构别称。相较于现有技术，本发明专利技术能自动对全网中网页信息进行挖掘，建立组织机构的别称与全称之间的对应关系，节省人力成本，提高准确率和召回率。

全部详细技术资料下载

【技术实现步骤摘要】
一种机构别称的获取方法和装置
本专利技术涉及互联网信息处理
，特别涉及一种机构别称的获取方法和装置。
技术介绍
电子地图中兴趣点(point of interest, POI)数据,通常包括名称、地址、联系电话、类别、位置坐标等信息，用以表示电子地图中的位置实体，可以是地名，也可以是企业、单位等组织机构名称。当用户进行兴趣点查询时，搜索引擎在接收到用户输入的搜索词(query)后，找出兴趣点名称与搜索词相匹配的数据，并返回相关搜索结果给用户。在日常生活中，人们经常使用别称来描述事物，包括简称、别名、俗称、曾用名等等，例如“北京大学”的简称为“北大”，“国家体育场”的别名为“鸟巢”等，也就是说，一个组织机构除了有一个完整的官方名称(全称)外，通常还会有多种简称及别名信息。而在进行查询时，人们往往也习惯输入地名的简称或别名作为搜索词，特别是在不能确定对应的全称的情况下，人们更愿意输入这些别称，意图可以进行模糊查询。然而，目前大部分的兴趣点数据的名称字段采用的都是对应的全称，由于目前的搜索引擎并不能自动处理全称与别称之间的对应关系，当用户使用地名的简称或别称进行查询时，例如，“鸟巢”是“国家体育场”的别称，如果在POI数据库中只包含“国家体育场”，而不包含“鸟巢”，在用户搜索关键词“鸟巢”时，很有可能将无法返回相应的搜索结果，这就造成了大量数据资源的浪费，影响用户的体验。现有的搜索引擎在处理全称与别称之间的对应关系时，只能依靠人工添加的方式来实现。这样将耗费大量的人力，而且还容易出现更新不及时或遗漏的情形，就会造成覆盖不到相关的搜索结果，导致召回率低，用户...

【技术保护点】
一种机构别称的获取方法，其特征在于，包括：获取互联网中各网页页面对应的站点首页，利用所述站点首页提取各站点相对应的机构全称；获取互联网中各网页页面包含的链接信息及对应的锚文本；利用预先构建的机构名称词典或者预设的语义规则，将能够与所述机构名称词典相匹配或满足所述语义规则的锚文本识别为机构名称；将具有相同链接信息的所述机构名称与机构全称相关联，并将满足预设要求的机构名称识别为机构别称。

【技术特征摘要】

【专利技术属性】
技术研发人员：王松，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人