确定文档中核心地理信息的方法、系统技术方案

技术编号:4201862 阅读:263 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种确定文档中核心地理信息的方法、系统。一种确定文档中核心地理信息的方法实施例,包括:按照文档中各地理名词出现的频率,并根据预定义的位置权重计算各地理名词的分值;根据预置的地理信息库,计算所述各地理名词隶属的级别相同的行政区划的分值;所述地理信息库中存储有地理名称以及所有地理名称间的隶属关系;将分值最高的所述行政区划下分值最高的地理信息确定为所述文档的核心地理信息。利用本发明专利技术,可以更准确的确定文档内容中的核心地理信息。

【技术实现步骤摘要】

本专利技术涉及数据处理
,特别涉及一种确定文档中核心地理信息的方法、系统
技术介绍
互联网提供的按照关键字搜索等类似服务中,例如一些聚合类新闻、资讯的内容提供中,可以实现按照地理信息提供文档内容。上述互联网提供的服务中,在将文档按照地理信息分类的阶段,现有技术仅仅是萃取出文档中出现的地理信息。而同一文档中,可能出现多个不同的地理信息。这时,如果仅是萃取地理信息,则文档中可能萃取出若干不同的地理信息。而一般地,同一文档数据中,描述的内容应当具有一个中心地理信息。例如,在谈到四川地震新闻的文档数据中,会萃取得到四川这一地理信息,但是,同时该新闻中还可能谈到其它省、市对四川的援助,则按照现有技术的方式,还会萃取得到例如广东、北京这些地理信息。这样,按照萃取出的地理信息,则可能将这一类的文档内容作为发生在北京或广东境内的新闻(或资讯)来提供。显然地,在所有萃取到的不同地理信息中,应当存在一个核心地理信息,例如上面的例子中四川应当是核心地理信息,而不是其它地理信息。在对现有技术的研究和实践过程中,专利技术人发现现有技术中存在以下问题由于现有技术仅仅是萃取出文档中出现的地理信息,则对于同一篇文档中出现的多个地理信息,会萃取出多个地理信息,而并不能区分这些地理信息中适于当前文档内容的真正核心地理信息。这样会导致基于地理信息萃取的服务,例如搜索,聚合类新闻、资讯的内容提供等,出现不准确的结果。
技术实现思路
本专利技术实施例的目的是提供一种确定文档中核心地理信息的方法、系统,以实现确定文档内容中准确的核心地理信息。为解决上述技术问题,本专利技术实施例^是供一种确定文档中核心地理信息的6方法、系统是这样实现的一种确定文档中核心地理信息的方法,包括按照文档中各地理名词出现的频率,并根据预定义的位置权重计算各地理名词的分值;才艮据预置的地理信息库,计算所述各地理名词隶属的级别相同的行政区划的分值;所述地理信息库中存储有地理名称以及所有地理名称间的隶属关系;将分值最高的所述行政区划下分值最高的地理信息确定为所述文档的核心地理信息。优选地,所述方法中,所述按照文档中各地理名词出现的频率,并根据预定义的位置权重计算各地理名词的分值,包括将文档各地理信息的分值确定为该地理信息出现频率数与按照出现位置对应^又重之和。优选地,所述方法中,所述按照出现位置对应权重包括在标题中出现时权重为3,在正文第一段出现时权重为2,在正文其它部分中出现时权重为1。优选地,所述方法中,所述按照文档中各地理名词出现的频率,并根据预定义的位置权重计算各地理名词的分值,还包括对于连续出现的地理名词,将其中每一个地理名词对应分值增加一个预设值。优选地,所述方法中,所述按照文档中各地理名词出现的频率,并根据预定义的位置权重计算各地理名词的分值,还包括如果文档中的地理名词的前后紧邻的文字中存在预置的新闻机构名称表中的词汇,则将所述地理名词的该次出现忽略。一种确定文档中核心地理信息的方法,包括按照文档中各地理名词出现的频率,并根据预定义的位置权重计算各地理名词的分值;将分值最大的地理名词确定为所述文档的核心地理信息。优选地,所述方法中,所述按照文档中各地理名词出现的频率,并根据预定义的位置权重计算各地理名词的分值,包括将文档各地理信息的分值确定为该地理信息出现频率数与按照出现位置对应4又重之和。优选地,所述方法中,所述按照出现位置对应权重包括在标题中出现时权重为3,在正文第一段出现时权重为2,在正文其它部分中出现时权重为1。优选地,所述方法中,所述按照文档中各地理名词出现的频率,并#^居预定义的位置权重计算各地理名词的分值,还包括对于这些连续的地理名词,将其中每一个地理名词对应分值增加一个预i殳值。优选地,所述方法中,所述按照文档中各地理名词出现的频率,并根据预定义的位置权重计算各地理名词的分值,还包括如果文档中的地理名词的前后紧邻的文字中存在预置的新闻机构名称表中的词汇,则将所述地理名词的该次出现忽略。一种确定文档中核心地理信息的系统,包括第一分值计算单元,用于按照文档中各地理名词出现的频率,并根据预定义的位置权重计算各地理名词的分值;第二分值计算单元,用于根据预置的地理信息库,计算所述各地理名词隶属的级别相同的行政区划的分值;所述地理信息库中存储有地理名称以及所有地理名称间的隶属关系;确定单元,用于将分值最高的所述行政区划下分值最高的地理信息确定为所述文档的核心地理信息。优选地,所述系统中,所述第一分值计算单元包括词频计算单元,用于计算地理信息的出现频率;位置权重计算单元,用于计算所述地理信息按照出现位置对应的权重;求和单元,用于将所述地理信息的出现频率与按照位置对应权重之和确定8为该地理信息的分值。优选地,所述系统中,所述第一分值计算单元还包括分值增加单元,对于连续出现的地理名词,用于将其中每一个地理名词对应分值增加一个预设值。优选地,所述系统中,所述第一分值计算单元还包括滤除单元,用于在词频计算单元计算地理信息的出现频率过程中,如果地理名词的前后紧邻的文字中存在预置的新闻机构名称表中的词汇,将所述地理名词的该次出现忽略。一种确定文档中核心地理信息的系统,包括分值计算单元,用于按照文档中各地理名词出现的频率,并根据预定义的 位置权重计算各地理名词的分值;确定单元,用于将分值最大的地理名词确定为所述文档的核心地理信息。优选地,所述系统中,所述分值计算单元包括词频计算单元,用于计算地理信息的出现频率;位置权重计算单元,用于计算所述地理信息按照出现位置对应的权重;求和单元,用于将所述地理信息的出现频率与按照位置对应权重之和确定 为该地理信息的分值。优选地,所述系统中,所述分值计算单元还包括分值增加单元,对于连续出现的地理名词,用于将其中每一个地理名词对 应分值增加 一个预设值。优选地,所述系统中,所述分值计算单元还包括滤除单元,用于在词频计算单元计算地理信息的出现频率过程中,如果地 理名词的前后紧邻的文字中存在预置的新闻机构名称表中的词汇,将所述地理 名词的该次出现忽略。由以上本专利技术实施例提供的技术方案可见,按照文档中各地理名词出现的 频率,并根据预定义的位置权重计算各地理名词的分值,根据预置的地理信息 库计算所述各地理名词隶属的级别相同的行政区划的分值,将分值最高的所述行政区划下分值最高的地理信息确定为所述文档的核心地理信息,对出现在更 可能为核心地理信息位置的地理信息进行了加强,并从隶属的行政区划上考虑 和比较分值,从而可以更准确的确定文档内容中的核心地理信息。 附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施 例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述 中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付 出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术第一方法实施例的流程图2为本专利技术预置的地理信息库的组织结构示意图3为本专利技术第一方法实施例中一具体例子的分值情况图4为本专利技术第二方法实施例的流程图5为本专利技术第一系统实施例的框图6为本专利技术第一系统实施例的另一框图7为本专利技术第二系统实施例的框图8为本专利技术第二系统实施例的另一框图。 具体实施例方式本专利技术实施例提供一种确定文档中核本文档来自技高网...

【技术保护点】
一种确定文档中核心地理信息的方法,其特征在于,包括:    按照文档中各地理名词出现的频率,并根据预定义的位置权重计算各地理名词的分值;    根据预置的地理信息库,计算所述各地理名词隶属的级别相同的行政区划的分值;所述地理信息库中存储有地理名称以及所有地理名称间的隶属关系;    将分值最高的所述行政区划下分值最高的地理信息确定为所述文档的核心地理信息。

【技术特征摘要】
1、一种确定文档中核心地理信息的方法,其特征在于,包括按照文档中各地理名词出现的频率,并根据预定义的位置权重计算各地理名词的分值;根据预置的地理信息库,计算所述各地理名词隶属的级别相同的行政区划的分值;所述地理信息库中存储有地理名称以及所有地理名称间的隶属关系;将分值最高的所述行政区划下分值最高的地理信息确定为所述文档的核心地理信息。2、 如权利要求l所述的方法,其特征在于,所述按照文档中各地理名词 出现的频率,并根据预定义的位置权重计算各地理名词的分值,包括将文档各地理信息的分值确定为该地理信息出现频率数与按照出现位置 对应一又重之和。3、 如权利要求2所述的方法,其特征在于,所述按照出现位置对应权重 包括在标题中出现时权重为3,在正文第一段出现时权重为2,在正文其它部 分中出现时权重为1。4、 如权利要求l所述的方法,其特征在于,所述按照文档中各地理名词 出现的频率,并根据预定义的位置权重计算各地理名词的分值,还包括对于连续出现的地理名词,将其中每一个地理名词对应分值增加一个预设值。5、 如权利要求l所述的方法,其特征在于,所述按照文档中各地理名词 出现的频率,并根据预定义的位置权重计算各地理名词的分值,还包括如果文档中的地理名词的前后紧邻的文字中存在预置的新闻机构名称表 中的词汇,则将所述地理名词的该次出现忽略。6、 一种确定文档中核心地理信息的方法,其特征在于,包括 按照文档中各地理名词出现的频率,并根据预定义的位置权重计算各地理名词的分值;将分值最大的地理名词确定为所述文档的核心地理信息。7、 如权利要求6所述的方法,其特征在于,所述按照文档中各地理名词 出现的频率,并根据预定义的位置权重计算各地理名词的分值,包括将文档各地理信息的分值确定为该地理信息出现频率数与按照出现位置 对应一又重之和。8、 如权利要求7所述的方法,其特征在于,所述按照出现位置对应权重 包括在标题中出现时权重为3,在正文第一段出现时权重为2,在正文其它部 分中出现时权重为1。9、 如权利要求6所述的方法,其特征在于,所述按照文档中各地理名词 出现的频率,并根据预定义的位置权重计算各地理名词的分值,还包括对于这些连续的地理名词,将其中每一个地理名词对应分值增加一个预i殳值。10、 如权利要求6所述的方法,其特征在于,所述按照文档中各地理名词 出现的频率,并根据预定义的位置权重计算各地理名词的分值,还包括如果...

【专利技术属性】
技术研发人员:雷国平李晓拴马娜刘维佳陈传文王名悠周洪喜王暄
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:VG[英属维尔京群岛]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1