地名识别方法和装置制造方法及图纸

技术编号:21343670 阅读:37 留言:0更新日期:2019-06-13 22:31
本发明专利技术公开了一种地名识别方法和装置,该方法包括:分别基于地名词典和语言规则,采用相应的分词方式对待识别字符串进行分词,获得第一切分结果列表和第二切分结果列表;根据所述第一切分结果列表和所述第二切分结果列表,识别所述待识别字符串中的地名,可以提高地名识别的准确率。

Method and Device of Place Name Recognition

The invention discloses a method and device for place name recognition, which includes: based on a place name dictionary and language rules, the recognition string is segmented by corresponding word segmentation method to obtain the first and second result lists of segmentation; and according to the first result lists and the second result lists of segmentation, the middle part of the character string to be recognized is identified. Names can improve the accuracy of place name recognition.

【技术实现步骤摘要】
地名识别方法和装置
本专利技术涉及但不限于自然语言处理
,具体涉及一种地名识别方法和装置。
技术介绍
随着互网络信息技术的不断发展,以地名信息为基础的信息服务的需求日益增长。地名识别是获取地名信息的关键。目前,国内地名行政区划分等级明确,大部分标准地名都有明显的后缀,比如,北京市、黑龙江省等等,现有技术地名识别方法需要根据地名的用字规律进行识别。而在真实的文本中,很多地名都不是以标准的形式出现,常常存在如下问题:1.地名简称缺乏后缀(例如,黑龙江、内蒙、河南开封),后缀为非专用地名后缀,如,“里”、“门”等(例如,平安里、健德门)或者后缀为非地名后缀(例如,肖营子、盖坪上);2.一词多用,有些地名除了用于地名名词,还有可能用于普通名词(例如,朝阳,通常用作普通名词,而文本出现“北京朝阳”时,朝阳则有可能是地名);3.常用字得到的地名(例如,个旧,可能是云南的个旧市,也可能是“一个旧书包”中的两个常用字)。以上地名在文本中出现在,现有的地名识别技术很难准确的识别到,误识率比较高。
技术实现思路
为了解决上述技术问题,本专利技术提供了一种地名识别方法和装置,能够提高地名识别的准确率。本本文档来自技高网...

【技术保护点】
1.一种地名识别方法,其特征在于,包括:分别基于地名词典和语言规则,采用相应的分词方式对待识别字符串进行分词,获得第一切分结果列表和第二切分结果列表;根据所述第一切分结果列表和所述第二切分结果列表,识别所述待识别字符串中的地名。

【技术特征摘要】
1.一种地名识别方法,其特征在于,包括:分别基于地名词典和语言规则,采用相应的分词方式对待识别字符串进行分词,获得第一切分结果列表和第二切分结果列表;根据所述第一切分结果列表和所述第二切分结果列表,识别所述待识别字符串中的地名。2.根据所述权利要求1所述的方法,其特征在于,根据所述第一切分结果列表和所述第二切分结果列表,识别所述字符串中的地名,包括:遍历所述第一切分结果列表,获取所述待识别字符串中的候选地名;根据所述第一切分结果列表和所述第二切分结果列表,对所述候选地名进行验证;根据验证结果,判断所述候选地名是否为地名。3.根据权利要求1所述的方法,其特征在于,根据所述第一切分结果列表和所述第二切分结果列表,对所述候选地名进行验证,包括:获取所述第一切分结果列表中,所述候选地名的长度以及所述候选地名前的片段的长度;获取所述第二切分结果列表中,所述候选地名的长度及所述候选地名之前片段的长度;当以下条件都满足时,则所述候选地名验证成功;当以下任一条件不满足时,所述候选地名验证失败:所述第一切分结果列表中所述候选地名的长度与所述第二切分结果列表中所述候选地名的长度匹配;所述第一切分结果列表中所述候选地名之前的片段的长度与所述第二切分结果列表中所述候选地名之前的片段的长度匹配。4.根据权利要求3所述的方法,其特征在于,根据验证结果,识别所述候选地名是否为地名,包括:获取所述验证成功的候选地名的确信度;根据所述第二切分结果列表,计算所述验证成功的候选地名的地名上下文概率;根据所述验证成功的候选地名的所述确信度和所述地名上下文概率,识别所述候选地名是否为地名。5.根据权利要求4所述的方法,其特征在于,获取所述验证成功的候选地名的确信度,包括:根据预先设置的地名分类,查询所述验证成功的候选地名所属的类别;根据地名所属的类别和确信度的对应关系,获取所述验证成功的候选地名的确信度。6.根据权利要求4或5所述的方法,其特征在于,根据所述验证成功的候选地名的所述确信度和所述地名上下文概率,识别所述候选地名是否为地名,包括:当所述验证成功的候选地名的所述确信度和所述地名上下文概率之和大于或等于预设的阈值时,将所述验证成功的候选地名识别为地名。7.根据权利要求1所述的方法,其特征在于,所述根据第一切分结果列表和第二切分结果列表,识别所述待识别字符串中的地名后,还包括:采用预设的道路号和门牌号识别模式对所述识别出的地名相邻文本进行识别;将与所述道路号和门牌号识别模式匹配的文本识别为地名;遍历所述待识别字符串,将识别出的地名根据预设的规则进行合并,获取完整地名。8.根据权利要求1或2所述的方法,其特征在于,所述分别基于地名词典和语言规则,采用相应的分词方式对待识别字符串进行分词,获得第一切分结果列表和第二切分结果列表包括:基于地名词典,采用最大正向匹配分词方式对待识别字符串进行分词,获得第一切分结果列表;基于语言规则,采用条件随机场CRF分词方式获得第二切分结果列表。9.一种地名识别装置,包括:存储器和处理器;其特征在于:所述存储器...

【专利技术属性】
技术研发人员:陈奇宁牟小峰
申请(专利权)人:北京明略软件系统有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1