基于音节驱动的音译实体名的计算机自动识别方法技术

技术编号:2832568 阅读:289 留言:0更新日期:2012-04-11 18:40
一种基于音节驱动的音译实体名的计算机自动识别方法,包括用于计算机检索的音译名,先获原始可信音译名库;再构建用于识别音译实体名的音节信息库;组成大容量的音译名语料库;以原始可信音译名库的音译名为基础统计识别音译名出现的错误类别,修正该音译名语料库,利用该音译名语料库对音译实体名进行自动识别。本发明专利技术充分利于音译名用字的构成规律,对计算机自动识别的对比音译名语料库进行渐进式整理,分析提高了识别精度,并通过音节的统计学习得到计算机识别精度更高的音译名资料库,从而建立大型的高精准度音译名资料库并提高搜索中音译名识别精度的,大大降低的音译名实体搜索工程中错误的触发几率和边界识别错误的几率。

【技术实现步骤摘要】

本专利技术属丁-用于特定功能的数据处理方法
,具体的涉及计算机搜 索所使用的一种。
技术介绍
随着信息检索技术的飞速发展,搜索引擎已经成为人们口常生活中信息的 重要来源,在每天不计其数的检索请求中,实体名占了很大的一部分,并且伴 随着国际化的趋势,越来越多的用户检索请求中包含音译实体名,如人名、地 名、机构名、产品名等。在对北京中搜在线软件有限公司检索日志的统计分析中我们发现,这类请求约占整个检索量的2%,并且还有上升趋势。现有搜索引 擎采用的技术无法准确识别出文本中的音译实体名,致使无法获得检索结果准 确率。例如,现有商用搜索引擎中查询伊布拉希(地名)时,排名靠前的结 果都是关于伊布拉希莫维奇,这是因为现有系统无法准确地判断音译实体名 的边界,将伊布拉希莫维奇断开为伊布拉希+ 莫维奇。目前实现音译实体名技术通常采用如下方法实现(1) 基于音译名用字的识别方法这种方法通过统计,总结出使用频率最 高的476个汉字作为音译名用字,根据对样本的学习,得到各个用字之间的转 移概率。在识别过程中根据转移概率得到可信度最高的潜在音译名进行识别。(2) 基于角色标注的音译名识别方法同方法l,对上述音译名用字区分其 角色,分首部,中部和尾部。上述两种技术都是以单字驱动音译名识别的,这种方法误触发的机会非常 大,比如音译名用字里的里,不等都是汉语中的常用单语素。极大地影 响音译名的识别精度,在方法2中采用角色标注理论上虽然可以判断音译名的 长度,但实际操作起来难度很大,因为音译名尾部用字也掺杂了非常多的常用 字,如内塔尼亚胡,如果以单字标注尾部,则亚做尾部字的概率非常大,这就导致内塔尼亚胡这个音译名无法被TH确识别出来。同样的,伊布拉希 莫维奇很可能也是因为这个原因无法被正确的判断边界。音译名和中文姓名的构成规律差别很大是致使识别率较低的主要原因,音 译实体名同中国姓名相比,不存在明显的姓氏和名字的区别,有人名间隔符的 情况除外,但即使在这种情况下,也应该将姓名拆开处理;音译实体名同中国 姓名相比,字数差别很大,中文姓名一般是2, 3个字,极少数为4个字,如冠 夫姓,而音译名则从2个字到10几个字不等,而且出现几率相差不大。计算机 在对中国人名和音译名进行自动识别的时候都面临着相同的问题,即如何启动 人名识别,以及如何确定人名的开始以及结束位置,但是因为构词特性,在问 题的难度上以及解决的方法上将会迥然不同。在中文人名的自动识别上,已经有申请的专利提出了一种基于随机数据源 学习中国人名构成规律的方法,例如2006年4月26日公告的中国专利 ZL00124352.7,提供了一种中文姓名的计算机识别及检索方法,这种方法统计 中国人名中的姓氏和名字用字的信息,然后根据一定规则挑选人名,建立不同 权重的索引。这种方法扩展到音译名的识别使用时,存在如下局限性和缺陷(1)译名识别的机会过多,容易造成错判,例如立,里等都是正文 出现频率相当高音译名用字。如果用上述专利中采用的单字姓氏驱动的方法势 必触发大量的识别过程,降低效率,并影响识别的准确性。例如,里白若按 音译名用字驱动的方法则可以识别为音译名并建立索引,这是错误的,在Google搜索上查找里白,无法查到该人物。(2) 边界无法确定,上述专利的技术方案只是针对中国人名,对可能的2 字和3字人名都建立索引。这本身就存在一些问题,比如在这种模式下,搜索陈沛可能会返回与陈沛嘉有关的结果,影响用户的检索感受。同时音 译名的长度不等,如果针对每个可能的音译名都建立索引,则大大增加索引量, 加重检索负担。例如在一些搜索引擎上查找马布里,布里白,里白都 会返回结果科比终得帮手马布里白砍45分,这说明上述专利的方法无法有 效推广到音译名识别,主要就是上述原因。(3) 该专利的技术方案是建立在中国姓氏和名字地位不均等的基础上的, 姓氏和名字本身并没有什么关联,比如刘德华、周德华都可能是人名, 只是姓氏上的差距,而据我们的统计在音译名中姓名同时出现的比例不到10%, 如乔治布什,大部分都是单独的姓氏来标识一个人物,这样姓氏间各个音节 的地位是均等的,不像中国人名般有明显的边界区分,所以若用上述专利的识 别和检索方法来识别音译名,必然造成大量的漏查。
技术实现思路
本专利技术的目的在于提供一种充分利于音译名用字的构成规律,对计算机自 动识别的对比音译名语料库进行渐进式整理,分析提高识别精度,并通过统计 学习得到计算机识别精度更高的音译名资料库,从而建立大型的高精准度音译 名资料库并提高搜索中音译名识别精度的基于音节驱动的音译实体名的计算机 自动识别方法,大大降低的音译名搜索工程中错误的触发几率和边界识别错误 的几率。为实现上述专利技术目的,本专利技术釆用的技术方案如下一种,包括用于计算机 检索的音译名,其特征在于所述自动识别方法包括如下步骤(1) 从正文库中提取音译名,获得一定容量的可信的音译名样本组成原始 可信音译名库;(2) 对原始可信音译名库进行统计分析,构建用于识别音译实体名的音节 信息库;(3) 利用步骤(2)得到的音节信息库在正文库中挑选音译名,组成大容量的音译名语料库;(4) 以原始可信音译名库的音译名为基础统计识别步骤(3)得到的音译 名语料库的音译名出现的错误类别,修正该音译名语料库,提高识别精度;(5) 利用步骤(4)得到的音译名语料库对输入的音译实体名进行自动识别。具体的讲,上述中,所 述步骤(1)中从正文库中提取音译名是指从搜索引擎正文库中抓取、筛选音译 名。所述步骤(2)中的统计分析是指对原始可信音译名库中的音译名进行音节 的出现频率、共现频率和连接概率计算。所述步骤(2)中的音节信息库包括音译名首部音节库、音译名连接音节库 和音译名尾部音节库。所述自动识别方法还包括在步骤(4)得到修正的音译名语料库后,再对 该音译名语料库进行统计分析,构建用于识别音译实体名的音节信息库;利用该音节信息库在正文库中挑选音译名,组成更大容量的音译名语料库;以原始 可信音译名库的音译名为基础统计识别得到音译名出现的错误类别,修正该更 大容量的音译名语料库;然后重复上述步骤, 一直到识别精度不再明显提高为 止。所述步骤(5)中的自动识别是指利用步骤(4)得到的音译名语料库进行统计分析,构建用于识别音译实体名的最终音节信息库,根据该谩终音节信息 库中的音译名首部音节库、音译名连接音节库和音译名尾部音节库,计算各个音节的连接概率,统计出一个成词概率,根据所有可能的音译名和对应的成词 概率进行筛选,然后用选定的音译名对输入的音译实体名进行自动识别。所述自动识别方法还包括根据自动识别结果对步骤(4)得到的音译名语料 库通过审核、过滤或录入方式添加正确音译实体名,构造高精度的可信赖音译 名语料库。所述步骤(2)中的统计分析具体是指分别统计连续2字长、3字长、4 字长的串出现频率,选出出现频率较高的部分结果,对该结果进行筛选分析, 对2字长、3字长、4字长的串音节分别设定阈值,选出共现概率较高的音节, 并对音译名首部音节、音译名连接音节和音译名尾部音节分别设定不同的阈值 进行筛选。更进一步的讲,所述自动识别方法的具体步骤为(1) 从搜索引擎正文库中抓取、筛选音译名,获得一定容量的可信的音译名样本组本文档来自技高网
...

【技术保护点】
一种基于音节驱动的音译实体名的计算机自动识别方法,包括用于计算机检索的音译名,其特征在于所述自动识别方法包括如下步骤:    (1)从正文库中提取音译名,获得一定容量的可信的音译名样本组成原始可信音译名库;    (2)对原始可信音译名库进行统计分析,构建用于识别音译实体名的音节信息库;    (3)利用步骤(2)得到的音节信息库在待识别正文库中挑选音译名,组成大容量的音译名语料库;    (4)以原始可信音译名库的音译名为基础统计识别步骤(3)得到的音译名语料库的音译名出现的错误类别,修正该音译名语料库,提高识别精度;    (5)利用步骤(4)得到的音译名语料库对输入的音译实体名进行自动识别。

【技术特征摘要】
1. 一种基于音节驱动的音译实体名的计算机自动识别方法,包括用于计算 机检索的音译名,其特征在于所述自动识别方法包括如下步骤(1) 从正文库中提取音译名,获得一定容量的可信的音译名样本组成原始 可信音译名库;(2) 对原始可信音译名库进行统计分析,构建用于识别音译实体名的音节 信息库;(3) 利用步骤(2)得到的音节信息库在待识别正文库中挑选音译名,组 成大容量的音译名语料库;(4) 以原始可信音译名库的音译名为基础统计识别步骤(3)得到的音译 名语料库的音译名出现的错误类别,修正该音译名语料库,提高识别精度;(5) 利用步骤(4)得到的音译名语料库对输入的音译实体名进行自动识别。2. 根据权利要求1所述的基于音节驱动的音译实体名的计算机自动识别方 法,其特征在于所述步骤(1)中从正文库中提取音译名是指从搜索引擎正文库 中抓取、筛选音译名。3. 根据权利要求1所述的基于音节驱动的音译实体名的计算机自动识别方 法,其特征在于所述步骤(2)中的统计分析是指对原始可信音译名库中的音译 名进行音节的出现频率、共现频率和连接概率计算。4. 根据权利要求1所述的基于音节驱动的音译实体名的计算机自动识别方 法,其特征在于所述步骤(2)中的音节信息库包括音译名首部音节库、音译名 连接音节库和音译名尾部音节库。5. 根据权利要求1所述的基于音节驱动的音译实体名的计算机自动识别方 法,其特征在于所述自动识别方法还包括在步骤(4)得到修正的音译名语料 库后,再对该音译名语料库进行统计分析,构建用于识别音译实体名的音节信 息库;利用该音节信息库在正文库中挑选音译名,组成更大容量的音译名语料 库;以原始可信音译名库的音译名为基础统计识别得到音译名出现的错误类别, 修正该更大容量的音译名语料库;然后重复上述步骤, 一直到识别精度不再明 显提高为止。6. 根据权利要求1所述的基丁音节驱动的音译实体名的计算机自动识别方 法,其特征在于所述步骤(5)中的自动识别是指利用步骤(4)得到的音译名 语料库进行统计分析,构建用于识别音译实体名的最终音节信息库,根据该最 终音节信息库中的音译名首部音节库、音译名连接音节库和音译名尾部音节库, 计算各个音节的连接概率,统计出-个成词概率,根据所有可能的音译名和对 应的成词概率进行筛选,然后用选定的音译名对输入的音译实体名进行自动识...

【专利技术属性】
技术研发人员:陈沛郭永福许欢庆
申请(专利权)人:北京中搜在线软件有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1