基于音节驱动的音译实体名的计算机自动识别方法技术

技术编号：2832568 阅读：289 留言：0更新日期：2012-04-11 18:40

一种基于音节驱动的音译实体名的计算机自动识别方法，包括用于计算机检索的音译名，先获原始可信音译名库；再构建用于识别音译实体名的音节信息库；组成大容量的音译名语料库；以原始可信音译名库的音译名为基础统计识别音译名出现的错误类别，修正该音译名语料库，利用该音译名语料库对音译实体名进行自动识别。本发明专利技术充分利于音译名用字的构成规律，对计算机自动识别的对比音译名语料库进行渐进式整理，分析提高了识别精度，并通过音节的统计学习得到计算机识别精度更高的音译名资料库，从而建立大型的高精准度音译名资料库并提高搜索中音译名识别精度的，大大降低的音译名实体搜索工程中错误的触发几率和边界识别错误的几率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属丁-用于特定功能的数据处理方法
，具体的涉及计算机搜索所使用的一种。
技术介绍
随着信息检索技术的飞速发展，搜索引擎已经成为人们口常生活中信息的重要来源，在每天不计其数的检索请求中，实体名占了很大的一部分，并且伴随着国际化的趋势，越来越多的用户检索请求中包含音译实体名，如人名、地名、机构名、产品名等。在对北京中搜在线软件有限公司检索日志的统计分析中我们发现，这类请求约占整个检索量的2%，并且还有上升趋势。现有搜索引擎采用的技术无法准确识别出文本中的音译实体名，致使无法获得检索结果准确率。例如，现有商用搜索引擎中查询伊布拉希(地名)时，排名靠前的结果都是关于伊布拉希莫维奇，这是因为现有系统无法准确地判断音译实体名的边界，将伊布拉希莫维奇断开为伊布拉希+ 莫维奇。目前实现音译实体名技术通常采用如下方法实现(1) 基于音译名用字的识别方法这种方法通过统计，总结出使用频率最高的476个汉字作为音译名用字，根据对样本的学习，得到各个用字之间的转移概率。在识别过程中根据转移概率得到可信度最高的潜在音译名进行识别。(2) 基于角色标注的音译名识别方法同方法l，对上述音译名用字区分其角色，分首部，中部和尾部。上述两种技术都是以单字驱动音译名识别的，这种方法误触发的机会非常大，比如音译名用字里的里，不等都是汉语中的常用单语素。极大地影响音译名的识别精度，在方法2中采用角色标注理论上虽然可以判断音译名的长度，但实际操作起来难度很大，因为音译名尾部用字也掺杂了非常多的常用字，如内塔尼亚胡，如果以单字标注尾部，则亚做尾部字的概率非...

【技术保护点】
一种基于音节驱动的音译实体名的计算机自动识别方法，包括用于计算机检索的音译名，其特征在于所述自动识别方法包括如下步骤：　　　　（１）从正文库中提取音译名，获得一定容量的可信的音译名样本组成原始可信音译名库；　　　　（２）对原始可信音译名库进行统计分析，构建用于识别音译实体名的音节信息库；　　　　（３）利用步骤（２）得到的音节信息库在待识别正文库中挑选音译名，组成大容量的音译名语料库；　　　　（４）以原始可信音译名库的音译名为基础统计识别步骤（３）得到的音译名语料库的音译名出现的错误类别，修正该音译名语料库，提高识别精度；　　　　（５）利用步骤（４）得到的音译名语料库对输入的音译实体名进行自动识别。

【技术特征摘要】
1. 一种基于音节驱动的音译实体名的计算机自动识别方法，包括用于计算机检索的音译名，其特征在于所述自动识别方法包括如下步骤(1) 从正文库中提取音译名，获得一定容量的可信的音译名样本组成原始可信音译名库；(2) 对原始可信音译名库进行统计分析，构建用于识别音译实体名的音节信息库；(3) 利用步骤(2)得到的音节信息库在待识别正文库中挑选音译名，组成大容量的音译名语料库；(4) 以原始可信音译名库的音译名为基础统计识别步骤(3)得到的音译名语料库的音译名出现的错误类别，修正该音译名语料库，提高识别精度；(5) 利用步骤(4)得到的音译名语料库对输入的音译实体名进行自动识别。2. 根据权利要求1所述的基于音节驱动的音译实体名的计算机自动识别方法，其特征在于所述步骤(1)中从正文库中提取音译名是指从搜索引擎正文库中抓取、筛选音译名。3. 根据权利要求1所述的基于音节驱动的音译实体名的计算机自动识别方法，其特征在于所述步骤(2)中的统计分析是指对原始可信音译名库中的音译名进行音节的出现频率、共现频率和连接概率计算。4. 根据权利要求1所述的基于音节驱动的音译实体名的计算机自动识别方法，其特征在于所述步骤(2)中的音节信息库包括音译名首部音节库、音译名连接音节库和音译名尾部音节库。5. 根据权利要求1所述的基于音节驱动的音译实体名的计算机自动识别方法，其特征在于所述自动识别方法还包括在步骤(4)得到修正的音译名语料库后，再对该音译名语料库进行统计分析，构建用于识别音译实体名的音节信息库；利用该音节信息库在正文库中挑选音译名，组成更大容量的音译名语料库；以原始可信音译名库的音译名为基础统计识别得到音译名出现的错误类别，修正该更大容量的音译名语料库；然后重复上述步骤，一直到识别精度不再明显提高为止。6. 根据权利要求1所述的基丁音节驱动的音译实体名的计算机自动识别方法，其特征在于所述步骤(5)中的自动识别是指利用步骤(4)得到的音译名语料库进行统计分析，构建用于识别音译实体名的最终音节信息库，根据该最终音节信息库中的音译名首部音节库、音译名连接音节库和音译名尾部音节库，计算各个音节的连接概率，统计出-个成词概率，根据所有可能的音译名和对应的成词概率进行筛选，然后用选定的音译名对输入的音译实体名进行自动识...

【专利技术属性】
技术研发人员：陈沛，郭永福，许欢庆，
申请(专利权)人：北京中搜在线软件有限公司，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人