一种识别目标词的方法、装置及系统制造方法及图纸

技术编号：7273798 阅读：171 留言：0更新日期：2012-04-16 00:40

本申请公开了一种识别目标词的方法、装置及系统，以利用多个特征值识别目标词，提高识别准确率和召回率。该方法包括：获取候选词集合以及特征计算数据，基于最小粒度的文本数据对特征计算数据进行分词划分，针对划分得到的分词进行分词组合，获得组合文本数据集合，确定候选词集合与组合文本数据集合的交集，计算交集中每个组合文本数据的指定特征值，按照筛选条件对交集中的组合文本数据进行筛选，将特征值符合筛选条件的组合文本数据对应的候选词确定为目标词。这样，可利用多个特征值识别目标词，通过分类算法获得筛选条件，避免了人为设定造成的误差，提高识别准确率和召回率。本申请同时公开了一种识别目标词的装置和系统。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机领域，尤其涉及一种识别目标词的方法、装置及系统。
技术介绍
随着互联网技术的迅速发展，信息呈现爆炸式地增长，信息检索、信息分析、机器翻译等领域也快速兴起，对于中文信息的处理，中文自动分词已经成为一项基本性的任务。中文自动分词是中文信息处理中一项重要的基础性任务，影响中文自动分词效果的难点之一为未登录词识别。所述未登录词是指没有收录至分词词典中的词。对于未登录词又可分为两种情况，一种是不可能全部收录至词典，但是能够总结出规律的词(如，人名、机构名等)；另一种是词典中应该收录，但是还没有收录的新词，在这部分新词中有些是词，是应该收录至分词词典中的目标词，还有一部分不是词，是不应该收录的非目标词。在对新出现的词进行识别时，首先要判断该新出现的词是不是词，即判断该新出现的词是否为目标词，目前的做法主要有三类基于规则的方法，基于统计的方法，以及规则和统计相结合的方法。主流的基于统计的方法通常是在大规模文本数据的基础上针对待识别词的一个或几个特征量进行统计，根据统计结果人工设定阈值，在高于(或低于)设定阈值时，判断该待识别词为目标词。但是，随着网络的广泛应用，在网络上出现的文本数据很多情况下，只是一些关键词的堆砌，已经没有完整的语义句式，例如，在电子商务网站中，特别是个人与个人之间的电子商务网站中，存在的海量商品标题。在这些关键词中，往往存在大量新出现的词，但是，此时统计得到的这些新出现的词的特征值的分布趋势是非线性的，在进行识别时，通过针对特征值设定单一阈值，再按照该单一阈值判断该新出现的词是不是目标词，得到的结果是不准确的，因此，传统基于统...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员：孙海波，杨扬，陈一宁，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人