一种识别目标词的方法、装置及系统制造方法及图纸

技术编号:7273798 阅读:171 留言:0更新日期:2012-04-16 00:40
本申请公开了一种识别目标词的方法、装置及系统,以利用多个特征值识别目标词,提高识别准确率和召回率。该方法包括:获取候选词集合以及特征计算数据,基于最小粒度的文本数据对特征计算数据进行分词划分,针对划分得到的分词进行分词组合,获得组合文本数据集合,确定候选词集合与组合文本数据集合的交集,计算交集中每个组合文本数据的指定特征值,按照筛选条件对交集中的组合文本数据进行筛选,将特征值符合筛选条件的组合文本数据对应的候选词确定为目标词。这样,可利用多个特征值识别目标词,通过分类算法获得筛选条件,避免了人为设定造成的误差,提高识别准确率和召回率。本申请同时公开了一种识别目标词的装置和系统。

【技术实现步骤摘要】

本申请涉及计算机领域,尤其涉及一种识别目标词的方法、装置及系统
技术介绍
随着互联网技术的迅速发展,信息呈现爆炸式地增长,信息检索、信息分析、机器翻译等领域也快速兴起,对于中文信息的处理,中文自动分词已经成为一项基本性的任务。 中文自动分词是中文信息处理中一项重要的基础性任务,影响中文自动分词效果的难点之一为未登录词识别。所述未登录词是指没有收录至分词词典中的词。对于未登录词又可分为两种情况,一种是不可能全部收录至词典,但是能够总结出规律的词(如,人名、机构名等);另一种是词典中应该收录,但是还没有收录的新词,在这部分新词中有些是词,是应该收录至分词词典中的目标词,还有一部分不是词,是不应该收录的非目标词。在对新出现的词进行识别时,首先要判断该新出现的词是不是词,即判断该新出现的词是否为目标词,目前的做法主要有三类基于规则的方法,基于统计的方法,以及规则和统计相结合的方法。主流的基于统计的方法通常是在大规模文本数据的基础上针对待识别词的一个或几个特征量进行统计,根据统计结果人工设定阈值,在高于(或低于)设定阈值时,判断该待识别词为目标词。但是,随着网络的广泛应用,在网络上出现的文本数据很多情况下,只是一些关键词的堆砌,已经没有完整的语义句式,例如,在电子商务网站中,特别是个人与个人之间的电子商务网站中,存在的海量商品标题。在这些关键词中,往往存在大量新出现的词,但是, 此时统计得到的这些新出现的词的特征值的分布趋势是非线性的,在进行识别时,通过针对特征值设定单一阈值,再按照该单一阈值判断该新出现的词是不是目标词,得到的结果是不准确的,因此,传统基于统计的方法来判断待识别词是不是词的方法,已经不能适应当前网络应用中的目标词识别。
技术实现思路
本申请提供一种识别目标词的方法、装置及系统,用以提高识别目标词的准确率和召回率。本申请实施例提供的具体技术方案为—种识别目标词的方法,包括获取候选词集合以及特征计算数据;基于最小粒度的文本数据对所述特征计算数据进行分词划分;针对经过分词划分处理的特征计算数据进行分词组合处理,获得作为处理对象的组合文本数据集合;确定所述候选词集合与所述组合文本数据集合的交集;计算所述交集中包含的每个组合文本数据的指定特征值;根据所述交集中包含的每个组合文本数据的多个指定特征值,按照预设的基于多个指定特征值的筛选条件对所述交集中包含的组合文本数据进行筛选,将指定特征值符合所述筛选条件的组合文本数据对应的候选词确定为目标词。一种识别目标词的装置,包括获取单元,用于获取候选词集合以及特征计算数据;分词单元,用于基于最小粒度的文本数据对所述特征计算数据进行分词划分;分词组合单元,用于针对经过分词划分处理的特征计算数据进行分词组合处理, 获得作为处理对象的组合文本数据集合;交集确定单元,用于确定所述候选词集合与所述组合文本数据集合的交集;指定特征值计算单元,用于计算所述交集中包含的每个组合文本数据的指定特征值;筛选单元,用于根据所述交集中包含的每个组合文本数据的多个指定特征值,按照预设的基于多个指定特征值的筛选条件对所述交集中包含的组合文本数据进行筛选,将指定特征值符合所述筛选条件的组合文本数据对应的候选词确定为目标词。一种识别目标词的系统,包括识别目标词装置,用于获取候选词集合以及特征计算数据,基于最小粒度的文本数据对所述特征计算数据进行分词划分,针对经过分词划分处理的特征计算数据进行分词组合处理,获得作为处理对象的组合文本数据集合,确定所述候选词集合与所述组合文本数据集合的交集,并计算所述交集中包含的每个组合文本数据的指定特征值,根据所述交集中包含的每个组合文本数据的多个指定特征值,按照预设的基于多个指定特征值的筛选条件对所述交集中包含的组合文本数据进行筛选,将指定特征值符合筛选条件的组合文本数据对应的候选词确定为目标词;训练数据提供装置,用于向识别目标词装置提供获得筛选条件所需的训练样本词集合,以及相应的样本特征计算数据;目标词收录装置,用于接收识别目标词装置识别出的目标词,并将未登录的目标词加入分词词典中。基于上述技术方案,本申请实施例中,通过将特征计算数据划分为最小粒度的分词,对划分得到的多个分词组合为多个组合文本数据,通过将候选词和组合文本数据集合做交集,计算得到候选词的多个指定特征值,再根据该多个指定特征值识别上述候选词,实现了利用多个特征值识别候选词,并且筛选条件是通过分类算法训练得到,避免了人为设定带来的误差,提高识别的准确性和稳定性,在指定特征值的分词呈非线性时,也可以构建合适的筛选条件,正确识别出目标词,提高了识别的准确率和召回率。附图说明图IA为本申请实施例中识别目标词的系统架构图;图IB为本申请实施例中识别目标词装置结构图;图2为本申请实施例中获得筛选条件的详细流程图;图3为本申请实施例中识别目标词的详细流程图。具体实施方式为了解决现有的基于统计方法识别文本数据的局限性,即只能利用较少的特征值,并要求对特征值的统计结果呈线性分布,以及由人工调节特征权值和设定阈值造成的误差和不稳定性,本申请实施例中提供了一种识别目标词的方法,可以利用任意维度的特征值,并在特征值的分布趋势为非线性时,也可正确识别出目标词,而不需要人工干预,提高识别的准确率和召回率。该方法为获取候选词集合以及特征计算数据,基于最小粒度的文本数据对特征计算数据进行分词划分,对经过分词划分处理的特征计算数据进行分词组合,获得作为处理对象的组合文本数据集合,确定候选词集合与组合文本数据集合的交集, 并计算该交集中包含的每个组合文本数据的指定特征值,根据该交集中包含的每个组合文本数据的多个指定特征值,按照预设的基于多个指定特征值的筛选条件对上述交集中包含的组合文本数据进行筛选,将指定特征值符合筛选条件的组合文本数据对应的候选词确定为目标词。其中,在候选词是一个通常意义下的词汇时,该候选词即为目标词;否则,在候选词不是通常意义下的一个词汇时,该候选词为非目标词。例如,在候选词集合中存在“蝙蝠袖”和“袖女装”,其中,“蝙蝠袖”是一个通常意义下的词汇,则该词为目标词,而“袖女装”不是通常意义下的一个词汇,则该词为非目标词。候选词集合可以是任意文本数据,其对应的特征计算数据也可以是任意文本数据。本申请实施例中,优选采用用户输入的查询关键词,根据用户输入的查询关键词提取出的候选词集合,并基于用户输入查询关键词对应的查询对象的描述信息提取特征计算数据。例如,在电子商务网站中,收集保存用户输入的用于查询产品的查询关键词,从该查询关键词中提取出候选词集合,从电子商务网站中产品的标题、产品的介绍等描述信息中提取特征计算数据。又例如,在新闻网站中,收集保存用户输入的用于查询新闻的查询关键词,从该查询关键词中提取出候选词集合,从新闻网站中的新闻标题、新闻内容等描述信息中提取特征计算数据。上述候选词集合与特征计算数据的提取,可采用定期或者定量的方式进行。例如, 定期从用户输入的查询关键词中提取候选词集合;对应地,定期提取的特征计算数据;也可以是用于提取候选词集合的用户输入的查询关键词达到一定数量时,提取对应的特征计算数据,然后执行本申请实施例进行目标词识别。本申请实施例中,准确率是指,在识别出来是目标词的个数中,属于正本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:孙海波杨扬陈一宁
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术