一种从文档集中自动发现新词的方法及装置制造方法及图纸

技术编号：10265288 阅读：129 留言：0更新日期：2014-07-30 12:48

本发明专利技术公开了一种从文档集中自动发现新词的方法及装置，其中，模板获取单元获取一个或多个模板；词语提取单元从所述文档集中提取出与所述一个或多个模板中的各模板相匹配的词语；候选模板集合加入单元从所述一个或多个模板中至少选取一部分模板加入到候选模板集合；候选词集合加入单元从提取出的与所述一个或多个模板中的各模板相匹配的词语中至少选取一部分词语加入到候选词集合；新词集合加入单元基于候选模板集合中的模板对所述候选词集合中的候选词排序，基于所述排序将一定数量的候选词加入到新词集合。与现有技术相比，本发明专利技术提供的方法和装置可以有效地发现新词。

全部详细技术资料下载

【技术实现步骤摘要】
一种从文档集中自动发现新词的方法及装置
本专利技术涉及自然语言处理技术，尤其涉及一种从文档集中自动发现新词的方法及装置。
技术介绍
在社交网络中，网民喜欢用自己个性化的语言表达对政治、社会、文化等的看法。通常，个性化语言被越多的人传播越容易成为新的网络热词(简称“新词”)。目前，新词在自动文摘、文本聚类/分类、信息检索等方面有着很重要的应用，据统计，每年互联网上出现超过1000个的中文新词，这些新词大多为各个领域具有时效性的专业术语，由于这些新词大多不存在字典中，因而使得现有的分词算法很难将这些新词从文档集中识别。以情感类的新词“给力(形容词)”，文档“表演非常给力”为例，现有的分词算法通常对其进行如下分词：表演/名词非常/副词给/动词力/名词，从而使得新词“给力”不能作为一个完整的词进行切分，进行影响新词的识别。
技术实现思路
本专利技术解决的技术问题之一为提升新词识别的准确性。根据本专利技术的一个方面的一个实施例，提供了一种从文档集中自动发现新词的方法，包括：获取一个或多个模板；从所述文档集中提取出与所述一个或多个模板中的各模板相匹配的词语；从所述一个或多个模板中至少选取一部分模板加入到候选模板集合；从提取出的与所述一个或多个模板中的各模板相匹配的词语中至少选取一部分词语加入到候选词集合；基于候选模板集合中的模板对所述候选词集合中的候选词排序，基于用候选模板集合中的模板对所述候选词集合中的候选词的排序将一定数量的候选词加入到新词集合。根据本专利技术的一个实施例，通过以下任一方式获取所述一个或多个模板：预先规定所述一个或多个模板，或在获取文档集后，对所述文档...
一种从文档集中自动发现新词的方法及装置

【技术保护点】
一种从文档集中自动发现新词的方法(1)，包括：获取一个或多个模板(101)；从所述文档集中提取出与所述一个或多个模板中的各模板相匹配的词语(102)；从所述一个或多个模板中至少选取一部分模板加入到候选模板集合(103)；从提取出的与所述一个或多个模板中的各模板相匹配的词语中至少选取一部分词语加入到候选词集合(104)；基于候选模板集合中的模板对所述候选词集合中的候选词排序，基于所述排序将一定数量的候选词加入到新词集合(105)。

【技术特征摘要】
1.一种从文档集中自动发现新词的方法，包括：获取一个或多个模板(S101)，所述模板包括词和空格或/和自定义符号；从所述文档集中提取出与所述一个或多个模板中的各模板相匹配的词语(S102)，所述从文档集中提取出与所述一个或多个模板中的各模板相匹配的词语是除该模板所包括的词以外的词语；从所述一个或多个模板中至少选取一部分模板加入到候选模板集合(S103)；从提取出的与所述一个或多个模板中的各模板相匹配的词语中至少选取一部分词语加入到候选词集合(S104)；基于候选模板集合中的模板对所述候选词集合中的候选词排序，基于用候选模板集合中的模板对所述候选词集合中的候选词的排序将一定数量的候选词加入到新词集合(S105)。2.根据权利要求1所述的方法，其中通过以下任一方式获取所述一个或多个模板：预先规定所述一个或多个模板，或在获取文档集后，对所述文档集进行切词处理，从经过切词处理的文档集中提取出与特定正则表达式相匹配的所述一个或多个模板。3.根据权利要求1所述的方法，其中从所述一个或多个模板中至少选取一部分模板加入到候选模板集合的步骤包括以下中的任一个：将所述一个或多个模板全部加入候选模板集合；基于所述一个或多个模板的每个模板在所述文档集中出现的次数，将一部分模板加入候选模板集合。4.根据权利要求3所述的方法，其中基于所述一个或多个模板的每个模板在所述文档集中出现的次数将一部分模板加入候选模板集合的步骤包括：将在所述文档集中出现的次数排在前f名的模板加入候选模板集合，f为正整数；或将在所述文档集中出现的次数超过特定阈值的模板加入候选模板集合。5.根据权利要求1所述的方法，其中从提取出的与所述一个或多个模板中的各模板相匹配的词语中至少选取一部分词语加入到候选词集合的步骤包括以下中的任一个：将所述匹配的词语全部加入到候选词集合；基于所述匹配的词语与各模板的匹配次数，将一部分词语加入候选词集合。6.根据权利要求5所述的方法，其中基于所述匹配的词语与各模板的匹配次数，将一部分词语加入候选词集合的步骤包括：将匹配的词语中与各模板的匹配次数排在前g名的词语加入候选词集合，g为正整数；或将匹配的词语中与各模板的匹配次数超过特定阈值的词语加入候选词集合。7.根据权利要求1所述的方法，还包括：在基于候选模板集合中的模板对所述候选词集合中的候选词排序之前，用预先规定的新词集合对候选模板集合中的模板进行排序，并基于所述用预先规定的新词集合对候选模板集合中的模板的排序过滤候选模板集合。8.根据权利要求1所述的方法，还包括：用得到的新词集合对候选模板集合中的模板进行排序，并基于所述用得到的新词集合对候选模板集合中的模板的排序过滤候选模板集合，并用过滤后的候选模板集合再次对所述候选词集合中的候选词排序并基于所述用过滤后的候选模板集合再次对所述候选词集合中的候选词的排序再次将一定数量的候选词加入到新词集合。9.根据权利要求1所述的方法，其中在基于候选模板集合中的模板对所述候选词集合中的候选词排序的步骤中，按照LLR(wi)、E(wi)、P(wi)、EMI(wi)、1/NMED(...

【专利技术属性】
技术研发人员：黄民烈，朱小燕，
申请(专利权)人：清华大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人