当前位置: 首页 > 专利查询>清华大学专利>正文

一种从文档集中自动发现新词的方法及装置制造方法及图纸

技术编号:10265288 阅读:129 留言:0更新日期:2014-07-30 12:48
本发明专利技术公开了一种从文档集中自动发现新词的方法及装置,其中,模板获取单元获取一个或多个模板;词语提取单元从所述文档集中提取出与所述一个或多个模板中的各模板相匹配的词语;候选模板集合加入单元从所述一个或多个模板中至少选取一部分模板加入到候选模板集合;候选词集合加入单元从提取出的与所述一个或多个模板中的各模板相匹配的词语中至少选取一部分词语加入到候选词集合;新词集合加入单元基于候选模板集合中的模板对所述候选词集合中的候选词排序,基于所述排序将一定数量的候选词加入到新词集合。与现有技术相比,本发明专利技术提供的方法和装置可以有效地发现新词。

【技术实现步骤摘要】
一种从文档集中自动发现新词的方法及装置
本专利技术涉及自然语言处理技术,尤其涉及一种从文档集中自动发现新词的方法及装置。
技术介绍
在社交网络中,网民喜欢用自己个性化的语言表达对政治、社会、文化等的看法。通常,个性化语言被越多的人传播越容易成为新的网络热词(简称“新词”)。目前,新词在自动文摘、文本聚类/分类、信息检索等方面有着很重要的应用,据统计,每年互联网上出现超过1000个的中文新词,这些新词大多为各个领域具有时效性的专业术语,由于这些新词大多不存在字典中,因而使得现有的分词算法很难将这些新词从文档集中识别。以情感类的新词“给力(形容词)”,文档“表演非常给力”为例,现有的分词算法通常对其进行如下分词:表演/名词非常/副词给/动词力/名词,从而使得新词“给力”不能作为一个完整的词进行切分,进行影响新词的识别。
技术实现思路
本专利技术解决的技术问题之一为提升新词识别的准确性。根据本专利技术的一个方面的一个实施例,提供了一种从文档集中自动发现新词的方法,包括:获取一个或多个模板;从所述文档集中提取出与所述一个或多个模板中的各模板相匹配的词语;从所述一个或多个模板中至少选取一部分模板加入到候选模板集合;从提取出的与所述一个或多个模板中的各模板相匹配的词语中至少选取一部分词语加入到候选词集合;基于候选模板集合中的模板对所述候选词集合中的候选词排序,基于用候选模板集合中的模板对所述候选词集合中的候选词的排序将一定数量的候选词加入到新词集合。根据本专利技术的一个实施例,通过以下任一方式获取所述一个或多个模板:预先规定所述一个或多个模板,或在获取文档集后,对所述文档集进行切词处理,从经过切词处理的文档集中提取出与特定正则表达式相匹配的所述一个或多个模板。根据本专利技术的一个实施例,从所述一个或多个模板中至少选取一部分模板加入到候选模板集合的步骤包括以下中的任一个:将所述一个或多个模板全部加入候选模板集合;基于所述一个或多个模板的每个模板在所述文档集中出现的次数,将一部分模板加入候选模板集合。根据本专利技术的一个实施例,基于所述一个或多个模板的每个模板在所述文档集中出现的次数将一部分模板加入候选模板集合的步骤包括:将在所述文档集中出现的次数排在前f名的模板加入候选模板集合,f为正整数;或将在所述文档集中出现的次数超过特定阈值的模板加入候选模板集合。根据本专利技术的一个实施例,从提取出的与所述一个或多个模板中的各模板相匹配的词语中至少选取一部分词语加入到候选词集合的步骤包括以下中的任一个:将所述匹配的词语全部加入到候选词集合;基于所述匹配的词语与各模板的匹配次数,将一部分词语加入候选词集合。根据本专利技术的一个实施例,基于所述匹配的词语与各模板的匹配次数,将一部分词语加入候选词集合的步骤包括:将匹配的词语中与各模板的匹配次数排在前g名的词语加入候选词集合,g为正整数;或将匹配的词语中与各模板的匹配次数超过特定阈值的词语加入候选词集合。根据本专利技术的一个实施例,本方法还包括:在基于候选模板集合中的模板对所述候选词集合中的候选词排序之前,用预先规定的新词集合对候选模板集合中的模板进行排序,并基于所述用预先规定的新词集合对候选模板集合中的模板的排序过滤候选模板集合。根据本专利技术的一个实施例,本方法还包括:用得到的新词集合对候选模板集合中的模板进行排序,并基于所述用得到的新词集合对候选模板集合中的模板的排序过滤候选模板集合,并用过滤后的候选模板集合再次对所述候选词集合中的候选词排序并基于所述用过滤后的候选模板集合再次对所述候选词集合中的候选词的排序再次将一定数量的候选词加入到新词集合。根据本专利技术的一个实施例,对候选模板集合中的模板进行排序是通过基于以下公式计算候选模板集合中的模板权重并根据所计算的模板权重对候选模板集合中的模板进行排序来进行的:n1i=k1i+k3i,n2i=k2i+k4i,W表示新词集合,P表示候选模板集合,wi表示新词集合W中的一个词,pj表示候选模板集合P中的一个模板,k1i表示从所述文档集中发现的与所述一个或多个模板中的各模板的匹配中既含有wi又含有pj的匹配个数,k2i表示从所述文档集中发现的与所述一个或多个模板中的各模板的匹配中含有wi但不含有pj的匹配个数,k3i表示从所述文档集中发现的与所述一个或多个模板中的各模板的匹配中含有pj但不含有wi的匹配个数,k4i表示从所述文档集中发现的与所述一个或多个模板中的各模板的匹配中既不含有pj也不含有wi的匹配个数。根据本专利技术的一个实施例,所述基于候选模板集合中的模板对所述候选词集合中的候选词排序,基于用候选模板集合中的模板对所述候选词集合中的候选词的排序将一定数量的候选词加入到新词集合包括:将与候选模板集合中的模板相匹配的次数排在前m名的候选词加入到新词集合,m为正整数;或将与候选模板集合中的模板相匹配的次数超过特定阈值的候选词加入到新词集合。根据本专利技术的一个实施例,在基于候选模板集合中的模板对所述候选词集合中的候选词排序的步骤中,按照LLR(wi)、E(wi)、P(wi)、EMI(wi)、1/NMED(wi)中的其中一个、或其中任意多个的乘积来计算候选词集合中的候选词的权重,并基于所计算的权重对候选词集合中的候选词排序;其中,wi表示候选词集合W中的一个候选词,LLR(wi)表示候选词wi与候选模板集合中的模板的统计联系的紧密程度,E(wi)表示候选词wi的左信息熵,P(wi)表示候选词wi中的字联合成词的概率,EMI(wi)和NMED(wi)分别表示对候选词wi的语意合成性的不同度量;其中在基于候选模板集合中的模板对所述候选词集合中的候选词排序的步骤中,LLR(wi)、E(wi)、P(wi)、EMI(wi)、1/NMED(wi)分别通过如下计算得到:n1j=k1j+k3j,n2j=k2j+k4j,其中W表示候选词集合,P表示候选模板集合,wi表示W中的一个候选词,pj表示候选模板集合P中的一个模板,k1j表示从所述文档集中发现的与所述一个或多个模板中的各模板的匹配中既含有wi又含有pj的匹配个数,k2j表示从所述文档集中发现的与所述一个或多个模板中的各模板的匹配中含有wi但不含有pj的匹配个数,k3j表示从所述文档集中发现的与所述一个或多个模板中的各模板的匹配中含有pj但不含有wi的匹配个数,k4j表示从所述文档集中发现的与所述一个或多个模板中的各模板的匹配中既不含有pj也不含有wi的匹配个数;其中L表示文档集中与候选词wi左侧搭配出现过且与候选模板集合中的任一模板匹配的左侧词lo集合,c(lo)表示左侧词lo与候选词wi左侧搭配出现过且与候选模板集合中的任一模板匹配的的次数,N表示候选词wi与候选模板集合中的模板的一同出现的总次数;其中th表示候选词集合中的候选词wi中的第h个字,n表示候选词wi中所含的单个字的数量;all(th)表示候选词wi中的第h个字在文档集中出现的次数,s(th)表示候选词wi中的第h个字与任意字作为一个单独的词在文档集中出现的次数;其中S为文档集M中的总语段数,n表示候选词wi所包含的字个数,F表示文档集中包含候选词wi的语段数,Fh表示文档集中包含候选词wi中第h个字的语段数;其中S为文档集M中的总语段数,μ(g)表示文档集M中包含候选本文档来自技高网...
一种从文档集中自动发现新词的方法及装置

【技术保护点】
一种从文档集中自动发现新词的方法(1),包括:获取一个或多个模板(101);从所述文档集中提取出与所述一个或多个模板中的各模板相匹配的词语(102);从所述一个或多个模板中至少选取一部分模板加入到候选模板集合(103);从提取出的与所述一个或多个模板中的各模板相匹配的词语中至少选取一部分词语加入到候选词集合(104);基于候选模板集合中的模板对所述候选词集合中的候选词排序,基于所述排序将一定数量的候选词加入到新词集合(105)。

【技术特征摘要】
1.一种从文档集中自动发现新词的方法,包括:获取一个或多个模板(S101),所述模板包括词和空格或/和自定义符号;从所述文档集中提取出与所述一个或多个模板中的各模板相匹配的词语(S102),所述从文档集中提取出与所述一个或多个模板中的各模板相匹配的词语是除该模板所包括的词以外的词语;从所述一个或多个模板中至少选取一部分模板加入到候选模板集合(S103);从提取出的与所述一个或多个模板中的各模板相匹配的词语中至少选取一部分词语加入到候选词集合(S104);基于候选模板集合中的模板对所述候选词集合中的候选词排序,基于用候选模板集合中的模板对所述候选词集合中的候选词的排序将一定数量的候选词加入到新词集合(S105)。2.根据权利要求1所述的方法,其中通过以下任一方式获取所述一个或多个模板:预先规定所述一个或多个模板,或在获取文档集后,对所述文档集进行切词处理,从经过切词处理的文档集中提取出与特定正则表达式相匹配的所述一个或多个模板。3.根据权利要求1所述的方法,其中从所述一个或多个模板中至少选取一部分模板加入到候选模板集合的步骤包括以下中的任一个:将所述一个或多个模板全部加入候选模板集合;基于所述一个或多个模板的每个模板在所述文档集中出现的次数,将一部分模板加入候选模板集合。4.根据权利要求3所述的方法,其中基于所述一个或多个模板的每个模板在所述文档集中出现的次数将一部分模板加入候选模板集合的步骤包括:将在所述文档集中出现的次数排在前f名的模板加入候选模板集合,f为正整数;或将在所述文档集中出现的次数超过特定阈值的模板加入候选模板集合。5.根据权利要求1所述的方法,其中从提取出的与所述一个或多个模板中的各模板相匹配的词语中至少选取一部分词语加入到候选词集合的步骤包括以下中的任一个:将所述匹配的词语全部加入到候选词集合;基于所述匹配的词语与各模板的匹配次数,将一部分词语加入候选词集合。6.根据权利要求5所述的方法,其中基于所述匹配的词语与各模板的匹配次数,将一部分词语加入候选词集合的步骤包括:将匹配的词语中与各模板的匹配次数排在前g名的词语加入候选词集合,g为正整数;或将匹配的词语中与各模板的匹配次数超过特定阈值的词语加入候选词集合。7.根据权利要求1所述的方法,还包括:在基于候选模板集合中的模板对所述候选词集合中的候选词排序之前,用预先规定的新词集合对候选模板集合中的模板进行排序,并基于所述用预先规定的新词集合对候选模板集合中的模板的排序过滤候选模板集合。8.根据权利要求1所述的方法,还包括:用得到的新词集合对候选模板集合中的模板进行排序,并基于所述用得到的新词集合对候选模板集合中的模板的排序过滤候选模板集合,并用过滤后的候选模板集合再次对所述候选词集合中的候选词排序并基于所述用过滤后的候选模板集合再次对所述候选词集合中的候选词的排序再次将一定数量的候选词加入到新词集合。9.根据权利要求1所述的方法,其中在基于候选模板集合中的模板对所述候选词集合中的候选词排序的步骤中,按照LLR(wi)、E(wi)、P(wi)、EMI(wi)、1/NMED(...

【专利技术属性】
技术研发人员:黄民烈朱小燕
申请(专利权)人:清华大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1