一种基于迭代的三步式无监督中文分词方法技术

技术编号:18018848 阅读:35 留言:0更新日期:2018-05-23 05:08
一种基于迭代的三步式无监督中文分词方法,属于自然语言处理技术领域。基本思想是:是一种由局部切分、全局选词、语料消减迭代执行的无监督分词框架;每轮迭代中,先利用基于切分‑上下文相互独立度的成词概率模型,对文本语料进行局部最优的无监督切分,形式简单而有效;针对长尾现象,采用文档级脉冲式加权方法;再根据全局支持度,筛选新词,增量生成词典;最后基于词典最长匹配和概率最大原则分割文本,滤除成词切分,把连续的非词切分拼接起来,重构为规模消减的训练语料,对剩余语料进行类似的迭代处理,直至无新词产生。本发明专利技术优于现存性能最好的中文无监督分词算法。

【技术实现步骤摘要】
一种基于迭代的三步式无监督中文分词方法
本专利技术涉及一种基于迭代的三步式无监督中文分词方法,属于人工智能、机器学习以及自然语言处理

技术介绍
各种自然语言处理任务,包括信息检索、机器翻译、文本理解与挖掘等,都是以词语为基本单位进行的。中文文本由连续字符序列组成,句内词语之间无界符分隔。因此,对中文的自然语言处理,首先要分词,即把连续字符序列分割成词序列,然后进行语法解析、语义理解和语用分析等处理。现存的分词算法大体可分为有监督方法和无监督方法。有监督分词,是对标注语料进行有监督学习,训练出各种语言学及领域先验知识,用于指导文本的切分。词典是先验知识的载体,在有监督方法中居于核心地位。而无监督方法根据待切分文本自身特性进行分词处理,无需额外的其他先验知识。一般而言,有监督方法的分词准确度要高于无监督方法。但是,有监督方法依赖于人工标注的语料。而人工标注是一个劳动密集型的知识处理过程,构建一份高质量的训练语料,需要标注人员掌握足够丰富的语言学及领域知识。现实中,由于高水平专家的匮乏,加之人力成本高,人工标注的规模一般较小,在筛选语料时,通常以满足应用领域的特定需求为要,难于兼顾其他领域。如此构建出的词典,领域适应性较差,不同的应用领域需要使用不同的词典;词典的可扩展性也较差,难于检测和识别训练语料中未曾出现的未登录词或新词。虽然,无监督分词的准确性远逊于有监督方法,但是,无监督方法不依赖于标注语料,可以快速适应各种缺乏先验知识的应用场景,从无标注的陌生语料学习各种先验知识。在工程实践中,常常把无监督方法和有监督方法结合起来,利用无监督方法学习先验知识,以减少有监督方法构建词典时人工标注的工作量,提高词典生成效率,从而改善有监督方法的领域适应性和可扩展性。无监督分词的这个特点,在千金难觅一份堪用、够用的标注语料,更遑论高质量的现实条件下,弥为珍贵。特别是在泛在网络,数据规模巨大,更新频繁,人工标注完全无能为力的情况下,利用无监督分词方法,以海量的开放文本为训练集,构建自适应的通用型词典,是大数据条件下自然语言处理的必由之路。经过相关领域学者的长期努力,无监督分词技术研究已经取得很大的进展。无监督分词的基本方法,是根据字符之间、词与字符上下文之间、词之间的分布规律,进行文本切分。根据切分方法的不同,现存的无监督分词算法,大致可分为:基于字符离合度的方法,基于词与上下文离合度的方法,基于词n-gram的方法,以及各种混合算法。基于字符离合度的方法,基于词与上下文离合度的方法,统归于构造离合度特征函数的方法。基于字符离合度的方法,使用互信息(MutualInformation,MI)等统计指标,评估相邻字符之间的分离/聚合度。基于词与上下文离合度的基本方法,使用邻接变位数(AccessorVariety,AV)或边界熵(BoundaryEntropy,BE)等统计指标,评估候选词相对于字符上下文的分离/聚合度。在计算词边界时,可以根据离合度局部统计值与经验阈值的比较结果,直接判断是否为词边界,这种方式比较简单,但是没有考虑全局信息;也可以引入最小描述长度(MinimumDescriptionLength)、排名机制或归一化等,根据候选词的全局统计特征,进行全局优化。基于词n-gram的方法,主要利用DirichletProcess(DP)、HierarchicalDirichletProcess(HDP)以及NestedHierarchicalPitman-YorProcess(NPY)等非参贝叶斯方法,把语言学先验知识引入到词n-gram概率模型中,通过概率最大化实现文本切分。Mochitashi等在BayesianunsupervisedwordsegmentationwithnestedPitman-Yorlanguagemodeling(inProceedingsoftheJointConferenceofthe47thAnnualMeetingoftheACLandthe4thInternationalJointConferenceonNaturalLanguageProcessingoftheAFNLP,page100-108,2009)中把字符级n-gram模型嵌入到词级n-gram概率模型,利用词内部字符结构信息,改善分词效果。基于单一方法改进分词效率的空间比较有限。多种方法混合使用,是改进无监督分词效率的另一条途径。典型的方法是先利用边界熵切分文本,再按照最小描述长度准则,对初分结果进行筛选。此外,Johnson等在ImprovingnonparametricBayesianinference:experimentsonunsupervisedwordsegmentationwithadaptorgrammars(inProceedingsofHumanLanguageTechnologies:The2009AnnualConferenceoftheNorthAmericanChapteroftheAssociationforComputationalLinguistics,pages317–325,2009)中把语言相关的适配器文法(AdaptorGrammars,AG),引入到层次化贝叶斯学习框架中,在针对英语发音数据的分词中取得较好效果。但是,该方法依赖于文法的先验知识,需要针对不同的语言设计不同的文法规则,采样过程较慢,收敛时间较长。Berg-Kirkpatrick等在PainlessUnsupervisedLearningwithFeatures(inProceedingHLT'10HumanLanguageTechnologies:The2010AnnualConferenceoftheNorthAmericanChapteroftheAssociationforComputationalLinguistics,pages582-590.2010)中提出局部归一化的判别式模型,利用期望最大化算法加以求解,实现无监督分词。该方法可以像有监督判别式模型一样融入各种特征,在针对英语发音数据的分词中取得较好效果。然而,该方法训练周期较长,对于中文等自然文本数据的效果还有待验证。Chen等在AJointModelforUnsupervisedChineseWordSegmentation(inConferenceonEmpiricalMethodsinNaturalLanguageProcessing,pages854-863,2014)中利用HMN刻画词内部字符结构信息,引入到HDP贝叶斯学习框架,提出所谓的联合模型,利用归一化边界熵切分文本,根据初分结果对联合模型初始化,通过Gibbs采样实现无监督的文本切分。Wang等在Anewunsupervisedapproachtowordsegmentation(inComputationalLinguistics,vol37,no.3,pages421-454,2011)中建立Goodness模型,综合利用候选词频率、边界熵及长度等信息,评估切分的成词可能性,通过评估、选择和调整,实现迭代式的无监督分词。Tang等在U本文档来自技高网...
一种基于迭代的三步式无监督中文分词方法

【技术保护点】
一种基于迭代的三步式无监督中文分词方法,其特征在于:基本思想是:针对无监督中文分词,提出一种由局部切分、全局选词、语料消减(Corpus Reduction)迭代执行的无监督分词框架;每轮迭代中,第一步利用基于切分‑上下文相互独立度(Mutual Independency between Segmentation and its Context,MISC)的成词概率模型,对文本语料进行局部最优的无监督切分;MISC模型不需要引入关于切分长度的统计假设,且兼顾全局和局部特征,形式简单而有效;针对长尾现象,采用篇章级脉冲式加权方法,改善具有全局低频局部高频特性的切分成词概率计算,提高局部切分的准确性;第二步,根据全局支持度,筛选新词,增量生成词典;第三步,基于词典最长匹配和概率最大原则分割文本,滤除成词切分,把连续的非词切分拼接起来,重构为规模消减的训练语料,对剩余语料进行类似的迭代处理,直至无新词产生。

【技术特征摘要】
1.一种基于迭代的三步式无监督中文分词方法,其特征在于:基本思想是:针对无监督中文分词,提出一种由局部切分、全局选词、语料消减(CorpusReduction)迭代执行的无监督分词框架;每轮迭代中,第一步利用基于切分-上下文相互独立度(MutualIndependencybetweenSegmentationanditsContext,MISC)的成词概率模型,对文本语料进行局部最优的无监督切分;MISC模型不需要引入关于切分长度的统计假设,且兼顾全局和局部特征,形式简单而有效;针对长尾现象,采用篇章级脉冲式加权方法,改善具有全局低频局部高频特性的切分成词概率计算,提高局部切分的准确性;第二步,根据全局支持度,筛选新词,增量生成词典;第三步,基于词典最长匹配和概率最大原则分割文本,滤除成词切分,把连续的非词切分拼接起来,重构为规模消减的训练语料,对剩余语料进行类似的迭代处理,直至无新词产生。2.根据权利要求1所述的一种基于迭代的三步式无监督中文分词方法,其特征在于:训练语料由多个篇章组成;很多词是主题相关的,在相关主题的篇章中出现频率较高,但在整个训练语料出现次数并不多;对于这种长尾现象,对切分进行篇章整体的频率加权提升,可以改善全局低频局部高频的处理效果;为此,引入篇章级脉冲式加权机制。3.根据权利要求1所述的一种基于迭代的三步式无监督中文分词方法,其特征在于:通过以下步骤实现:步骤1初始化,具体为:数据结构初始化,统计信息初始化;步骤2迭代处理,具体为:迭代执行局部切分、全局选词、语料消减,直至无新词产生;步骤3调整处理,具体为:逐文、逐段、逐句扫描切分序列,针对不包含于TopCharWord的切分,统计连续切分的共现频率;对共现频率>阈值的连续切分,进行合并;至此,经过步骤1到步骤3,完成了一种基于迭代的三步式无监督中文分词方法。4.根据权利要求3所述的一种基于迭代的三步式无监督中文分词方法,其特征在于:步骤1,具体为:步骤1.1数据结构初始化,具体为:初始化OccurS、OccurS→l→r、OccurS→r、Occurl→S、Words和TopCharWord;其中,OccurS记录候选词S的发生频率,OccurS→l→r记录S在上下文为l,r时(l,r分别为左右侧邻接字符)的发生频率,OccurS→r记录S在右侧上下文为r(r为右侧邻接字符)时的发生频率,Occurl→S记录左侧上下文为l(l为左侧邻接字符)时,S的发生频率;Words是记录多字词,TopCharWord记录单字词,二者共同构成词典;步骤1.2统计信息初始化,具体为:对文本语料按等概率全切分,统计候选词与上下文的统计信息;扫描全切分序列,对切分S与上下文的共现l·S·r,执行OccurS++、OccurS→l→r++、OccurS→r++、Occurl→S++操作;如左侧或右侧上下文不存在,用特殊符号表示;注意,本发明区别使用术语“切分”和“候选词”,切分是指一个具体的文本切分片段,候选词是对内容相同的切分的统指。5.根据权利要求3所述的一种基于迭代的三步式无监督中文分词方法,其特征在于:步骤2,又包括如下步骤:步骤2.1局部切分,具体为:利用基于切分-上下文相互独立度的成词概率模型,对文本语料进行局部最优的无监督切分;步骤2.2全局选词,具体为:根据候选词的全局支持度,筛选新词,增量生成词典;步骤2.3语料消减,具体为:基于词典最长匹配和概率最大原则分割文本语料,滤除成词切分,把连续的非词切分拼接起来,重构为规模消减的训练语料;全切分,更新统计信息。6.根据权利要求5所述的一种基于迭代的三步式无监督中文分词方法,其特征在于:步骤2.1,又包括如下步骤:步骤2.1.1基于MISC的局部成词概率计算;在切分文本语料时,是否接受一个候选词为词,不是简单地取决于其在语料中的发生频率;如果一个高频候选词的上下文尽不相同,可以认为,候选词的存在显著独立于上下文,这种候选词很大可能是一个词;反之,如果一个高频候选词,相对固定地伴随出现在特定上下文中,很可能不是作为一个完整的词,而是作为词的组成部分存在;对于一个低频候选词,则很难根据发生频率,直接判断是否是词,但是,它可能与其他切分共享某个上下文,如果该上下文的发生显著独立于切分,这种候选词也有可能构成一个词;根据上述分析可推知,无监督切分与上下文相互独立,则切分所对应候选词的成词概率比较高;具体基于上下文与切分之间的相互独立度模型进行无监督切分,如下公式(1)所示:其中,MISC表示切分-上下文的相互独立度;表示训练文本L中第i个字符,表示起止于i...

【专利技术属性】
技术研发人员:袁武袁文
申请(专利权)人:北京时空迅致科技有限公司
类型:发明
国别省市:北京,11

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1