一种基于迭代的三步式无监督中文分词方法技术

技术编号：18018848 阅读：35 留言：0更新日期：2018-05-23 05:08

一种基于迭代的三步式无监督中文分词方法，属于自然语言处理技术领域。基本思想是：是一种由局部切分、全局选词、语料消减迭代执行的无监督分词框架；每轮迭代中，先利用基于切分‑上下文相互独立度的成词概率模型，对文本语料进行局部最优的无监督切分，形式简单而有效；针对长尾现象，采用文档级脉冲式加权方法；再根据全局支持度，筛选新词，增量生成词典；最后基于词典最长匹配和概率最大原则分割文本，滤除成词切分，把连续的非词切分拼接起来，重构为规模消减的训练语料，对剩余语料进行类似的迭代处理，直至无新词产生。本发明专利技术优于现存性能最好的中文无监督分词算法。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于迭代的三步式无监督中文分词方法
本专利技术涉及一种基于迭代的三步式无监督中文分词方法，属于人工智能、机器学习以及自然语言处理

技术介绍
各种自然语言处理任务，包括信息检索、机器翻译、文本理解与挖掘等，都是以词语为基本单位进行的。中文文本由连续字符序列组成，句内词语之间无界符分隔。因此，对中文的自然语言处理，首先要分词，即把连续字符序列分割成词序列，然后进行语法解析、语义理解和语用分析等处理。现存的分词算法大体可分为有监督方法和无监督方法。有监督分词，是对标注语料进行有监督学习，训练出各种语言学及领域先验知识，用于指导文本的切分。词典是先验知识的载体，在有监督方法中居于核心地位。而无监督方法根据待切分文本自身特性进行分词处理，无需额外的其他先验知识。一般而言，有监督方法的分词准确度要高于无监督方法。但是，有监督方法依赖于人工标注的语料。而人工标注是一个劳动密集型的知识处理过程，构建一份高质量的训练语料，需要标注人员掌握足够丰富的语言学及领域知识。现实中，由于高水平专家的匮乏，加之人力成本高，人工标注的规模一般较小，在筛选语料时，通常以满足应用领域的特定需求为要，难于兼顾其他领域。如此构建出的词典，领域适应性较差，不同的应用领域需要使用不同的词典；词典的可扩展性也较差，难于检测和识别训练语料中未曾出现的未登录词或新词。虽然，无监督分词的准确性远逊于有监督方法，但是，无监督方法不依赖于标注语料，可以快速适应各种缺乏先验知识的应用场景，从无标注的陌生语料学习各种先验知识。在工程实践中，常常把无监督方法和有监督方法结合起来，利用无监督方法学习先验知...
一种基于迭代的三步式无监督中文分词方法

【技术保护点】
一种基于迭代的三步式无监督中文分词方法，其特征在于：基本思想是：针对无监督中文分词，提出一种由局部切分、全局选词、语料消减(Corpus Reduction)迭代执行的无监督分词框架；每轮迭代中，第一步利用基于切分‑上下文相互独立度(Mutual Independency between Segmentation and its Context，MISC)的成词概率模型，对文本语料进行局部最优的无监督切分；MISC模型不需要引入关于切分长度的统计假设，且兼顾全局和局部特征，形式简单而有效；针对长尾现象，采用篇章级脉冲式加权方法，改善具有全局低频局部高频特性的切分成词概率计算，提高局部切分的准确性；第二步，根据全局支持度，筛选新词，增量生成词典；第三步，基于词典最长匹配和概率最大原则分割文本，滤除成词切分，把连续的非词切分拼接起来，重构为规模消减的训练语料，对剩余语料进行类似的迭代处理，直至无新词产生。

【技术特征摘要】
1.一种基于迭代的三步式无监督中文分词方法，其特征在于：基本思想是：针对无监督中文分词，提出一种由局部切分、全局选词、语料消减(CorpusReduction)迭代执行的无监督分词框架；每轮迭代中，第一步利用基于切分-上下文相互独立度(MutualIndependencybetweenSegmentationanditsContext，MISC)的成词概率模型，对文本语料进行局部最优的无监督切分；MISC模型不需要引入关于切分长度的统计假设，且兼顾全局和局部特征，形式简单而有效；针对长尾现象，采用篇章级脉冲式加权方法，改善具有全局低频局部高频特性的切分成词概率计算，提高局部切分的准确性；第二步，根据全局支持度，筛选新词，增量生成词典；第三步，基于词典最长匹配和概率最大原则分割文本，滤除成词切分，把连续的非词切分拼接起来，重构为规模消减的训练语料，对剩余语料进行类似的迭代处理，直至无新词产生。2.根据权利要求1所述的一种基于迭代的三步式无监督中文分词方法，其特征在于：训练语料由多个篇章组成；很多词是主题相关的，在相关主题的篇章中出现频率较高，但在整个训练语料出现次数并不多；对于这种长尾现象，对切分进行篇章整体的频率加权提升，可以改善全局低频局部高频的处理效果；为此，引入篇章级脉冲式加权机制。3.根据权利要求1所述的一种基于迭代的三步式无监督中文分词方法，其特征在于：通过以下步骤实现：步骤1初始化，具体为：数据结构初始化，统计信息初始化；步骤2迭代处理，具体为：迭代执行局部切分、全局选词、语料消减，直至无新词产生；步骤3调整处理，具体为：逐文、逐段、逐句扫描切分序列，针对不包含于TopCharWord的切分，统计连续切分的共现频率；对共现频率>阈值的连续切分，进行合并；至此，经过步骤1到步骤3，完成了一种基于迭代的三步式无监督中文分词方法。4.根据权利要求3所述的一种基于迭代的三步式无监督中文分词方法，其特征在于：步骤1，具体为：步骤1.1数据结构初始化，具体为：初始化OccurS、OccurS→l→r、OccurS→r、Occurl→S、Words和TopCharWord；其中，OccurS记录候选词S的发生频率，OccurS→l→r记录S在上下文为l，r时(l，r分别为左右侧邻接字符)的发生频率，OccurS→r记录S在右侧上下文为r(r为右侧邻接字符)时的发生频率，Occurl→S记录左侧上下文为l(l为左侧邻接字符)时，S的发生频率；Words是记录多字词，TopCharWord记录单字词，二者共同构成词典；步骤1.2统计信息初始化，具体为：对文本语料按等概率全切分，统计候选词与上下文的统计信息；扫描全切分序列，对切分S与上下文的共现l·S·r，执行OccurS++、OccurS→l→r++、OccurS→r++、Occurl→S++操作；如左侧或右侧上下文不存在，用特殊符号表示；注意，本发明区别使用术语“切分”和“候选词”，切分是指一个具体的文本切分片段，候选词是对内容相同的切分的统指。5.根据权利要求3所述的一种基于迭代的三步式无监督中文分词方法，其特征在于：步骤2，又包括如下步骤：步骤2.1局部切分，具体为：利用基于切分-上下文相互独立度的成词概率模型，对文本语料进行局部最优的无监督切分；步骤2.2全局选词，具体为：根据候选词的全局支持度，筛选新词，增量生成词典；步骤2.3语料消减，具体为：基于词典最长匹配和概率最大原则分割文本语料，滤除成词切分，把连续的非词切分拼接起来，重构为规模消减的训练语料；全切分，更新统计信息。6.根据权利要求5所述的一种基于迭代的三步式无监督中文分词方法，其特征在于：步骤2.1，又包括如下步骤：步骤2.1.1基于MISC的局部成词概率计算；在切分文本语料时，是否接受一个候选词为词，不是简单地取决于其在语料中的发生频率；如果一个高频候选词的上下文尽不相同，可以认为，候选词的存在显著独立于上下文，这种候选词很大可能是一个词；反之，如果一个高频候选词，相对固定地伴随出现在特定上下文中，很可能不是作为一个完整的词，而是作为词的组成部分存在；对于一个低频候选词，则很难根据发生频率，直接判断是否是词，但是，它可能与其他切分共享某个上下文，如果该上下文的发生显著独立于切分，这种候选词也有可能构成一个词；根据上述分析可推知，无监督切分与上下文相互独立，则切分所对应候选词的成词概率比较高；具体基于上下文与切分之间的相互独立度模型进行无监督切分，如下公式(1)所示：其中，MISC表示切分-上下文的相互独立度；表示训练文本L中第i个字符，表示起止于i...

【专利技术属性】
技术研发人员：袁武，袁文，
申请(专利权)人：北京时空迅致科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人