【技术实现步骤摘要】
一种基于迭代的三步式无监督中文分词方法
本专利技术涉及一种基于迭代的三步式无监督中文分词方法,属于人工智能、机器学习以及自然语言处理
技术介绍
各种自然语言处理任务,包括信息检索、机器翻译、文本理解与挖掘等,都是以词语为基本单位进行的。中文文本由连续字符序列组成,句内词语之间无界符分隔。因此,对中文的自然语言处理,首先要分词,即把连续字符序列分割成词序列,然后进行语法解析、语义理解和语用分析等处理。现存的分词算法大体可分为有监督方法和无监督方法。有监督分词,是对标注语料进行有监督学习,训练出各种语言学及领域先验知识,用于指导文本的切分。词典是先验知识的载体,在有监督方法中居于核心地位。而无监督方法根据待切分文本自身特性进行分词处理,无需额外的其他先验知识。一般而言,有监督方法的分词准确度要高于无监督方法。但是,有监督方法依赖于人工标注的语料。而人工标注是一个劳动密集型的知识处理过程,构建一份高质量的训练语料,需要标注人员掌握足够丰富的语言学及领域知识。现实中,由于高水平专家的匮乏,加之人力成本高,人工标注的规模一般较小,在筛选语料时,通常以满足应用领域的特定需求为要,难于兼顾其他领域。如此构建出的词典,领域适应性较差,不同的应用领域需要使用不同的词典;词典的可扩展性也较差,难于检测和识别训练语料中未曾出现的未登录词或新词。虽然,无监督分词的准确性远逊于有监督方法,但是,无监督方法不依赖于标注语料,可以快速适应各种缺乏先验知识的应用场景,从无标注的陌生语料学习各种先验知识。在工程实践中,常常把无监督方法和有监督方法结合起来,利用无监督方法学习先验知 ...
【技术保护点】
一种基于迭代的三步式无监督中文分词方法,其特征在于:基本思想是:针对无监督中文分词,提出一种由局部切分、全局选词、语料消减(Corpus Reduction)迭代执行的无监督分词框架;每轮迭代中,第一步利用基于切分‑上下文相互独立度(Mutual Independency between Segmentation and its Context,MISC)的成词概率模型,对文本语料进行局部最优的无监督切分;MISC模型不需要引入关于切分长度的统计假设,且兼顾全局和局部特征,形式简单而有效;针对长尾现象,采用篇章级脉冲式加权方法,改善具有全局低频局部高频特性的切分成词概率计算,提高局部切分的准确性;第二步,根据全局支持度,筛选新词,增量生成词典;第三步,基于词典最长匹配和概率最大原则分割文本,滤除成词切分,把连续的非词切分拼接起来,重构为规模消减的训练语料,对剩余语料进行类似的迭代处理,直至无新词产生。
【技术特征摘要】
1.一种基于迭代的三步式无监督中文分词方法,其特征在于:基本思想是:针对无监督中文分词,提出一种由局部切分、全局选词、语料消减(CorpusReduction)迭代执行的无监督分词框架;每轮迭代中,第一步利用基于切分-上下文相互独立度(MutualIndependencybetweenSegmentationanditsContext,MISC)的成词概率模型,对文本语料进行局部最优的无监督切分;MISC模型不需要引入关于切分长度的统计假设,且兼顾全局和局部特征,形式简单而有效;针对长尾现象,采用篇章级脉冲式加权方法,改善具有全局低频局部高频特性的切分成词概率计算,提高局部切分的准确性;第二步,根据全局支持度,筛选新词,增量生成词典;第三步,基于词典最长匹配和概率最大原则分割文本,滤除成词切分,把连续的非词切分拼接起来,重构为规模消减的训练语料,对剩余语料进行类似的迭代处理,直至无新词产生。2.根据权利要求1所述的一种基于迭代的三步式无监督中文分词方法,其特征在于:训练语料由多个篇章组成;很多词是主题相关的,在相关主题的篇章中出现频率较高,但在整个训练语料出现次数并不多;对于这种长尾现象,对切分进行篇章整体的频率加权提升,可以改善全局低频局部高频的处理效果;为此,引入篇章级脉冲式加权机制。3.根据权利要求1所述的一种基于迭代的三步式无监督中文分词方法,其特征在于:通过以下步骤实现:步骤1初始化,具体为:数据结构初始化,统计信息初始化;步骤2迭代处理,具体为:迭代执行局部切分、全局选词、语料消减,直至无新词产生;步骤3调整处理,具体为:逐文、逐段、逐句扫描切分序列,针对不包含于TopCharWord的切分,统计连续切分的共现频率;对共现频率>阈值的连续切分,进行合并;至此,经过步骤1到步骤3,完成了一种基于迭代的三步式无监督中文分词方法。4.根据权利要求3所述的一种基于迭代的三步式无监督中文分词方法,其特征在于:步骤1,具体为:步骤1.1数据结构初始化,具体为:初始化OccurS、OccurS→l→r、OccurS→r、Occurl→S、Words和TopCharWord;其中,OccurS记录候选词S的发生频率,OccurS→l→r记录S在上下文为l,r时(l,r分别为左右侧邻接字符)的发生频率,OccurS→r记录S在右侧上下文为r(r为右侧邻接字符)时的发生频率,Occurl→S记录左侧上下文为l(l为左侧邻接字符)时,S的发生频率;Words是记录多字词,TopCharWord记录单字词,二者共同构成词典;步骤1.2统计信息初始化,具体为:对文本语料按等概率全切分,统计候选词与上下文的统计信息;扫描全切分序列,对切分S与上下文的共现l·S·r,执行OccurS++、OccurS→l→r++、OccurS→r++、Occurl→S++操作;如左侧或右侧上下文不存在,用特殊符号表示;注意,本发明区别使用术语“切分”和“候选词”,切分是指一个具体的文本切分片段,候选词是对内容相同的切分的统指。5.根据权利要求3所述的一种基于迭代的三步式无监督中文分词方法,其特征在于:步骤2,又包括如下步骤:步骤2.1局部切分,具体为:利用基于切分-上下文相互独立度的成词概率模型,对文本语料进行局部最优的无监督切分;步骤2.2全局选词,具体为:根据候选词的全局支持度,筛选新词,增量生成词典;步骤2.3语料消减,具体为:基于词典最长匹配和概率最大原则分割文本语料,滤除成词切分,把连续的非词切分拼接起来,重构为规模消减的训练语料;全切分,更新统计信息。6.根据权利要求5所述的一种基于迭代的三步式无监督中文分词方法,其特征在于:步骤2.1,又包括如下步骤:步骤2.1.1基于MISC的局部成词概率计算;在切分文本语料时,是否接受一个候选词为词,不是简单地取决于其在语料中的发生频率;如果一个高频候选词的上下文尽不相同,可以认为,候选词的存在显著独立于上下文,这种候选词很大可能是一个词;反之,如果一个高频候选词,相对固定地伴随出现在特定上下文中,很可能不是作为一个完整的词,而是作为词的组成部分存在;对于一个低频候选词,则很难根据发生频率,直接判断是否是词,但是,它可能与其他切分共享某个上下文,如果该上下文的发生显著独立于切分,这种候选词也有可能构成一个词;根据上述分析可推知,无监督切分与上下文相互独立,则切分所对应候选词的成词概率比较高;具体基于上下文与切分之间的相互独立度模型进行无监督切分,如下公式(1)所示:其中,MISC表示切分-上下文的相互独立度;表示训练文本L中第i个字符,表示起止于i...
【专利技术属性】
技术研发人员:袁武,袁文,
申请(专利权)人:北京时空迅致科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。