一种基于深度学习及遗忘算法的中文分词方法技术

技术编号:20448889 阅读:37 留言:0更新日期:2019-02-27 02:59
本发明专利技术公开了一种基于深度学习及遗忘算法的中文分词方法,包括以下步骤:一:逐字扫描句子获取自然语言,采用深度学习分词方法对扫描的自然语言划分成词语序列收入至第一词库;二:逐字扫描句子获取自然语言,采用遗忘算法分词方法对获取的自然语言进行断字划分成候选词收入至第二词库,三:将第一词库中的词语序列与第二词库中的候选词融合获取最终分词结果,融合方法为:第二词库中的连续单字,若对应深度学习中为词,则合并为词;第二词库中的单个单字,若对应深度学习中为词,则向前或向后合并为词。本发明专利技术的分词方法,通过将深度学习分词方法和遗忘算法分词方法的融合,可以自动侦测领域知识,完成无监督领域新词发现功能,提高分词效果。

A Chinese Word Segmentation Method Based on Deep Learning and Forgetting Algorithms

The invention discloses a Chinese word segmentation method based on in-depth learning and forgetting algorithm, which includes the following steps: 1. Scanning sentences verbatim to acquire natural language, dividing scanned natural language into word sequences and earning them into the first lexicon using in-depth learning word segmentation method; 2. Scanning sentences verbatim to acquire natural language, and using forgetting algorithm word segmentation method to acquire natural language. Line-breaking words are divided into candidate words and collected into the second lexicon. Third, the final segmentation results are obtained by fusing the word sequence in the first lexicon with the candidate words in the second lexicon. The fusion method is: continuous words in the second lexicon are merged into words if they are words in the corresponding in-depth learning; single words in the second lexicon, if they are words in the corresponding in-depth learning, are merged into words forward or backward. Words. The word segmentation method of the present invention can automatically detect domain knowledge, complete the function of unsupervised domain new word discovery and improve the effect of word segmentation by combining the deep learning word segmentation method with the forgetting algorithm word segmentation method.

【技术实现步骤摘要】
一种基于深度学习及遗忘算法的中文分词方法
本专利技术涉及分词
,具体涉及一种基于深度学习及遗忘算法的中文分词方法。
技术介绍
中文分词(ChineseWordSegmentation)指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。1、基于字符串匹配的分词方法这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下:1)正向最大匹配法(由左到右的方向);2)逆向最大匹配法(由右到左的方向);3)最少切分(使每一句中切出的词数最小)。还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。对于机械分词方法,可以建立一个一般的模型,在这方面有专业的学术论文,这里不做详细论述。2、基于理解的分词方法这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。3、基于统计的分词方法从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。1、歧义识别歧义是指同样的一句话,可能有两种或者更多的切分方法。例如:表面的,因为“表面”和“面的”都是词,那么这个短语就可以分成“表面的”和“表面的”。这种称为交叉歧义。像这种交叉歧义十分常见,前面举的“和服”的例子,其实就是因为交叉歧义引起的错误。“化妆和服装”可以分成“化妆和服装”或者“化妆和服装”。由于没有人的知识去理解,计算机很难知道到底哪个方案正确。交叉歧义相对组合歧义来说是还算比较容易处理,组合歧义就必需根据整个句子来判断了。例如,在句子“这个门把手坏了”中,“把手”是个词,但在句子“请把手拿开”中,“把手”就不是一个词;在句子“将军任命了一名中将”中,“中将”是个词,但在句子“产量三年中将增长两倍”中,“中将”就不再是词。这些词计算机又如何去识别?如果交叉歧义和组合歧义计算机都能解决的话,在歧义中还有一个难题,是真歧义。真歧义意思是给出一句话,由人去判断也不知道哪个应该是词,哪个应该不是词。例如:“乒乓球拍卖完了”,可以切分成“乒乓球拍卖完了”、也可切分成“乒乓球拍卖完了”,如果没有上下文其他的句子,恐怕谁也不知道“拍卖”在这里算不算一个词。2、新词识别新词,专业术语称为未登录词。也就是那些在字典中都没有收录过,但又确实能称为词的那些词。最典型的是人名,人可以很容易理解句子“王军虎去广州了”中,“王军虎”是个词,因为是一个人的名字,但要是让计算机去识别就困难了。如果把“王军虎”做为一个词收录到字典中去,全世界有那么多名字,而且每时每刻都有新增的人名,收录这些人名本身就是一项巨大的工程。即使这项工作可以完成,还是会存在问题,例如:在句子“王军虎头虎脑的”中,“王军虎”还能不能算词?新词中除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题,而且这些又正好是人们经常使用的词,因此对于搜索引擎来说,分词系统中的新词识别十分重要。目前新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。现有分词算法基于词库的,在词库没有出现的词无法完成分词。
技术实现思路
本专利技术针对上述技术问题,提供一种基于深度学习及遗忘算法的中文分词方法,通过将深度学习分词方法和遗忘算法分词方法的融合,可以自动侦测领域知识,完成无监督领域新词发现功能,提高分词效果。为解决上述技术问题,本专利技术采用的技术方案是:一种基于深度学习及遗忘算法的中文分词方法,包括以下步骤:步骤一:逐字扫描句子获取自然语言,采用深度学习分词方法对扫描的自然语言划分成词语序列收入至第一词库;步骤二:逐字扫描句子获取自然语言,采用遗忘算法分词方法对获取的自然语言进行断字划分成候选词收入至第二词库,步骤三:将第一词库中的词语序列与第二词库中的候选词融合获取最终分词结果,其中,融合方法为:第一词库与第二词库均为词,则合并为词;第一词库与第二词库均为单字,则合并为字;第二词库中的连续单字,若对应深度学习中为词,则合并为词;第二词库中的单个单字,若对应深度学习中为词,则向前或向后合并为词。其中,步骤一深度学习分词方法采用RNN方法。其中,步骤一深度学习分词方法采用RNN方法中的LSTM模型。其中,步骤二遗忘算法分词方法采用判断公式为:P(WnWn+1)<P(Wn)*P(Wn+1)其中,Wn为在扫描句子中第n个字其中,步骤二中遗忘算法采用的遗忘曲线为牛顿冷却曲线。本专利技术的有益效果是:本专利技术的分词方法具有以下优点:(1)无监督学习,本文档来自技高网
...

【技术保护点】
1.一种基于深度学习及遗忘算法的中文分词方法,其特征在于,包括以下步骤:步骤一:逐字扫描句子获取自然语言,采用深度学习分词方法对扫描的自然语言划分成词语序列收入至第一词库;步骤二:逐字扫描句子获取自然语言,采用遗忘算法分词方法对获取的自然语言进行断字划分成候选词收入至第二词库,步骤三:将第一词库中的词语序列与第二词库中的候选词融合获取最终分词结果,其中,融合方法为:第一词库与第二词库均为词,则合并为词;第一词库与第二词库均为单字,则合并为字;第二词库中的连续单字,若对应深度学习中为词,则合并为词;第二词库中的单个单字,若对应深度学习中为词,则向前或向后合并为词。

【技术特征摘要】
1.一种基于深度学习及遗忘算法的中文分词方法,其特征在于,包括以下步骤:步骤一:逐字扫描句子获取自然语言,采用深度学习分词方法对扫描的自然语言划分成词语序列收入至第一词库;步骤二:逐字扫描句子获取自然语言,采用遗忘算法分词方法对获取的自然语言进行断字划分成候选词收入至第二词库,步骤三:将第一词库中的词语序列与第二词库中的候选词融合获取最终分词结果,其中,融合方法为:第一词库与第二词库均为词,则合并为词;第一词库与第二词库均为单字,则合并为字;第二词库中的连续单字,若对应深度学习中为词,则合并为词;第二词库中的单个单字,若对应深度学习中为词,则向前或向后合并为词。2.根据权利要求书1所述的一...

【专利技术属性】
技术研发人员:卢学裕王安杨大海杨利军
申请(专利权)人:北京布本智能科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1