The invention discloses a Chinese word segmentation method based on in-depth learning and forgetting algorithm, which includes the following steps: 1. Scanning sentences verbatim to acquire natural language, dividing scanned natural language into word sequences and earning them into the first lexicon using in-depth learning word segmentation method; 2. Scanning sentences verbatim to acquire natural language, and using forgetting algorithm word segmentation method to acquire natural language. Line-breaking words are divided into candidate words and collected into the second lexicon. Third, the final segmentation results are obtained by fusing the word sequence in the first lexicon with the candidate words in the second lexicon. The fusion method is: continuous words in the second lexicon are merged into words if they are words in the corresponding in-depth learning; single words in the second lexicon, if they are words in the corresponding in-depth learning, are merged into words forward or backward. Words. The word segmentation method of the present invention can automatically detect domain knowledge, complete the function of unsupervised domain new word discovery and improve the effect of word segmentation by combining the deep learning word segmentation method with the forgetting algorithm word segmentation method.
【技术实现步骤摘要】
一种基于深度学习及遗忘算法的中文分词方法
本专利技术涉及分词
,具体涉及一种基于深度学习及遗忘算法的中文分词方法。
技术介绍
中文分词(ChineseWordSegmentation)指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。1、基于字符串匹配的分词方法这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下:1)正向最大匹配法(由左到右的方向);2)逆向最大匹配法(由右到左的方向);3)最少切分(使每一句中切出的词数最小)。还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字 ...
【技术保护点】
1.一种基于深度学习及遗忘算法的中文分词方法,其特征在于,包括以下步骤:步骤一:逐字扫描句子获取自然语言,采用深度学习分词方法对扫描的自然语言划分成词语序列收入至第一词库;步骤二:逐字扫描句子获取自然语言,采用遗忘算法分词方法对获取的自然语言进行断字划分成候选词收入至第二词库,步骤三:将第一词库中的词语序列与第二词库中的候选词融合获取最终分词结果,其中,融合方法为:第一词库与第二词库均为词,则合并为词;第一词库与第二词库均为单字,则合并为字;第二词库中的连续单字,若对应深度学习中为词,则合并为词;第二词库中的单个单字,若对应深度学习中为词,则向前或向后合并为词。
【技术特征摘要】
1.一种基于深度学习及遗忘算法的中文分词方法,其特征在于,包括以下步骤:步骤一:逐字扫描句子获取自然语言,采用深度学习分词方法对扫描的自然语言划分成词语序列收入至第一词库;步骤二:逐字扫描句子获取自然语言,采用遗忘算法分词方法对获取的自然语言进行断字划分成候选词收入至第二词库,步骤三:将第一词库中的词语序列与第二词库中的候选词融合获取最终分词结果,其中,融合方法为:第一词库与第二词库均为词,则合并为词;第一词库与第二词库均为单字,则合并为字;第二词库中的连续单字,若对应深度学习中为词,则合并为词;第二词库中的单个单字,若对应深度学习中为词,则向前或向后合并为词。2.根据权利要求书1所述的一...
【专利技术属性】
技术研发人员:卢学裕,王安,杨大海,杨利军,
申请(专利权)人:北京布本智能科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。