当前位置: 首页 > 专利查询>南京大学专利>正文

一种基于PageRank和信息熵的裁判文书的文本分词方法技术

技术编号:19388823 阅读:22 留言:0更新日期:2018-11-10 02:00
本发明专利技术公开了一种基于PageRank和信息熵的裁判文书的文本分词方法,该发明专利技术属于自然语言处理领域中的中文分词技术,主要采用了改进的PageRank算法、信息熵、互信息以及关键词词典对中文文本进行分词。本发明专利技术针对法律领域的裁判文书,在PageRank算法基础上建立了分词方法,根据Rank向量切分候选词,并利用信息熵对候选词进行修正,再依据裁判文书的关键词词典做术语合并,最终输出分词结果,该方法能够较为准确地对裁判文书进行分词。本发明专利技术与现有方法相比,其显著优点是:不需要通过大量文本语料库进行统计或训练以建立大规模的词典,仅对输入文本进行统计,将输入文本作为现有语料库进行统计挖掘,最终结合裁判文书的关键词术语词典即可完成分词。

A text segmentation method for judgment documents based on PageRank and information entropy

The invention discloses a text segmentation method for judgment documents based on PageRank and information entropy. The invention belongs to the Chinese word segmentation technology in the field of natural language processing. It mainly adopts improved PageRank algorithm, information entropy, mutual information and keyword dictionary to segment Chinese text. The invention establishes a word segmentation method based on PageRank algorithm for judgment documents in the field of law. The candidate words are segmented according to Rank vector, and the candidate words are amended by information entropy. Then the terms are merged according to the dictionary of the key words of the judgment documents, and the final result of the word segmentation is output. The method can accurately judge. Word segmentation. Compared with the existing method, the present invention has the remarkable advantages that it does not need a large number of text corpus for statistics or training to establish a large-scale dictionary, only counts the input text, and uses the input text as the existing corpus for statistical mining, and finally completes word segmentation combined with the dictionary of key words and terms in the judgment document.

【技术实现步骤摘要】
一种基于PageRank和信息熵的裁判文书的文本分词方法
本专利技术属于自然语言处理
中的中文分词技术,是用于针对法律文书进行中文分词的技术。
技术介绍
分词是指将已有的文本切分成为一个个分开的、单独的、有意义的单元。中文分词是指将一个连续的汉字序列切分成单独的词,使之成为符合语义的、可读的词序列。汉语相比于英文,词与词之间没有明确的分隔符作为切分的依据,因此,在分词方面,中文分词的难度要更高于其他语言。而分词算法产生的分词结果,也将直接影响到上层的应用效果,如词性标注、关键词提取等。因此,如何使计算机理解中文文本段,进行准确分词而为上层的文本处理应用提供支持就是中文分词最难以解决的问题。目前,中文分词最常用的主要方法有:基于词典的字符串匹配方法、基于规则的分词方法和基于统计的分词方法。(1)基于词典的字符串匹配方法主要是通过扫描查找出输入文本中存在于词典里的词,并以此作为依据进行分词。基于词典的匹配方法通过正向/逆向匹配词典,得到所有在词典中出现过的词,并依照最长/最短词匹配的原则,生成分词文本。但是这种方法较为依赖分词词典,必须对词典保持持续更新以获得较好效果,同时词典的建立需要总结大量文本语料库,较为耗费时间。对于新词识别以及歧义的问题,该方法并不能很好地解决。(2)基于规则的方法是指总结语言的语法与语义,模拟人理解文本的过程进行分词。该方法在于判断词性、语义,并按照建立好的规则库匹配得到符合语法语义的分词文本。但是这种方法需要大量语义学知识,并以此为基础建立规则库。由于汉语的复杂性,且部分文本中语言的使用不严格遵循语法规则,因此该方法对于汉语分词效果并不是特别理想。(3)基于统计的分词方法是指统计词出现的频率、频次以及其它特征,以此作为依据进行分词。比较著名的方法有隐形马尔科夫模型、条件随机场等。统计学方法通过统计词在语料库中的出现频率、字与字之间的共现频率等作为是否能够成词的依据。近几年机器学习技术使得很多基于统计的机器学习方法取得不错的效果,尤其是在歧义消除和新词发现方面。基于统计的分词方法不需要额外的词典,而是仅对语料库中的字组进行统计。但是,该方法有时会抽取出一些频次高却无语义的词。而且,基于统计的机器学习方法也需要准备大量人工标记的数据集以进行训练。本专利技术结合了以上三种方法进行文本分词,主要实现方式为:基于规则对文本进行预处理;基于统计学方法计算词的Rank值、信息熵、互信息进行分词;基于关键词词典对专业术语进行合并。在法律方面,法律文书一般具有较高的结构性,裁判文书的撰写依照严格的格式要求进行。但是,在法律文书中存在大量的地名、人名、机构名以及其它特殊名称,因此,如何对这些特殊词进行识别也是一个难题。同时,由于法律文书中经常会用到一些专用的术语,例如“夫妻共同财产”、“人民陪审员”、“肇事逃逸罪”等。这些术语由多个常用短词共同组合而成,传统的分词方法往往会将此类术语拆分成为“夫妻/共同/财产”、“人民/陪审员”、“肇事/逃逸罪”,而实际上这些词语并不应该在分词过程中被拆分。
技术实现思路
本专利技术要解决的技术问题是:提供一种基于PageRank的中文文书分词方法,该方法不仅能有效识别文本之间的术语以及特殊词,而且不需要对模型以大规模语料库或数据集进行统计训练,所统计识别的范围仅在于输入文本,仅需要针对小范围术语建立关键词词典即可提升领域术语识别的效果。本专利技术的技术方案为:基于PageRank的中文文书分词方法,首先通过对输入文本进行预处理,提取出标点符号、英文、数字以及特殊模式(日期、金额等),保留余下的中文字符序列;然后计算所有潜在词的特征,主要有PageRank值、信息熵和互信息;最终根据潜在词的PageRank值选出候选词,根据信息熵对候选词修正,再匹配关键词词典得到最终的分词序列。该方法引入PageRank算法使得分词工作不需要依赖外部大量的语料,该分词方法整体流程如图1所示。包含以下步骤(如图10所示):步骤(1)读取输入文本,以标点符号、数字以及英文字母作为分隔符进行切分,得到文本中的全部汉字,再过滤去除词长只有1的字,得到一个字符串列表S;步骤(2)对于S中的每一个字符串Si的长度不超过k(k=6)的子串Ssub(潜在词),计算Ssub在文本中的频率,计算Ssub的左右信息熵Hl,Hr以及互信息I(Ssub);步骤(3)调用PageRank计算过程:获得所有字符串Ssub间的包含关系矩阵A和初试Rank向量R并迭代n(n=10)次计算出Rank得分;步骤(4)将步骤(1)中提取出的分隔符,以及S中符合特殊模式的词(如日期、法律条目、金额等)进行提前分割;步骤(5)根据步骤(3)得到的Rank得分向量R对文书剩余文字部分进行切分,得到一个词列表W;步骤(6)根据步骤(2)中计算的信息熵对步骤(5)得到的候选切分结果W进行修正,得到修正后的分词列表Wr;步骤(7)读取已有的词典D,对于步骤(6)修正后的结果Wr中的每两个相邻词wi,wi+1,合并D中存在的术语,得到术语合并后的词列表Wrd;步骤(8)根据Wrd和给定分隔符o,返回最终分词结果。在以上的流程中,PageRank的计算过程步骤如下:步骤(3.1)根据计算的互信息值建立潜在词的Rank列向量的初始值R0;步骤(3.2)遍历所有Ssub,建立所有潜在词之间的包含关系矩阵A,若存在Ssub1是Ssub2的子串,则否则步骤(3.3)迭代u(u=10)次计算所有潜在词的PageRank,迭代公式为:R=c1AR+c2(RTA)T,(c1=1,c2=0.01)。根据Rank得分切分出候选词的过程步骤如下:步骤(5.1)首先,通过设立大小为t(t=5)的滑动窗口,在滑动窗口内取出最大PageRank值的词作为候选词,直至滑动窗口滑至底部。分别正向和逆向切分,可以得到两个词列表Wf和Wb;步骤(5.2)比较Wf和Wb中不同的切分部分,对每一部分取出最大PageRank值的词作为候选词,并继续对该词左右部分递归应用全局最大值切分直至所有剩余部分长度不大于2。在步骤(2)中,需要计算潜在词的左右信息熵Hl和Hr以及互信息I(Ssub),具体的计算公式为:其中X为某个潜在词,XL和XR分别为潜在词X的左右临近字集合,P(x)为字x在临近字集合中出现的概率。互信息的计算公式为:其中w为某个潜在词,(X,Y)为w的划分集合,使得w=xy,P(x,y)为xy在文本中共现的频率,也就是w出现的频率。在步骤(3)中,本专利技术对PageRank算法进行了改进,以适用于文本分词。其中有向图模型的建立方法如下:将每一个候选词视为一个节点。对任意两个候选词s1,s2(s1≠s2),存在一条从s1到s2的链当且仅当s1是s2的子串(见图11)。如果某个候选词具有多个入链,则说明该候选词更容易被“引用”,也就更可能是一个有意义的词。同时,考虑到多个短词组成的长词术语问题,若某一个候选词具有多个出链指向的分别是Rank值高的短候选词,则这个长词也很有可能是有意义的术语。因此本专利技术中的PageRank算法加入了短词对长词的Rank值反馈。对某个候选词的Rank值定义如下:其中u代表某个候选词节点,Fu表示u指向的候选词集合,Bu表示指向u的候选词集本文档来自技高网
...

【技术保护点】
1.基于PageRank的文本分词方法,其特征是基于PageRank算法计算文本的Rank值并结合词的信息熵、互信息以及法律领域常用术语组成的词典进行分词,它以待分词文本为输入,以用特定分隔符分隔的相应文本为输出结果;该方法具体包含以下步骤:步骤(1)预处理:读取输入文本,以标点符号、数字以及英文字母作为分隔符进行切分,得到文本中的全部汉字,再过滤去除词长只有1的字,得到一个字符串列表S;步骤(2)特征计算:对于S中的每一个字符串Si的长度不超过k(k=6)的子串Ssub(潜在词),计算Ssub在文本中的频率,计算Ssub的左右信息熵Hl,Hr以及互信息I(Ssub);步骤(3)调用PageRank计算过程:获得所有字符串Ssub间的包含关系矩阵A和初试Rank向量R并迭代n(n=10)次计算出Rank得分;步骤(4)文书提前分割:将步骤(1)中提取出的分隔符,以及S中符合特殊模式的词(如日期、法律条目、金额等)进行提前分割;步骤(5)候选词切分:根据步骤(3)得到的Rank得分向量R对文书剩余文字部分进行切分,得到一个词列表W;步骤(6)分词修正:根据步骤(2)中计算的信息熵对(5)得到的候选切分结果W进行修正,得到修正后的分词列表Wr;步骤(7)术语合并:读取已有的词典D,对于步骤(6)修正后的结果Wr中的每两个相邻词wi,wi+1,合并D中存在的术语,得到术语合并后的词列表Wrd;步骤(8)生成分词文本:根据Wrd和给定分隔符o,返回最终分词结果。...

【技术特征摘要】
1.基于PageRank的文本分词方法,其特征是基于PageRank算法计算文本的Rank值并结合词的信息熵、互信息以及法律领域常用术语组成的词典进行分词,它以待分词文本为输入,以用特定分隔符分隔的相应文本为输出结果;该方法具体包含以下步骤:步骤(1)预处理:读取输入文本,以标点符号、数字以及英文字母作为分隔符进行切分,得到文本中的全部汉字,再过滤去除词长只有1的字,得到一个字符串列表S;步骤(2)特征计算:对于S中的每一个字符串Si的长度不超过k(k=6)的子串Ssub(潜在词),计算Ssub在文本中的频率,计算Ssub的左右信息熵Hl,Hr以及互信息I(Ssub);步骤(3)调用PageRank计算过程:获得所有字符串Ssub间的包含关系矩阵A和初试Rank向量R并迭代n(n=10)次计算出Rank得分;步骤(4)文书提前分割:将步骤(1)中提取出的分隔符,以及S中符合特殊模式的词(如日期、法律条目、金额等)进行提前分割;步骤(5)候选词切分:根据步骤(3)得到的Rank得分向量R对文书剩余文字部分进行切分,得到一个词列表W;步骤(6)分词修正:根据步骤(2)中计算的信息熵对(5)得到的候选切分结果W进行修正,...

【专利技术属性】
技术研发人员:葛季栋李传艺李振昊雷妙妙姚林霞周筱羽骆斌
申请(专利权)人:南京大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1