一种基于PageRank和信息熵的裁判文书的文本分词方法技术

技术编号：19388823 阅读：22 留言：0更新日期：2018-11-10 02:00

本发明专利技术公开了一种基于PageRank和信息熵的裁判文书的文本分词方法，该发明专利技术属于自然语言处理领域中的中文分词技术，主要采用了改进的PageRank算法、信息熵、互信息以及关键词词典对中文文本进行分词。本发明专利技术针对法律领域的裁判文书，在PageRank算法基础上建立了分词方法，根据Rank向量切分候选词，并利用信息熵对候选词进行修正，再依据裁判文书的关键词词典做术语合并，最终输出分词结果，该方法能够较为准确地对裁判文书进行分词。本发明专利技术与现有方法相比，其显著优点是：不需要通过大量文本语料库进行统计或训练以建立大规模的词典，仅对输入文本进行统计，将输入文本作为现有语料库进行统计挖掘，最终结合裁判文书的关键词术语词典即可完成分词。

A text segmentation method for judgment documents based on PageRank and information entropy

The invention discloses a text segmentation method for judgment documents based on PageRank and information entropy. The invention belongs to the Chinese word segmentation technology in the field of natural language processing. It mainly adopts improved PageRank algorithm, information entropy, mutual information and keyword dictionary to segment Chinese text. The invention establishes a word segmentation method based on PageRank algorithm for judgment documents in the field of law. The candidate words are segmented according to Rank vector, and the candidate words are amended by information entropy. Then the terms are merged according to the dictionary of the key words of the judgment documents, and the final result of the word segmentation is output. The method can accurately judge. Word segmentation. Compared with the existing method, the present invention has the remarkable advantages that it does not need a large number of text corpus for statistics or training to establish a large-scale dictionary, only counts the input text, and uses the input text as the existing corpus for statistical mining, and finally completes word segmentation combined with the dictionary of key words and terms in the judgment document.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于PageRank和信息熵的裁判文书的文本分词方法
本专利技术属于自然语言处理
中的中文分词技术，是用于针对法律文书进行中文分词的技术。
技术介绍
分词是指将已有的文本切分成为一个个分开的、单独的、有意义的单元。中文分词是指将一个连续的汉字序列切分成单独的词，使之成为符合语义的、可读的词序列。汉语相比于英文，词与词之间没有明确的分隔符作为切分的依据，因此，在分词方面，中文分词的难度要更高于其他语言。而分词算法产生的分词结果，也将直接影响到上层的应用效果，如词性标注、关键词提取等。因此，如何使计算机理解中文文本段，进行准确分词而为上层的文本处理应用提供支持就是中文分词最难以解决的问题。目前，中文分词最常用的主要方法有：基于词典的字符串匹配方法、基于规则的分词方法和基于统计的分词方法。(1)基于词典的字符串匹配方法主要是通过扫描查找出输入文本中存在于词典里的词，并以此作为依据进行分词。基于词典的匹配方法通过正向/逆向匹配词典，得到所有在词典中出现过的词，并依照最长/最短词匹配的原则，生成分词文本。但是这种方法较为依赖分词词典，必须对词典保持持续更新以获得较好效果，同时词典的建立需要总结大量文本语料库，较为耗费时间。对于新词识别以及歧义的问题，该方法并不能很好地解决。(2)基于规则的方法是指总结语言的语法与语义，模拟人理解文本的过程进行分词。该方法在于判断词性、语义，并按照建立好的规则库匹配得到符合语法语义的分词文本。但是这种方法需要大量语义学知识，并以此为基础建立规则库。由于汉语的复杂性，且部分文本中语言的使用不严格遵循语法规则，因此该方法对于汉语...

【技术保护点】
1.基于PageRank的文本分词方法，其特征是基于PageRank算法计算文本的Rank值并结合词的信息熵、互信息以及法律领域常用术语组成的词典进行分词，它以待分词文本为输入，以用特定分隔符分隔的相应文本为输出结果；该方法具体包含以下步骤：步骤(1)预处理：读取输入文本，以标点符号、数字以及英文字母作为分隔符进行切分，得到文本中的全部汉字，再过滤去除词长只有1的字，得到一个字符串列表S；步骤(2)特征计算：对于S中的每一个字符串Si的长度不超过k(k＝6)的子串Ssub(潜在词)，计算Ssub在文本中的频率，计算Ssub的左右信息熵Hl，Hr以及互信息I(Ssub)；步骤(3)调用PageRank计算过程：获得所有字符串Ssub间的包含关系矩阵A和初试Rank向量R并迭代n(n＝10)次计算出Rank得分；步骤(4)文书提前分割：将步骤(1)中提取出的分隔符，以及S中符合特殊模式的词(如日期、法律条目、金额等)进行提前分割；步骤(5)候选词切分：根据步骤(3)得到的Rank得分向量R对文书剩余文字部分进行切分，得到一个词列表W；步骤(6)分词修正：根据步骤(2)中计算的信息熵对(5)...

【技术特征摘要】
1.基于PageRank的文本分词方法，其特征是基于PageRank算法计算文本的Rank值并结合词的信息熵、互信息以及法律领域常用术语组成的词典进行分词，它以待分词文本为输入，以用特定分隔符分隔的相应文本为输出结果；该方法具体包含以下步骤：步骤(1)预处理：读取输入文本，以标点符号、数字以及英文字母作为分隔符进行切分，得到文本中的全部汉字，再过滤去除词长只有1的字，得到一个字符串列表S；步骤(2)特征计算：对于S中的每一个字符串Si的长度不超过k(k＝6)的子串Ssub(潜在词)，计算Ssub在文本中的频率，计算Ssub的左右信息熵Hl，Hr以及互信息I(Ssub)；步骤(3)调用PageRank计算过程：获得所有字符串Ssub间的包含关系矩阵A和初试Rank向量R并迭代n(n＝10)次计算出Rank得分；步骤(4)文书提前分割：将步骤(1)中提取出的分隔符，以及S中符合特殊模式的词(如日期、法律条目、金额等)进行提前分割；步骤(5)候选词切分：根据步骤(3)得到的Rank得分向量R对文书剩余文字部分进行切分，得到一个词列表W；步骤(6)分词修正：根据步骤(2)中计算的信息熵对(5)得到的候选切分结果W进行修正，...

【专利技术属性】
技术研发人员：葛季栋，李传艺，李振昊，雷妙妙，姚林霞，周筱羽，骆斌，
申请(专利权)人：南京大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人