一种基于字典树的中文未登录词识别方法技术

技术编号：23605256 阅读：24 留言：0更新日期：2020-03-28 06:12

本发明专利技术公开了一种基于字典树的中文未登录词识别方法，包括以下步骤：步骤一：将文本输入，将一些标点符号等问题进行去除，建立中文文本库；步骤二：将文本库构造成字典树，在这个任务中需要构造两颗Trie树，表示正向和反向两个字符字段集；步骤三：计算词语左右信息熵的最小值,与信息熵阈值进行比较，保留可能成词的候选词；步骤四：计算词语互信息，与互信息阈值进行比较，将大于互信息阈值的词保留；步骤五：将之前保留的词语和词典进行比较，将原词典中没有的词加入作为词典的一部分，消除未登录词。有益效果：本发明专利技术不需预先通过词典进行分词，字典树的时间复杂度和存储字符串的数据量无关只与查询的字符串长度有关，在一定程度上能加速算法。

A dictionary tree based method for Chinese unknown word recognition

全部详细技术资料下载

【技术实现步骤摘要】
一种基于字典树的中文未登录词识别方法
本专利技术涉及中文词识别
，具体来说，涉及一种基于字典树的中文未登录词识别方法。
技术介绍
随着Web2.0时代的到来，互联网飞速发展，信息的产生呈现一种爆炸增长方式，而怎么样处理这些信息就成为一个很重要的问题。而自然语言处理就是对文本信息处理的一种最有效方法之一。而在自然语言处理中就不可能回避未登录词的问题。顾名思义，未登录词即没有被收录在分词词表中但必须切分出来的词，包括各类专有名词(人名、地名、企业名等)、缩写词、新增词汇等等。在当代互联网中每天产生各种各样的未登录词，所以未登录词的识别变得越来越重要。在一般中文未登录词处理中一般的流程为预处理-分词-运用算法、模型找到新词-和词典比较将新词加入词典。在一般的流程中在分词阶段十分依赖词典的作用，当对于词典的内容不够准确、词典的数量不足时，这其中会存在很多的问题。同时，如果在一个比较新的领域还没有形成一套完备的词典时，依赖词典的分词方法会有重大问题。且现有其他未登录词算法的有以下缺点：1.太依赖分词来进行发现备选词语，但有时分词的过程中也会产生一定的错误；2.用哈希表等方式来进行词频计算每有一个词语的时候就要计算一次，在语料库很大的情况下时间复杂度和空间复杂度都是一个问题；3.对词典有一定的依赖，但在发现新词的过程中词典的作用不大。针对相关技术中的问题，目前尚未提出有效的解决方案。
技术实现思路
本专利技术的目的在于提供一种基于字典树的中文未登录词识别方...

【技术保护点】
1.一种基于字典树的中文未登录词识别方法，其特征在于，包括以下步骤：/n步骤一：将文本输入，将一些标点符号等问题进行去除，建立中文文本库；/n步骤二：将文本库构造成字典树，在这个任务中需要构造两颗Trie树，表示正向和反向两个字符字段集，为了方便接下来要进行的左右信息熵等值的计算；/n步骤三：将字典树上的词提取出来，计算它的左右信息熵，公式为：H(x)＝-∑O(x

【技术特征摘要】
1.一种基于字典树的中文未登录词识别方法，其特征在于，包括以下步骤：
步骤一：将文本输入，将一些标点符号等问题进行去除，建立中文文本库；
步骤二：将文本库构造成字典树，在这个任务中需要构造两颗Trie树，表示正向和反向两个字符字段集，为了方便接下来要进行的左右信息熵等值的计算；
步骤三：将字典树上的词提取出来，计算它的左右信息熵，公式为：H(x)＝-∑O(xi)log(P(xi))；计算完该词的左右熵之后取两个值中的最小值，然后将该词与信息熵阈值做比较，如果最小值小于阈值则该词被排除，反之将该词保留；
步骤四：单单使用左右熵来寻找新词不够准确，接下来计算上一步骤中保留的词语的互信息，以此来计算该词的凝固度，互信息的计算公式为：通常互信息越大则说明该词经常出现在一起，而不是经常单独出现，所以如果词的互信息小于互信息阈值则将该词排除，反之将该词保留；

【专利技术属性】
技术研发人员：陈刚，
申请(专利权)人：上海晏鼠计算机技术股份有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人