一种基于逆向最大匹配的中文分词算法制造技术

技术编号:8489811 阅读:243 留言:0更新日期:2013-03-28 11:23
本发明专利技术公开了一种基于逆向最大匹配的中文分词算法。包括步骤:先在内存中初始化三个对象,然后输入需要进行分词操作的文本内容,根据字符编码将文本中的字符拆分成不同类型。在将文本拆成短句后,按照字符编码,将不属于中文字符的直接加入到分词结果中,然后根据字符串匹配决策机制,将句子进行拆分字符组,根据逆向最大匹配算法将字符组与分词字典中相匹配,将匹配的字符组存入分词结果集中,最后组合相连的未匹配的字符,并加入到分词结果中,完成分词。本发明专利技术提供了一种基于词典的快速分词算法,在保证了分词精确度的情况下大幅度的提高了词典加载和分词的效率。

【技术实现步骤摘要】

本专利技术涉及人工智能领域的文本分析技术,特别涉及应用于互联网产品中的搜索 引擎、数据挖掘等功能人工智能领域数据挖掘的分类技术。
技术介绍
在信息量猛增,逐渐呈现爆棚趋势的今天,做为接收信息及传播信息量最大的互 联网行业更是一直被一个问题困扰着,那就是面对网站里那些缤纷繁多的信息,如何让用 户快速准确搜索定位到自己所需要的资源。目前广泛应用于互联网产品中的是中文分词技 术,它通过拆分、匹配词典的方式将一段文本拆分成多个词,帮助计算机“理解”文本的核心 内容。比如搜索引擎、数据挖掘等功能的实现都依托与强大的分词技术。但是中文分词技 术的停滞不前便是一直阻碍中文搜索质量提高的至关重要的因素。对于中文来说,词是承载语义的最小单位,这就好像把英文单词之间的空格都去 掉,我们看到的是一片没有意义的字母。因此,中文自动分词就成为中文知识管理系统必须 解决的问题。单个汉字一般很难单独表达一定的含义,而中文的词是没有自然分隔符的,需 要采取一定的技术手段将词准确的分离出来。中文分词的主要困难在于切分歧义消解和未 登录词语的识别。所以,如何提高分词的准确率、分词速度,是目前中文的信息处理技术需 要解本文档来自技高网...

【技术保护点】
一种基于逆向最大匹配的中文分词算法,其特征在于,包括以下步骤:步骤一、输入需要进行分词操作的文本内容;步骤二、根据字符编码类型将文本中的所有字符在字符编码类型发生变换处截断,以由此拆分成多个长句段;步骤三、再根据停顿词词典检索所有长句段中的停顿词字符,在停顿词字符处,将上述拆分出的长句段进一步拆分成短句段;步骤四、按照字符编码类型筛选出所有中文字符类型的短句段,并且将不属于中文字符类型的短句段分解后直接加入到分词结果集中;步骤五、将中文字符类型的短句段以逆于书写顺序的方式,从短句段段尾开始,先选取两位字符的字符组,将这两位字符作为分词与分词字典数据库中的分词进行匹配,若匹配成功,则将这两位字符...

【技术特征摘要】

【专利技术属性】
技术研发人员:代培杨爱民
申请(专利权)人:北京金和软件股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1