【技术实现步骤摘要】
本专利技术涉及人工智能领域的文本分析技术,特别涉及应用于互联网产品中的搜索 引擎、数据挖掘等功能人工智能领域数据挖掘的分类技术。
技术介绍
在信息量猛增,逐渐呈现爆棚趋势的今天,做为接收信息及传播信息量最大的互 联网行业更是一直被一个问题困扰着,那就是面对网站里那些缤纷繁多的信息,如何让用 户快速准确搜索定位到自己所需要的资源。目前广泛应用于互联网产品中的是中文分词技 术,它通过拆分、匹配词典的方式将一段文本拆分成多个词,帮助计算机“理解”文本的核心 内容。比如搜索引擎、数据挖掘等功能的实现都依托与强大的分词技术。但是中文分词技 术的停滞不前便是一直阻碍中文搜索质量提高的至关重要的因素。对于中文来说,词是承载语义的最小单位,这就好像把英文单词之间的空格都去 掉,我们看到的是一片没有意义的字母。因此,中文自动分词就成为中文知识管理系统必须 解决的问题。单个汉字一般很难单独表达一定的含义,而中文的词是没有自然分隔符的,需 要采取一定的技术手段将词准确的分离出来。中文分词的主要困难在于切分歧义消解和未 登录词语的识别。所以,如何提高分词的准确率、分词速度,是目前中文的 ...
【技术保护点】
一种基于逆向最大匹配的中文分词算法,其特征在于,包括以下步骤:步骤一、输入需要进行分词操作的文本内容;步骤二、根据字符编码类型将文本中的所有字符在字符编码类型发生变换处截断,以由此拆分成多个长句段;步骤三、再根据停顿词词典检索所有长句段中的停顿词字符,在停顿词字符处,将上述拆分出的长句段进一步拆分成短句段;步骤四、按照字符编码类型筛选出所有中文字符类型的短句段,并且将不属于中文字符类型的短句段分解后直接加入到分词结果集中;步骤五、将中文字符类型的短句段以逆于书写顺序的方式,从短句段段尾开始,先选取两位字符的字符组,将这两位字符作为分词与分词字典数据库中的分词进行匹配,若匹配 ...
【技术特征摘要】
【专利技术属性】
技术研发人员:代培,杨爱民,
申请(专利权)人:北京金和软件股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。