一种信息分词方法及装置制造方法及图纸

技术编号:14008073 阅读:32 留言:0更新日期:2016-11-17 06:25
本发明专利技术公开了一种信息分词方法及装置,涉及信息处理领域,所述方法包括:获取需要进行分词的目标文本;根据所述目标文本中的特征信息,确定所述目标文本对应的初步分词文本;根据特定字符对所述初步分词文本进行分词,得到所述目标文本的分词结果;其中,所述目标文本由所述特征信息构成。通过本发明专利技术实施例对目标文本进行分词,不需要词典库和语料库可以正确对目标文本进行分词,提高了分词的精度并提高了对目标文本分词的速度。

【技术实现步骤摘要】

本专利技术涉及信息处理领域,尤其涉及一种信息分词方法及装置
技术介绍
分词是指将字序列切分成有意义的词序列,又称为切词。分词系统将组成文本的字串自动转换成词串的过程称为自动切分。相对来说,英语等印欧语言的词之间有空格等符号分格,切分比较容易。而汉语文本是连续的汉字串,其中的词与词之间没有明确的分隔标记,分词系统需要自动识别词边界,将汉字串切分为正确的词串。中文分词器属于自然语言处理的技术范畴,现代计算机领域对其研究后的应用方向主要为搜索引擎和人工智能。搜索引擎主要是通过分词处理海量网页,给每个词打上权重,再进行相关度排序,把最相似的结果返还。人工智能会根据关键词理解句子含义,再做出相应的回答。虽然应用的方向不同,但是分词的准确度对于最终结果的影响是巨大的。目前的分词器的设计原型全部是基于传统的字符匹配法、统计法或者理解法展开的,这些方法在处理广义分词上是有一定优势的,但在狭义领域比如金融服务短息这一特定类别,就会显得过于笨重复杂。现有技术中对于姓名、公司名、日期时间等词的切分上基本无力处理,需要人工维护词典,无自学习能力,并且短信中由于存在大量相似陈述性语言,因此现有技术中对于词的划分粒度不够细。总体来说,现有技术中的分词器分词精度低,分词的性能差。
技术实现思路
本专利技术提供一种信息分词方法及装置,用于解决现有技术中的分词器分词精度低,分词的性能差的问题。本专利技术实施例提供一种信息分词方法,所述方法包括:获取需要进行分词的目标文本;根据所述目标文本中的特征信息,确定所述目标文本对应的初步分词文本;根据特定字符对所述初步分词文本进行分词,得到所述目标文本的分词结果;其中,所述目标文本由所述特征信息构成。本专利技术实施例中,获取需要进行分词的目标文本后,确定目标文本中的特征信息,并根据特征信息对目标文本进行初步分词,得到初步分词结果,然后确定初步分词文本中的特定字符,并根据特定字符确定目标文本的分词结果,通过本专利技术实施例对目标文本进行分词,不需要词典库和语料库可以正确对目标文本进行分词,提高了分词的精度并提高了对目标文本分词的速度。进一步地,所述确定所述目标文本中的特征信息后,还包括:去除所述目标文本中的标点。本专利技术实施例中,在确定目标文本中的特征信息后,还需要去除目标文本中的标点,以使所述目标文本在进行初步分词时能够分割的更加准确。进一步地,所述根据所述目标文本中的特征信息,确定所述目标文本对应的初步分词文本,包括:确定所述目标文本中的所述特征信息对应的特征码;按照所述特征信息在所述目标文本中的位置,将确定的所述特征信息对应的特征码组成特征码序列,并作为初步分词文本。本专利技术实施例中,将目标文本中的特征信息对应成不同的特征码,并将特征码按照特征信息的顺序将特征码组成特征序列,将特征序列作为初步分词文本能够准确的提取目标文本中的特征信息,更准确的对目标文本进行分词。进一步地,所述根据特定字符对所述初步分词文本进行分词,得到所述目标文本的分词结果,包括:在所述目标文本中的所述特定字符的前和/或后的位置上加入切分标记,得到所述目标文本的分词结果。本专利技术实施例中,在确定了目标文本中的特定字符后,在目标文本中的特定字符的前和/或后的位置上加入切分标记,能够对初步分词文本进一步切分,得到最后的分词结果,提高了分词的精度并提高了对目标文本分词的速度。进一步地,所述目标文本有多个;所述根据所述目标文本中的特征信息,确定所述目标文本对应的初步分词文本后,根据特定字符对所述初步分词文本进行分词,得到所述目标文本的分词结果之前,还包括:对所有所述目标文本对应的特征码序列进行去重操作;针对去重操作后的任意一个所述特征码序列,确定所述特征码序列对应的一个包含特定字符的目标文本,在确定的所述目标文本中的所述特定字符的前和/或后的位置上加入切分标记,得到确定的所述目标文本的分词结果;并根据确定的所述目标文本的分词结果确定所述特征码序列对应的其它目标文本的分词结果。本专利技术实施例中,对特征码序列进行去重,并能够根据确定的所述目标文本的分词结果确定所述特征码序列对应的其它目标文本的分词结果,可以有效减少进行分词的目标文本的数量,提高了分词的效率。进一步地,所述根据确定的所述目标文本的分词结果确定所述特征码序列对应的其它目标文本的分词结果,包括:根据确定的所述目标文本的分词结果中所述切分标记的位置,在所述特征码序列对应的其它目标文本的对应位置插入所述切分标记,得到确定的述特征码序列对应的其它目标文本的分词结果。本专利技术实施例中,根据已经确定好的目标文本分词结果中切分标记的位置,确定所述特征码序列对应的其它目标文本的对应位置,并在对应位置中插入所述切分标记,能够确定其它目标文本的分词结果,能够减少进行分词的目标文本的数量,提高了分词的效率。本专利技术还提供一种信息分词装置,包括:获取单元,用于获取需要进行分词的目标文本;初步分词文本确定单元,用于根据所述目标文本中的特征信息,确定所述目标文本对应的初步分词文本;分词结果确定单元,用于根据特定字符对所述初步分词文本进行分词,得到所述目标文本的分词结果;其中,所述目标文本由所述特征信息构成。本专利技术实施例中,获取需要进行分词的目标文本后,确定目标文本中的特征信息,并根据特征信息对目标文本进行初步分词,得到初步分词结果,然后确定初步分词文本中的特定字符,并根据特定字符确定目标文本的分词结果,通过本专利技术实施例对目标文本进行分词,不需要词典库和语料库可以正确对目标文本进行分词,提高了分词的精度并提高了对目标文本分词的速度。进一步地,所述初步分词文本确定单元,还用于:去除所述目标文本中的标点。进一步地,所述初步分词文本确定单元,具体用于:确定所述目标文本中的所述特征信息对应的特征码;按照所述特征信息在所述目标文本中的位置,将确定的所述特征信息对应的特征码组成特征码序列,并作为初步分词文本。进一步地,所述分词结果确定单元,具体用于:在所述目标文本中的所述特定字符的前和/或后的位置上加入切分标记,得到所述目标文本的分词结果。进一步地,所述目标文本有多个;所述分词结果确定单元还用于:对所有所述目标文本对应的特征码序列进行去重操作;针对去重操作后的任意一个所述特征码序列,确定所述特征码序列对应的一个包含特定字符的目标文本,在确定的所述目标文本中的所述特定字符的前和/或后的位置上加入切分标记,得到确定的所述目标文本的分词结果;并根据确定的所述目标文本的分词结果确定所述特征码序列对应的其它目标文本的分词结果。进一步地,所述分词结果确定单元具体用于:根据确定的所述目标文本的分词结果中所述切分标记的位置,在所述特征码序列对应的其它目标文本的对应位置插入所述切分标记,得到确定的所述特征码序列对应的其它目标文本的分词结果。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种信息分词方法的流程图;图2为本专利技术实施例提供的一种金融服务信息分词方法的流程图;图3为本专利技术实施例提供的另一种金融服务信息分词方法的本文档来自技高网...
一种信息分词方法及装置

【技术保护点】
一种信息分词方法,其特征在于,所述方法包括:获取需要进行分词的目标文本;根据所述目标文本中的特征信息,确定所述目标文本对应的初步分词文本;根据特定字符对所述初步分词文本进行分词,得到所述目标文本的分词结果;其中,所述目标文本由所述特征信息构成。

【技术特征摘要】
1.一种信息分词方法,其特征在于,所述方法包括:获取需要进行分词的目标文本;根据所述目标文本中的特征信息,确定所述目标文本对应的初步分词文本;根据特定字符对所述初步分词文本进行分词,得到所述目标文本的分词结果;其中,所述目标文本由所述特征信息构成。2.根据权利要求1所述的方法,其特征在于,所述确定所述目标文本中的特征信息后,还包括:去除所述目标文本中的标点。3.根据权利要求1所述的方法,其特征在于,所述根据所述目标文本中的特征信息,确定所述目标文本对应的初步分词文本,包括:确定所述目标文本中的所述特征信息对应的特征码;按照所述特征信息在所述目标文本中的位置,将确定的所述特征信息对应的特征码组成特征码序列,并作为初步分词文本。4.根据权利要求1所述的方法,其特征在于,所述根据特定字符对所述初步分词文本进行分词,得到所述目标文本的分词结果,包括:在所述目标文本中的所述特定字符的前和/或后的位置上加入切分标记,得到所述目标文本的分词结果。5.根据权利要求1~4任一所述的方法,其特征在于,所述目标文本有多个;所述根据所述目标文本中的特征信息,确定所述目标文本对应的初步分词文本后,根据特定字符对所述初步分词文本进行分词,得到所述目标文本的分词结果之前,还包括:对所有所述目标文本对应的特征码序列进行去重操作;针对去重操作后的任意一个所述特征码序列,确定所述特征码序列对应的一个包含特定字符的目标文本,在确定的所述目标文本中的所述特定字符的前和/或后的位置上加入切分标记,得到确定的所述目标文本的分词结果;并根据确定的所述目标文本的分词结果确定所述特征码序列对应的其它目标文本的分词结果。6.根据权利要求5所述的方法,其特征在于,所述根据确定的所述目标文本的分词结果确定所述特征码序列对应的其它目标文本的分词结果,包括:根据确定的所述目标文本的分词结果中所述切分标记的位置,在所述...

【专利技术属性】
技术研发人员:唐翌飞陈瑛绮吴锋海赵晓庆
申请(专利权)人:联动优势科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1