字符串的分词方法、装置及设备制造方法及图纸

技术编号:17109818 阅读:41 留言:0更新日期:2018-01-24 22:28
本发明专利技术提供一种字符串的分词方法、装置及设备,该方法包括:获取待分割的字符串的正向分割结果,所述正向分割结果包括至少一个第一单词;获取所述待分割的字符串的反向分割结果,所述反向分割结果包括至少一个第二单词;获取各所述第一单词的词频和各所述第二单词的词频,所述词频为预先确定的各单词在预设文本中出现的次数;根据各所述第一单词的词频以及各所述第二单词的词频,确定所述待分割的字符串的分割结果,其中,所述待分割的字符串的分割结果为所述正向分割结果或所述反向分割结果。本发明专利技术不仅提高了分割成功率,还提高了分割结果中的各单词语义正确的概率。

Word segmentation method, device and equipment

The invention provides a string segmentation method, device and equipment, the method includes: forward segmentation results to obtain the string to be split, the positive result includes at least a first word segmentation result; obtaining the reverse string to be segmented by the reverse segmentation results including at least one of second words; for each of the first word frequency and each of the second word frequency, the frequency for a predetermined number of times each word in text appears; according to each of the first word frequency and word frequency of each of the second words, the string to determine segmentation the segmentation results, the segmentation results of string the segmentation of the segmentation results for the segmentation results of the reverse or forward. The invention not only improves the success rate of the segmentation, but also improves the probability of the correct semantic of each word in the segmentation result.

【技术实现步骤摘要】
字符串的分词方法、装置及设备
本申请涉及计算机技术,尤其涉及一种字符串的分词方法、装置及设备。
技术介绍
自然语言处理是运用计算机对自然语言进行分析和理解,从而使计算机在某种程度上具有人的语言能力。在对英文文本进行自然语言处理时,经常会遇到不符合自然语言规则的脏数据,导致自然语言处理效果大打折扣。因此,需要先对英文文本进行分词预处理,得到包含多个英文单词的正常自然语言,然后再使用自然语言模型进行处理。现有技术中的脏数据主要包括因空格字符缺失造成多个单词连在一起形成的字符串、掺杂有干扰字符的字符串等。现有技术对英文文本进行分词的具体过程如下:按顺序依次读取待分割的字符串的一个字母,添加到已经取得的字母们的后面,组成一个子字符串,然后检查此子字符串是否能在预先获取的英文词典中查到。如果能查到,则说明该子字符串是一个单词,先将其从原字符串中分割出来。然后对剩下的字符串重复使用这种方法,最终完成单词分割,或者剩下的字符串没法分割直接输出。然而,现有技术对英文文本进行分词的方法,在待分割的字符串中前一单词与后一单词的前缀组成单词、或掺杂有干扰字符等情况下,会出现分割不当导致语义错误、甚至无法分割的现象。
技术实现思路
本专利技术提供一种字符串的分词方法、装置及设备,不仅提高了分割成功率,还提高了分割结果中的各单词语义正确的概率。第一方面,本专利技术提供一种字符串的分词方法,包括:获取待分割的字符串的正向分割结果,所述正向分割结果包括至少一个第一单词;获取所述待分割的字符串的反向分割结果,所述反向分割结果包括至少一个第二单词;获取各所述第一单词的词频和各所述第二单词的词频,所述词频为预先确定的各单词在预设文本中出现的次数;根据各所述第一单词的词频以及各所述第二单词的词频,确定所述待分割的字符串的分割结果,其中,所述待分割的字符串的分割结果为所述正向分割结果或所述反向分割结果。作为一种可实现的方式,所述获取待分割的字符串的正向分割结果,包括:对所述待分割的字符串进行正向分割的操作,判断是否获取到第一单词;若是,将除去所述第一单词的待分割的字符串作为新的待分割的字符串,并返回执行对待分割的字符串进行正向分割的操作;若否,对所述待分割的字符串的正向的首字符进行删除处理,得到处理后的待分割的字符串,将处理后的待分割的字符串作为新的待分割的字符串,并返回执行对待分割的字符串进行正向分割的操作;重复执行对所述待分割的字符串进行正向分割的操作,直至对所述待分割的字符串分割结束,得到正向分割结果。本实施例提供的正向分割方法,为一层一层的正向递进式分割方式,经过一层一层的尝试,克服了干扰字符,最终得到了正向分割结果。作为一种可实现的方式,所述获取待分割的字符串反向分割结果,包括:对所述待分割的字符串进行反向分割的操作,判断是否获取到第二单词;若是,将除去所述第二单词的待分割的字符串作为新的待分割的字符串,并返回执行对待分割的字符串进行反向分割的操作;若否,对所述待分割的字符串的反向的首字符进行删除处理,得到处理后的待分割的字符串,将处理后的待分割的字符串作为新的待分割的字符串,并返回执行对待分割的字符串进行反向分割的操作;重复执行对所述待分割的字符串进行正向分割的操作,直至对所述待分割的字符串分割结束,得到反向分割结果。本实施例提供的反向分割方法,为一层一层的反向递进式分割方式,经过一层一层的尝试,克服了干扰字符,最终得到了反向分割结果。作为一种可实现的方式,还包括:获取待分割的文本,对所述待分割的文本进行符号删除操作,得到所述待分割的字符串。作为一种可实现的方式,还包括:构建正向字典树和反向字典树;所述对所述待分割的字符串进行正向分割的操作,包括:根据所述正向字典树,对所述待分割的字符串进行正向分割的操作;所述对所述待分割的字符串进行反向分割的操作,包括:根据所述反向字典树,对所述待分割的字符串进行反向分割的操作。本实施例根据字典树来对字符串进行正向分割或反向分割,由于公共查找路径的存在,可以在读取到的子字符串增加一个字符后,基于该字符增加前的查找路径继续向下一级节点查找,从而可以避免重复查找,最大限度地减少无谓的字符串比较,减少查询时间,提高查找效率。作为一种可实现的方式,所述正向字典树的每个第一节点中存储有所述第一节点对应的单词的词频,所述反向字典树的每个第二节点中存储有所述第二节点对应的单词的词频;所述获取各所述第一单词的词频和各所述第二单词的词频,包括:从所述第一单词对应的第一节点中获取所述第一单词的词频;从所述第二单词对应的第二节点中获取所述第二单词的词频。作为一种可实现的方式,所述构建正向字典树和反向字典树之前,还包括:构建语料库,所述语料库包括单词库和所述单词库中的单词的词频;所述构建正向字典树和反向字典树,包括:根据所述语料库,构建正向字典树和反向字典树,并将各单词的词频存储至对应的第一节点和第二节点。作为一种可实现的方式,所述预设文本包括:满足预设使用条件的文本以及待分割的文本;所述构建语料库,包括:根据满足预设使用条件的词典,得到单词库;确定所述单词库中的单词在所述满足预设使用条件的文本以及所述待分割的文本中出现的次数;根据所述单词库、所述单词库中的单词在所述满足预设使用条件的文本以及所述待分割的文本中出现的次数,构建所述语料库。作为一种可实现的方式,所述确定单词库中的单词在所述待分割的文本中出现的次数,包括:根据所述待分割的文本中的空格符,获取至少一个第一字符串;将所述至少一个第一字符串与所述单词库中的单词进行匹配,得到与所述单词库中的单词匹配的至少一个第二字符串;根据各所述第二字符串在所述待分割的文本中出现的次数,确定单词库中的单词在所述待分割的文本中出现的次数。本实施例构建的语料库,该语料库中的单词的词频是通过待分割的文本进行修正的,与待分割的文本具有一定的相关性,使得语料库中的单词的词频更接近待分割的文本的应用情况,从而可以使得分割结果的语义与待分割的文本表达的语义更接近,提高了字符串分割的正确性。作为一种可实现的方式,所述根据各所述第一单词的词频以及各所述第二单词的词频,确定所述待分割的字符串的分割结果,包括:对所有所述第一单词的词频进行求和处理,得到第一词频和值;对所有所述第二单词的词频进行求和处理,得到第二词频和值;若所述第一词频和值大于所述第二词频和值,则确定所述待分割的字符串的分割结果为正向分割结果;若所述第二词频和值大于所述第一词频和值,则确定所述待分割的字符串的分割结果为反向分割结果。作为一种可实现的方式,所述正向分割和所述反向分割均采用最长单词分割方式。第二方面,本专利技术提供一种字符串的分词方法,包括:向云端服务器发送用户输入的待分割的文本,以使所述云端服务器获取待分割的字符串,并根据正向分割结果中的各第一单词的词频以及反向分割结果中的各第二单词的词频确定分割结果;接收所述云端服务器反馈的所述待分割的字符串的分割结果信息,所述分割结果信息包括所述待分割的字符串的分割结果;其中,所述待分割的字符串的分割结果为所述正向分割结果或所述反向分割结果;向用户输出所述分割结果。本实施例提供的字符串的分词方法,通过向云端服务器发送用户输入的待分割的文本,以使云端服务器获取待分割的字符串,并根据正向分本文档来自技高网...
字符串的分词方法、装置及设备

【技术保护点】
一种字符串的分词方法,其特征在于,包括:获取待分割的字符串的正向分割结果,所述正向分割结果包括至少一个第一单词;获取所述待分割的字符串的反向分割结果,所述反向分割结果包括至少一个第二单词;获取各所述第一单词的词频和各所述第二单词的词频,所述词频为预先确定的各单词在预设文本中出现的次数;根据各所述第一单词的词频以及各所述第二单词的词频,确定所述待分割的字符串的分割结果,其中,所述待分割的字符串的分割结果为所述正向分割结果或所述反向分割结果。

【技术特征摘要】
1.一种字符串的分词方法,其特征在于,包括:获取待分割的字符串的正向分割结果,所述正向分割结果包括至少一个第一单词;获取所述待分割的字符串的反向分割结果,所述反向分割结果包括至少一个第二单词;获取各所述第一单词的词频和各所述第二单词的词频,所述词频为预先确定的各单词在预设文本中出现的次数;根据各所述第一单词的词频以及各所述第二单词的词频,确定所述待分割的字符串的分割结果,其中,所述待分割的字符串的分割结果为所述正向分割结果或所述反向分割结果。2.根据权利要求1所述的方法,其特征在于,所述获取待分割的字符串的正向分割结果,包括:对所述待分割的字符串进行正向分割的操作,判断是否获取到第一单词;若是,将除去所述第一单词的待分割的字符串作为新的待分割的字符串,并返回执行对待分割的字符串进行正向分割的操作;若否,对所述待分割的字符串的正向的首字符进行删除处理,得到处理后的待分割的字符串,将处理后的待分割的字符串作为新的待分割的字符串,并返回执行对待分割的字符串进行正向分割的操作;重复执行对所述待分割的字符串进行正向分割的操作,直至对所述待分割的字符串分割结束,得到正向分割结果。3.根据权利要求1所述的方法,其特征在于,所述获取待分割的字符串反向分割结果,包括:对所述待分割的字符串进行反向分割的操作,判断是否获取到第二单词;若是,将除去所述第二单词的待分割的字符串作为新的待分割的字符串,并返回执行对待分割的字符串进行反向分割的操作;若否,对所述待分割的字符串的反向的首字符进行删除处理,得到处理后的待分割的字符串,将处理后的待分割的字符串作为新的待分割的字符串,并返回执行对待分割的字符串进行反向分割的操作;重复执行对所述待分割的字符串进行正向分割的操作,直至对所述待分割的字符串分割结束,得到反向分割结果。4.根据权利要求1至3任一项所述的方法,其特征在于,还包括:获取待分割的文本,对所述待分割的文本进行符号删除操作,得到所述待分割的字符串。5.根据权利要求2或3所述的方法,其特征在于,还包括:构建正向字典树和反向字典树;所述对所述待分割的字符串进行正向分割的操作,包括:根据所述正向字典树,对所述待分割的字符串进行正向分割的操作;所述对所述待分割的字符串进行反向分割的操作,包括:根据所述反向字典树,对所述待分割的字符串进行反向分割的操作。6.根据权利要求5所述的方法,其特征在于,所述正向字典树的每个第一节点中存储有所述第一节点对应的单词的词频,所述反向字典树的每个第二节点中存储有所述第二节点对应的单词的词频;所述获取各所述第一单词的词频和各所述第二单词的词频,包括:从所述第一单词对应的第一节点中获取所述第一单词的词频;从所述第二单词对应的第二节点中获取所述第二单词的词频。7.根据权利要求6所述的方法,其特征在于,所述构建正向字典树和反向字典树之前,还包括:构建语料库,所述语料库包括单词库和所述单词库中的单词的词频;所述构建正向字典树和反向字典树,包括:根据所述语料库,构建正向字典树和反向字典树,并将各单词的词频存储至对应的第一节点和第二节点。8.根据权利要求7所述的方法,其特征在于,所述预设文本包括:满足预设使用条件的文本以及待分割的文本;所述构建语料库,包括:根据满足预设使用条件的词典,得到单词库;确定所述单词库中的单词在所述满足预设使用条件的文本以及所述待分割的文本中出现的次数;根据所述单词库、所述单词库中的单词在所述满足预设使用条件的文本以及所述待分割的文本中出现的次数,构建所述语料库。9.根据权利要求8所述的方法,其特征在于,所述确定单词库中的单词在所述待分割的文本中出现的次数,包括:根据所述待分割的文本中的空格符,获取至少一个第一字符串;将所述至少一个第一字符串与所述单词库中的单词进行匹配,得到与所述单词库中的单词匹配的至少一个第二字符串;根据各所述第二字符串在所述待分割的文本中出现的次数,确定单词库中的单词在所述待分割的文本中出现的次数。10.根据权利要求1所述的方法,其特征在于,所述根据各所述第一单词的词频以及各所述第二单词的词频,确定所述待分割的字符串的分割结果,包括:对所有所述第一单词的词频进行求和处理,得到第一词频和值;对所有所述第二单词的词频进行求和处理,得到第二词频和值;若所述第一词频和值大于所述第二词频和值,则确定所述待分割的字符串的分割结果为正向分割结果;若所述第二词频和值大于所述第一词频和值,则确定所述待分割的字符串的分割结果为反向分割结果。11.根据权利要求1至3任一项所述的方法,其特征在于,所述正向分割和所述反向分割均采用最长单词分割方式。12.根据权利要求4所述的方法,其特征在于,所述获取待分割的文本,包括:获取用户设备发送的所述待分割的文本;所述确定所述待分割的字符串的分割结果之后,还包括:向所述用户设备反馈所述待分割的字符串的分割结果信息,所述分割结果信息包括所述待分割的字符串的分割结果,以使所述用户设备向用户输出所述分割结果。13.根据权利要求12所述的方法,其特征在于,所述分割结果信息中还包括所述分割结果对应的分割类型,所述分割类型为正向分割或反向分割。14.根据权利要求12所述的方法,其特征在于,若所述分割结果为正向分割结果,则所述分割信息中还包括反向分割结果;或者若所述分割结果为反向分割结果,则所述分割信息中还包括正向分割结果。15.根据权利要求14所述的方法,其特征在于,所述分割信息中还包括所述正向分割结果中的各所述第一单词的词频和所述反向分割结果中的各所述第二单词的词频。16.根据权利要求14所述的方法,其特征在于,所述分割信息中还包括所述正向分割结果中的各所述第一单词对应的第一词频和值以及所述反向分割结果中的各所述第二单词对应的第二词频和值。17.根据权利要求12所述的方法,其特征在于,所述向所述用户设备反馈所述待分割的字符串的分割结果信息之后,还包括:获取所述用户设备发送的待处理的分割结果;对所述待处理的分割结果进行自然语言处理。18.一种字符串的分词方法,其特征在于,包括:向云端服务器发送用户输入的待分割的文本,以使所述云端服务器获取待分割的字符串,并根据正向分割结果中的各第一单词的词频以及反向分割结果中的各第二单词的词频确定分割结果;接收所述云端服务器反馈的所述待分割的字符串的分割结果信息,所述分割结果信息包括所述待分割的字符串的分割结果;其中,所述待分割的字符串的分割结果为所述正向分割结果或所述反向分割结果;向用户输出所述分割结果。19.根据权利要求18所述的方法,其特征在于,所述向用户输出所述分割结果,包括:在显示界面上显示所述分割结果。20.根据权利要求19所述的方法,其特征在于,所述分割结果信息中还包括所述分割结果对应的分割类型,所述分割类型为正向分割或反向分割;所述在显示界面上显示所述分割结果,包括:在显示界面上显示所述分割结果以及所述分割结果的分割类型。21.根据权利要求19所述的方法,其特征在于,若所述分割结果为正向分割结果,则所述分割信息中还包括反向分割结果;或者若所述分割结果为反向分割结果,则所述分割信息中还包括正向分割结果;所述在显示界面上显示所述分割结果,包括:在所述显示界面上显示所述正向分割结果和所述反向分割结果,并标注所述待分割字符串对应的分割结果。22.根据权利要求21所述的方法,其特征在于,所述分割信息中还包括所述正向分割结果中的各所述第一单词的词频和所述反向分割结果中的各所述第二单词的词频;在所述显示界面上显示所述正向分割结果和所述反向分割结果,并标注所述待分割字符串对应的分割结果之后,还包括:获取所述用户操作所述显示界面触发的词频显示指令;根据所述词频显示指令,显示各所述第一单词的词频和/或各所述第二单词的词频;或者在所述显示界面上显示所述正向分割结果和所述反向分割结果,包括:在所述显示界面上显示所述正向分割结果、所述正向分割结果中的第一单词的词频,以及所述反向分割结果、所述反向分割结果中的第二单词的词频。23.根据权利要求21所述的方法,其特征在于,所述分割信息中还包括所述正向分割结果中的各所述第一单词对应的第一词频和值以及所述反向分割结果中的各所述第二单词对应的第二词频和值;在所述显示界面上显示所述正向分割结果和所述反向分割结果,并标注所述待分割字符串对应的分割结果之后,还包括:获取所述用户操作所述显示界面触发的词频显示指令;根据所述词频显示指令,显示所述第一词频和值和/或所述第二词频和值;或者在所述显示界面上显示所述正向分割结果和所述反向分割结果,包括:在所述显示界面上显示所述正向分割结果、所述第一词频和值,以及所述反向分割结果、所述第二词频和值。24.根据权利要求21至23任一项所述的方法,其特征在于,所述在所述显示界面上显示所述正向分割结果和所述反向分割结果之后,还包括:获取所述用户对所述显示界面上的所述正向分割结果或反向分割结果的操作信息,根据所述操作信息确定待处理的分割结果;向所述云端服务器发送所述待处理的分割结果,以使所述云端服务器对所述待处理的分割结果进行自然语言处理。25.一种字符串的分词装置,其特征在于,包括:第一分割模块,用于获取待分割的字符串的正向分割结果,所述正向分割结果包括至少一个第一单词;第二分割模块,用于获取所述待分割的字符串的反向分割结果,所述反向分割结果包括至少一个第二单词;词频获取模块,用于获取各所述第一单词的词频和各所述第二单词的词频,所述词频为预先确定的各单词在预设文本中出现的次数;结果确定...

【专利技术属性】
技术研发人员:张增明
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1