一种文本分词方法及装置制造方法及图纸

技术编号:22076133 阅读:19 留言:0更新日期:2019-09-12 14:16
本发明专利技术实施例公开了一种文本分词方法及装置,其中方法包括:获取待处理文本;根据字符串匹配的分词策略沿第一方向对所述待处理文本进行分词,得到第一分词结果;根据所述字符串匹配的分词策略沿第二方向对所述待处理文本进行分词,得到第二分词结果;若所述第一分词结果与所述第二分词结果一致,输出所述第一分词结果或所述第二分词结果。通过本申请,可以实现针对待处理文本的分词准确度。

A Text Segmentation Method and Device

【技术实现步骤摘要】
一种文本分词方法及装置
本专利技术涉及自然语言处理
,尤其涉及一种文本分词方法及装置。
技术介绍
在语音交互产品普及的时代,语音识别和自然语音处理各自扮演者重要的角色。其中,语音识别是指将语音信号解码成文字信息;自然语言处理是指根据文字信息进行语义解析,获取用户的请求意图,从而满足用户的功能需求。中文分词作为自然语音理解中的重要一步,其准确性直接影响人机交互产品的性能。所谓分词,是指将句子切分成一个一个单独的词,是将连续的句子按照一定的规范重新组合成词序列的过程。以中文分词技术为例,分词技术的目标就是将一句话切分成一个一个单独的中文词语。现有技术中,当终端获取到用户的语音信息之后,终端将上述语音信息进行转换,得到待处理文本,然后,终端按照一定的策略将待处理文本中的字符串与预设的字典库中的词条进行匹配,若在预设的字典库中找到某个词条,则意味着匹配成功,此时,获取该词条,进而可以得到该待处理文本的分词结果。然而,在实际应用中,按照一定的策略将待处理文本进行分词的过程中,由于分词过程较为粗糙,具有随机性,导致得到的分词结果不够准确。在具体实现中,这里所涉及的分词结果不够准确是指:按照一定的策略将待处理文本进行分词的过程中,存在多种分词方式,不同的分词方式可以产生不同的分词结果,在理想状态下,这多个分词结果中有且只有一个最佳的分词结果。以待处理文本为“南方城市南京”为例,预设的字典库中收集的词条包括:南方、南方城、市、城市、南京,那么,在这种情况下,终端对上述待处理文本的分词结果可以包括:南方城/市/南京;也可以包括:南方/城市/南京,其中,理想状态下的最佳分词结果应该为:南方/城市/南京。那么,如何确定多个分词结果中的最佳分词结果,以提高针对待处理文本的分词准确度是人们研究的热点技术问题。
技术实现思路
本专利技术实施例提供一种文本分词方法及装置,可以提高终端针对待处理文本的分词准确度。第一方面,本专利技术实施例提供了一种文本分词方法,该方法包括:获取待处理文本;根据字符串匹配的分词策略沿第一方向对所述待处理文本进行分词,得到第一分词结果;根据所述字符串匹配的分词策略沿第二方向对所述待处理文本进行分词,得到第二分词结果;若所述第一分词结果与所述第二分词结果一致,输出所述第一分词结果或所述第二分词结果。可选的,所述方法还包括:若所述第一分词结果与所述第二分词结果不一致,通过动态规划算法对所述待处理文本进行分词,得到第三分词结果。可选的,所述通过动态规划算法对所述待处理文本进行分词,得到第三分词结果,包括:对所述待处理文本进行拆分,得到多个单独的字符;根据所述多个单独的字符中的相邻字符的关联性构建有向无环图;其中,所述有向无环图中包括多条路径,所述多条路径中的每条路径上包括词条以及所述词条对应的权重;确定所述有向无环图中每条路径上的所有词条的权重和;将所述权重和最小的路径上的词条确定为所述第三分词结果。可选的,所述第一分词结果为通过动态规划算法对所述待处理文本进行分词后,有向无环图中第一路径上的所有词条,所述第二分词结果为所述有向无环图中第二路径上的所有词条;所述通过动态规划算法对所述待处理文本进行分词,得到第三分词结果,包括:分别确定所述第一路径上的所有词条的权重和以及所述第二路径上的所有词条的权重和;若所述第一路径上所有词条的权重和小于所述第二路径上所有词条的权重和,将所述第一分词结果确定为所述第三分词结果;若否,将所述第二分词结果确定为所述第三分词结果。可选的,所述根据字符串匹配的分词策略沿第一方向对所述待处理文本进行分词,得到第一分词结果,包括:根据所述第一方向确定所述待处理文本的首个字符;将所述首个字符作为当前字,以匹配方式将所述当前字和与其相邻的M个字符组成的词条与预设的词典库中的词条进行匹配,以获取所述当前字开头的词条,得到所述第一分词结果;其中,M大于等于1且小于等于Q,所述Q为所述待处理文本的字符数量。可选的,所述第二方向为所述第一方向的反方向。通过实施本专利技术实施例,终端对待处理文本进行两次分词操作,而不是对待处理文本进行粗略分词,可以提高终端针对待处理文本的分词准确度。第二方面,本专利技术实施例提供了一种文本分词装置,该文本分词装置包括用于执行上述第一方面的方法的单元。具体地,该文本分词装置包括:获取单元,用于获取待处理文本;第一分词单元,用于根据字符串匹配的分词策略沿第一方向对所述待处理文本进行分词,得到第一分词结果;第二分词单元,用于根据所述字符串匹配的分词策略沿第二方向对所述待处理文本进行分词,得到第二分词结果;输出单元,用于在所述第一分词结果与所述第二分词结果一致的情况下,输出所述第一分词结果或所述第二分词结果。可选的,所述文本分词装置还包括:第三分词单元,用于在所述第一分词结果与所述第二分词结果不一致时,通过动态规划算法对所述待处理文本进行分词,得到第三分词结果。可选的,所述第三分词单元包括:拆分单元、构建单元、第一确定单元、第二确定单元;其中,所述拆分单元,用于对所述待处理文本进行拆分,得到多个单独的字符;所述构建单元,用于根据所述多个单独的字符中的相邻字符的关联性构建有向无环图;其中,所述有向无环图中包括多条路径,所述多条路径中的每条路径上包括词条以及所述词条对应的权重;所述第一确定单元,用于确定所述有向无环图中每条路径上的所有词条的权重和;所述第二确定单元,用于将所述权重和最小的路径上的词条确定为所述第三分词结果。可选的,所述第一分词结果为通过动态规划算法对所述待处理文本进行分词后,有向无环图中第一路径上的所有词条,所述第二分词结果为所述有向无环图中第二路径上的所有词条;所述第三分词单元包括:第三确定单元和第四确定单元;其中,所述第三确定单元,用于分别确定所述第一路径上的所有词条的权重和以及所述第二路径上的所有词条的权重和;所述第四确定单元,用于在所述第一路径上所有词条的权重和小于所述第二路径上所有词条的权重和时,将所述第一分词结果确定为所述第三分词结果;所述第四确定单元,还用于在所述第一路径上所有词条的权重和大于所述第二路径上所有词条的权重和时,将所述第二分词结果确定为所述第三分词结果。可选的,所述第一分词单元包括:第五确定单元和匹配单元;其中,所述第五确定单元,用于根据所述第一方向确定所述待处理文本的首个字符;所述匹配单元,用于将所述首个字符作为当前字,以匹配方式将所述当前字和与其相邻的M个字符组成的词条与预设的词典库中的词条进行匹配,以获取所述当前字开头的词条,得到所述第一分词结果;其中,M大于等于1且小于等于Q,所述Q为所述待处理文本的字符数量。可选的,所述第二方向为所述第一方向的反方向。第三方面,本专利技术实施例提供了另一种终端,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储支持终端执行上述方法的计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述第一方面的方法。第四方面,本专利技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。通过实施本专利技术实施例,终端对本文档来自技高网
...

【技术保护点】
1.一种文本分词方法,其特征在于,包括:获取待处理文本;根据字符串匹配的分词策略沿第一方向对所述待处理文本进行分词,得到第一分词结果;根据所述字符串匹配的分词策略沿第二方向对所述待处理文本进行分词,得到第二分词结果;若所述第一分词结果与所述第二分词结果一致,输出所述第一分词结果或所述第二分词结果。

【技术特征摘要】
1.一种文本分词方法,其特征在于,包括:获取待处理文本;根据字符串匹配的分词策略沿第一方向对所述待处理文本进行分词,得到第一分词结果;根据所述字符串匹配的分词策略沿第二方向对所述待处理文本进行分词,得到第二分词结果;若所述第一分词结果与所述第二分词结果一致,输出所述第一分词结果或所述第二分词结果。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:若所述第一分词结果与所述第二分词结果不一致,通过动态规划算法对所述待处理文本进行分词,得到第三分词结果。3.根据权利要求2所述的方法,其特征在于,所述通过动态规划算法对所述待处理文本进行分词,得到第三分词结果,包括:对所述待处理文本进行拆分,得到多个单独的字符;根据所述多个单独的字符中的相邻字符的关联性构建有向无环图;其中,所述有向无环图中包括多条路径,所述多条路径中的每条路径上包括词条以及所述词条对应的权重;确定所述有向无环图中每条路径上的所有词条的权重和;将所述权重和最小的路径上的词条确定为所述第三分词结果。4.根据权利要求2所述的方法,其特征在于,所述第一分词结果为通过动态规划算法对所述待处理文本进行分词后,有向无环图中第一路径上的所有词条,所述第二分词结果为所述有向无环图中第二路径上的所有词条;所述通过动态规划算法对所述待处理文本进行分词,得到第三分词结果,包括:分别确定所述第一路径上的所有词条的权重和以及所述第二路径上的所有词条的权重和;若所述第一路径上所有词条的权重和小于所述第二路径上所有词条的权重和,将所述第一分词结果确定为所述第三分词结果;若否,将所述第二分词结果确定为所述第三分词结果。5.根据权利要求1所述的方法,其特征在于,所述根据字符串匹配的分词策略...

【专利技术属性】
技术研发人员:陈诗锦
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1