【技术实现步骤摘要】
一种文本分词方法及装置
本专利技术涉及自然语言处理
,尤其涉及一种文本分词方法及装置。
技术介绍
在语音交互产品普及的时代,语音识别和自然语音处理各自扮演者重要的角色。其中,语音识别是指将语音信号解码成文字信息;自然语言处理是指根据文字信息进行语义解析,获取用户的请求意图,从而满足用户的功能需求。中文分词作为自然语音理解中的重要一步,其准确性直接影响人机交互产品的性能。所谓分词,是指将句子切分成一个一个单独的词,是将连续的句子按照一定的规范重新组合成词序列的过程。以中文分词技术为例,分词技术的目标就是将一句话切分成一个一个单独的中文词语。现有技术中,当终端获取到用户的语音信息之后,终端将上述语音信息进行转换,得到待处理文本,然后,终端按照一定的策略将待处理文本中的字符串与预设的字典库中的词条进行匹配,若在预设的字典库中找到某个词条,则意味着匹配成功,此时,获取该词条,进而可以得到该待处理文本的分词结果。然而,在实际应用中,按照一定的策略将待处理文本进行分词的过程中,由于分词过程较为粗糙,具有随机性,导致得到的分词结果不够准确。在具体实现中,这里所涉及的分词结 ...
【技术保护点】
1.一种文本分词方法,其特征在于,包括:获取待处理文本;根据字符串匹配的分词策略沿第一方向对所述待处理文本进行分词,得到第一分词结果;根据所述字符串匹配的分词策略沿第二方向对所述待处理文本进行分词,得到第二分词结果;若所述第一分词结果与所述第二分词结果一致,输出所述第一分词结果或所述第二分词结果。
【技术特征摘要】
1.一种文本分词方法,其特征在于,包括:获取待处理文本;根据字符串匹配的分词策略沿第一方向对所述待处理文本进行分词,得到第一分词结果;根据所述字符串匹配的分词策略沿第二方向对所述待处理文本进行分词,得到第二分词结果;若所述第一分词结果与所述第二分词结果一致,输出所述第一分词结果或所述第二分词结果。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:若所述第一分词结果与所述第二分词结果不一致,通过动态规划算法对所述待处理文本进行分词,得到第三分词结果。3.根据权利要求2所述的方法,其特征在于,所述通过动态规划算法对所述待处理文本进行分词,得到第三分词结果,包括:对所述待处理文本进行拆分,得到多个单独的字符;根据所述多个单独的字符中的相邻字符的关联性构建有向无环图;其中,所述有向无环图中包括多条路径,所述多条路径中的每条路径上包括词条以及所述词条对应的权重;确定所述有向无环图中每条路径上的所有词条的权重和;将所述权重和最小的路径上的词条确定为所述第三分词结果。4.根据权利要求2所述的方法,其特征在于,所述第一分词结果为通过动态规划算法对所述待处理文本进行分词后,有向无环图中第一路径上的所有词条,所述第二分词结果为所述有向无环图中第二路径上的所有词条;所述通过动态规划算法对所述待处理文本进行分词,得到第三分词结果,包括:分别确定所述第一路径上的所有词条的权重和以及所述第二路径上的所有词条的权重和;若所述第一路径上所有词条的权重和小于所述第二路径上所有词条的权重和,将所述第一分词结果确定为所述第三分词结果;若否,将所述第二分词结果确定为所述第三分词结果。5.根据权利要求1所述的方法,其特征在于,所述根据字符串匹配的分词策略...
【专利技术属性】
技术研发人员:陈诗锦,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。