The invention discloses a Chinese segmentation method, Chinese segmentation device and terminal, relates to the technical field of Natural Language Processing, according to the interactive text prosodic boundary user input to determine the prosodic features of speech data input by the user in, then according to the interactive text prosodic boundary, segmentation of the interactive text, through the prosodic features of speech data extraction the user input in the interactive user input text is divided into a plurality of prosodic units, so as to realize the segmentation results according to the Natural Language Processing acquisition of prosodic features of speech data input by the user in the realization of prosodic features used in Chinese segmentation, segmentation of the interactive user input text from the Mandarin pronunciation rules point of view, improve the accuracy of the Chinese segmentation results and Chinese segmentation efficiency, thus improving the speech interaction The user experience of the product.
【技术实现步骤摘要】
一种中文分词方法、中文分词装置和终端
本专利技术涉及自然语言处理技术,尤其涉及一种中文分词方法、中文分词装置和终端。
技术介绍
在语音交互产品普及的时代,语音识别和自然语言处理各自扮演着重要的角色。语音识别是将语音信号解码成文字信息,自然语言处理则根据文字信息进行语义解析,获取用户的请求意图,从而满足用户的功能需求。中文分词作为自然语言理解中的重要一步,其准确性直接影响人机交互产品的性能。所谓分词,就是将句子切分成一个一个单独的词;是将连续的句子按照一定的规范重新组合成词序列的过程。以中文分词技术为例,分词技术的目标就是将一句话切分为一个一个单独的中文词语。现有的分词方法主要包括以下两种:基于字符串匹配的分词方法和基于统计的分词方法。其中,基于字符串匹配的分词方法又称为机械分词方法,是按照一定的策略将待分词的汉字串与机器词典中的词条进行匹配,若在词典中找到某个词,则匹配成功(识别出一个词)。按照扫描方向的不同,基于字符串匹配的方法可以分为正向匹配的方法和逆向匹配的方法;按照不同长度优先匹配的标准,又可以分为最大(最长)匹配和最小(最短)匹配。但是采用基于字符串匹配 ...
【技术保护点】
一种中文分词方法,其特征在于,所述方法包括:识别用户输入的语音数据,得到用户以语音方式输入的交互文本;根据所述语音数据的韵律特征,确定所述交互文本的韵律边界;根据所述交互文本的韵律边界,生成所述交互文本的分词结果。
【技术特征摘要】
1.一种中文分词方法,其特征在于,所述方法包括:识别用户输入的语音数据,得到用户以语音方式输入的交互文本;根据所述语音数据的韵律特征,确定所述交互文本的韵律边界;根据所述交互文本的韵律边界,生成所述交互文本的分词结果。2.根据权利要求1所述的中文分词方法,其特征在于,所述根据所述语音数据的韵律特征,确定所述交互文本的韵律边界,包括:根据所述语音数据,获取当前音节的发音时长和所述当前音节与下一音节之间的静音时长;如果所述静音时长与所述当前音节的发音时长之间的比值大于预设比值,则确定所述当前音节与所述下一音节之间存在韵律边界。3.根据权利要求1所述的中文分词方法,其特征在于,所述根据所述语音数据的韵律特征,确定所述交互文本的韵律边界,包括:根据所述语音数据,计算当前音节的结束音高和下一音节的开始音高;根据所述开始音高与所述结束音高的比值,确定所述当前音节与所述下一音节之间的中断因子;如果所述中断因子大于预设中断因子,则确定所述当前音节与所述下一音节之间存在韵律边界。4.根据权利要求1所述的中文分词方法,其特征在于,所述根据所述语音数据的韵律特征,确定所述交互文本的韵律边界,包括:计算所述语音数据中的时长特征、基频特征和能量特征,其中,所述时长特征包括当前音节的发音时长、所述当前音节与下一音节之间的静音时长、所述下一音节的发音时长、所述静音时长与所述当前音节的发音时长之间的比值中的至少一个,所述基频特征包括所述当前音节的音高最大值、所述当前音节的音高最小值、所述音高最大值与所述音高最小值的差值、所述当前音节的音高均值、所述当前音节的前后音节的音高均值的比值、所述当前音节的结束音高、所述下一音节的开始音高、所述当前音节与所述下一音节之间的中断因子中的至少一个,所述能量特征包括所述当前音节的能量最大值、所述当前音节的能量最小值、所述能量最大值与所述能量最小值的差值、所述当前音节的能量均值、所述当前音节的前后音节的能量均值的比值中的至少一个;根据所述时长特征、所述基频特征和所述能量特征,计算所述当前音节与所述下一音节之间的边界信息特征值;如果所述边界信息特征值大于预设阈值,则确定所述当前音节与所述下一音节之间存在韵律边界。5.根据权利要求1~4任一项所述的中文分词方法,其特征在于,所述根据所述交互文本的韵律边界,生成所述交互文本的分词结果,包括:如果所述当前音节与所述下一音节之间存在韵律边界,则确定所述当前音节与所述下一音节对应的所述交互文本中的字符分别属于两个词;如果所述当前音节与所述下一音节之间不存...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。