当前位置: 首页 > 专利查询>河池学院专利>正文

一种机器人的语音处理方法技术

技术编号:15331922 阅读:166 留言:0更新日期:2017-05-16 15:05
本发明专利技术公开了一种机器人的语音处理方法,所述语音处理方法包括以下步骤:S1:预处理阶段,按照特殊字符将待分析文本进行断句,将待切分的文本切分为只有中文的短句,所述短句是下一步分词处理的基本单位;其中,所述特殊字符包括英文字母、数字和标点符号;S2:对短句出来的句子进行双向最大匹配分词,按照双向匹配、长词优先的原则进行,分词后的结果作为S3的输入;S3:对上一步分词得到的结果进行比较,判断是否存在歧义,如果存在歧义,就进行一定的歧义消解;S4:重复S2、S3,直到处理完步骤一中断句所切分出的所有句子单元。

Speech processing method for robot

The invention discloses a voice processing method of the robot, the voice processing method comprises the following steps: S1, the preprocessing stage, according to the special characters to punctuate the text analysis, text segmentation will be cut for only Chinese sentences, the sentence is the basic unit of word processing, the next step; the special characters including English letters, numbers and punctuation; S2: the phrase sentence for bidirectional maximum matching, two-way matching, in accordance with the principle of priority of long word, the results of segmentation as the input of S3; S3: comparison of step segmentation results, to determine whether there is ambiguity. If there is some ambiguity, disambiguation; S4: repeat S2 and S3 till all the sentences in a sentence unit step divided.

【技术实现步骤摘要】
一种机器人的语音处理方法
本专利技术属于互联网
,尤其涉及一种机器人的语音处理方法。
技术介绍
随着社会的发展,通讯工具变得越来越多样化,各种即时通讯应用程序大大丰富了人们之间的相互流通与交流的方式,在各种电子终端上就可以发送文字、语音、视频消息,更具有各种群组功能。然而,现有的各种即时通讯应用程序一般都是按照一个客户端一个用户的方式设计的,也就是说输出消息的对象就是当前的用户,而且播放、输出消息的操作也依赖于当前用户的交互操作。用户在聊天时的一个显著特点是所提出的话题一般都是比较短小的,而不是长篇大论,不具有段落篇章结构,绝大多数就是少数几句话。基于统计的分词方法适用于有段落、篇章结构以及上下文关系的文段。基于理解的分词方法目前并不成熟,且时间复杂度高,速度慢。因此,需要一种新的机器人的语音处理方法来克服上述技术中的缺陷。
技术实现思路
针对现有技术的不足,本专利技术的目的是提供一种新的机器人的语音处理方法,使得机器人能够在短时间以内识别更多语言,简单方便快速的进行沟通。一种机器人的语音处理方法,所述语音处理方法包括以下步骤:S1:预处理阶段,按照特殊字符将待分析文本进行断句,将待切分的文本切分为只有中文的短句,所述短句是下一步分词处理的基本单位;其中,所述特殊字符包括英文字母、数字和标点符号。S2:对短句出来的句子进行双向最大匹配分词,按照双向匹配、长词优先的原则进行,分词后的结果作为S3的输入;S3:对上一步分词得到的结果进行比较,判断是否存在歧义,如果存在歧义,就进行一定的歧义消解;S4:重复S2、S3,直到处理完步骤一中断句所切分出的所有句子单元。本专利技术的技术方案具有以下有益效果:本专利技术提供的一种机器人的语音处理方法,使得机器人对语言的词句完整度理解非常精准,并且处理速度很快,是科技的一大进步,也解决了现有技术中存在的缺陷。具体实施方式为了清楚了解本专利技术的技术方案,将在下面的描述中提出其详细的结构。显然,本专利技术实施例的具体施行并不足限于本领域的技术人员所熟习的特殊细节。本专利技术的优选实施例详细描述如下,除详细描述的这些实施例外,还可以具有其他实施方式。下面结合实施例对本专利技术做进一步详细说明。本实施例提供的一种机器人的语音处理方法,包括以下步骤:S1:预处理阶段,按照特殊字符(英文字母、数字、标点符号等)将待分析文本进行断句,将待切分的文本切分为只有中文的短句子,这些句子是下一步分词处理的基本单位;(举个例子:输入“asdfadf东北师范大学哈哈哈dfadflakfl(*^__^*)嘻嘻,,,,”,simi只会对其中的中文“东北师范大学哈哈哈嘻嘻”做出响应;输入“(*^__^*)”时,输出“Ihavenoresponse.”);S2:对断句出来的句子进行双向最大匹配(双向匹配,长词优先)分词,分词后的结果作为S3的输入;(举个例子:输入“东京古巴比伦”,正向与反向切词结果均为《东京,古巴比伦》,长词优先,所以simi只对“古巴比伦”做出响应;输入“古巴比伦埃菲尔铁塔”,正向与反向切词结果均为《古巴比伦,埃菲尔铁塔》,此时Simi对“埃菲尔铁塔”做出响应);S3:对上一步分词得到的结果进行比较,判断是否存在歧义,如果存在歧义,就进行一定的歧义消解;S4:重复S2、S3,直到处理完步骤一中断句所切分出的所有句子单元。这里给出与机器人对话的例子:我问机器人:“埃菲尔铁塔上45度角仰望星空”。S1:双向最大匹配分词:正向反向均为《埃菲尔铁塔上,45度角,仰望星空》,没有歧义。长词优先,系统选择了“埃菲尔铁塔上”作为关键词;S2:系统在知识库中用刚才说的哈希函数f(埃菲尔铁塔上),找到比如[埃,11,P]的表项,顺着指针找到6字词的索引,顺着索引找到6字词表,遍历词表,找到<埃菲尔铁塔上,,,>结构体;S3:系统随机选择该结构体Ans域中的一个回答(也有可能是根据频率高低来选择),比如“两年之后等着你”。S4:输出回答,匹配结束。功时重新切取的策略,机械分词法可以分为增字法和减字法。基于词典的“双向最大匹配”法是目前中文信息处理中最简单有效的方法,有这样的统计:汉语文本中90%左右的句子,其与双向最大匹配的结果相吻合,而且是正确的分词结果,当正、反向最大匹配算法得出来的切分结果不一样时,就必须对其进行歧义处理,在此不再赘述。本专利技术提供的一种机器人的语音处理方法,使得机器人对语言的词句完整度理解非常精准,并且处理速度很快,是科技的一大进步,也解决了现有技术中存在的缺陷。最后应当说明的是:以上实施例仅用以说明本专利技术的技术方案而非对其限制,尽管参照上述实施例对本专利技术进行了详细的说明,所属领域的普通技术人员依然可以对本专利技术的具体实施方式进行修改或者等同替换,这些未脱离本专利技术精神和范围的任何修改或者等同替换,均在申请待批的权利要求保护范围之内。本文档来自技高网...

【技术保护点】
一种机器人的语音处理方法,其特征在于,所述语音处理方法包括以下步骤:S1:预处理阶段,按照特殊字符将待分析文本进行断句,将待切分的文本切分为只有中文的短句,所述短句是下一步分词处理的基本单位;其中,所述特殊字符包括英文字母、数字和标点符号;S2:对短句出来的句子进行双向最大匹配分词,按照双向匹配、长词优先的原则进行,分词后的结果作为S3的输入;S3:对上一步分词得到的结果进行比较,判断是否存在歧义,如果存在歧义,就进行一定的歧义消解;S4:重复S2、S3,直到处理完步骤一中断句所切分出的所有句子单元。

【技术特征摘要】
1.一种机器人的语音处理方法,其特征在于,所述语音处理方法包括以下步骤:S1:预处理阶段,按照特殊字符将待分析文本进行断句,将待切分的文本切分为只有中文的短句,所述短句是下一步分词处理的基本单位;其中,所述特殊字符包括英文字母、数字和标点符号;S2:对短...

【专利技术属性】
技术研发人员:彭建盛覃勇彭金松苗剑
申请(专利权)人:河池学院
类型:发明
国别省市:广西,45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1