一种自然语言的组织和识别方法技术

技术编号:3046720 阅读:212 留言:0更新日期:2012-04-11 18:40
一种自然语言的组织和识别方法,其特征在于,该方法包括:    预先设定每个语义中必须出现的关键语素;    当收到用户端输入的语音信息后,将语音信息划分为至少一个语义群,将每个语义群中的词汇与预先设定的每个语义的关键语素进行比较,确定当前语义群的语义。(*该技术在2022年保护过期,可自由使用*)

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及语音系统中对自然语言的识别处理技术,特别是指一种自然语言组织和识别方法。
技术介绍
随着社会对各种自动化、智能化服务系统需求的不断增多和语音应用技术的不断成熟,各种基于语音提示来引导用户完成系统特定功能的导航交互系统日渐增多,已成为一个非常活跃的领域,其应用涉及邮件、电话号码、股票及其它各种信息服务领域。在语音交互系统中,十分关键的一项技术就是对语音的组织和识别。只有对用户所输入的语音指示做到准确识别和理解,才能够发出正确的提示信息,进而引导用户完成系统的特定功能。目前,现有语音识别技术所采取的方法多是将获取的语音信息在具有明确语法逻辑的固定规则中寻找相应的匹配,这样,为了支持某种表达方式必须编写与之完全对应的固定语法。因此,这种方法的缺点是一方面在预先编写语法规则时必须考虑到所有可能出现的语法规则,并将该所有可能情况一一编入识别系统,工作量十分庞大并需要占用大量系统资源;另一方面由于用户的语言习惯各不相同,不可能收入所有的语法规则,因此对于未编入系统的语法类型,系统就无法进行正确的识别和理解,限制了用户的语言习惯,无法实现针对不同用户的个性化引导。
技术实现思路
有鉴于此,本专利技术的目的是提供,使对语音的识别更加灵活,摆脱语法规则的限制,并且简化传统技术中繁杂的语法编写过程。为实现上述目的,本专利技术的技术方案具体是这样实现的,该方法包括预先设定每个语义中必须出现的关键语素;当收到用户端输入的语音信息后,将语音信息划分为至少一个语义群,将每个语义群中的词汇与预先设定的每个语义的关键语素进行比较,确定当前语义群的语义。该方法所述的关键语素为明确表述当前语义所必须出现的主体词,将当前语义群中的词汇逐一与预先设定的每个语义的主体词进行比较,如果当前语义群中包含有某个语义的全部主体词,则判定该语义为当前语义群所表述的语义。将区别不同语义所必须的词一起划分为主体词。该方法进一步包括预先统计出表述每个语义所有要出现的词,如果当前语义群中包含一个以上语义的全部主体词,则将该语义群的词汇与该一个以上语义所有要出现的词逐一比较,如果该语义群的词汇完全包含在某个语义所有要出现的词中,则判定该语义为当前语义群所表述的语义。该方法进一步包括将统计出的表述每个语义所有要出现的词按其在语义群中出现的至少一种位置顺序进行合并和排列,则所述比较进一步包括比较所述语义群中词汇的位置顺序和所述每个语义每种词汇位置顺序是否一致。该方法进一步包括将对同一语义的不同表述归类为一种以上的表述方式,统计出每种表述方式中每一位置能出现的替换词,再将所有表述方式组合合并。该方法进一步包括将构成每种表述方式中所有要出现非主体词作进一步划分,设定构成每种表述方式所必须具备的基础词为关键词,并设定余下的所有词汇为普通词,如果当前语义群中包含一个以上语义的全部主体词,则将该语义群的词汇与该一个以上语义的关键词比较,如果该语义群的关键词完全包含在某个语义的关键词中,则判定该语义为当前语义群所表述的语义。该方法进一步包括将所述主体词的权值设置为最大,将所述关键词的权值设置为较小,将所述普通词的权值设置为最小,如果当前语义群中包含一个以上语义的全部主体词,则分别计算当前语义群的词汇在对应每个语义的权值之和,判定所得权值之和最大的语义为该语义群所表述的语义。该方法具体包括关键语素是在每个交互步骤中针对每个语义进行设定的。该方法所述语义群是语音信息中连续发出的一段语音。通过上述方案可以看出,本专利技术通过设定并寻找语义中的关键语素,从而摆脱了传统技术繁杂的语法编写过程,自然语言识别系统的设计大大简化,在节省人力、物力和系统资源的同时,使系统对语音的识别更加灵活,有助于语音交互系统更加智能化、个性化的发展。具体实施例方式下面结合具体实施例对本专利技术再作进一步详细的说明。本专利技术的自然语言组织和识别方法主要用于特定交互环境下的语音识别。本专利技术引入了一种缺省逻辑,预先设定在某个交互环境下表述每个语义所必须出现的关键语素。当收到用户端输入的语音信息后,将语音信息划分为至少一个语义群,再将每个语义群中的词汇与预先设定的每个语义的关键语素逐一进行比较,来确定当前语义群的语义。本专利技术第一个较佳的实施方式是主体词识别法,该方法的核心思想是预先确定出明确表述某个语义所必须出现的词,将它们属性定义为主体词。当接收到语音信息时,寻找语音信息的语义群中是否含有一个语义的所有主体词,如果是,则可直接判断当前语义群的语义即为该语义;如果未含有或未完全含有某一语义的全部主体词,则认为所接收的语义群为无效语句,系统不予识别。本专利技术中的语义群是指具有一定意思的一段语音,可以理解为用户所发出的一句话。系统判别语义群的方法可以很多,最简单的方法,可以是将两个较长时间停顿间的一段语音判定为一个语义群。主体词在本专利技术的缺省逻辑中又称为非缺省词,是指在识别过程中不可缺少的。在识别过程中必须出现,否则识别的语音将为其它语义群。此类词往往共同构成语义群最小的语法结构,该语法不仅能够表示唯一确定的语义,而且是不能再精简词汇的最简语法。在识别过程中,如果捕获的用户语音中某语义群的主体词没有出现或没有完全出现,则表明该语义群的语义肯定不是系统期望获取的语义;反之,如果语义中所有的主体词均在获取的用户语音中出现,则表明该语义群中含有对应的语义,并且需要进一步的分析处理。主体词以外的词汇本专利技术中称为缺省词汇,是指可以缺省的非必要的词汇。该类词在识别语法文件中根据实际的语音需要可以出现也可以不出现,此类词虽然可能是构成某种表述方式的必备词汇,但却不是表达语义群语义的必要词汇,在语义群中主要起到补充说明的作用。对于特定的一个词,上述的属性分类并不是固定不变的,需要根据语音交互系统所支持的业务功能和所需构造的语义群对其进行定义。在当前使用的语音系统为用于邮件管理的电话语音邮件系统时,以按绝对顺序点播“第N条”邮件的特定交互环境为例。由于只有一项业务,因此可以确定主体词为“第”、“N”、“条”,其中N是一个任意的自然数,“条”还可以替换成它的近义词“个”、“封”等作为主体词。当进行语音识别时,将不含有或未完全含有“第”、“N”、“条”的语义群排除,只找出完全含有这几个主体词的语义群,由于只有此一项业务,因此可以判断该语义群的语义为用户要点播第N条邮件。这样只有含有全部主体词的语义群,系统才对其进行识别、理解。最终的识别结果只可能是在获取的交互语音中含有其所有主体词的语义群。这样不仅排除了大量与交互语音完全不相关的可能识别,而且有效的排除了大量非主体词可能导致的识别错误和识别歧义,此种方法在本专利技术中称作主体词排歧义法。该方法不仅可以独立进行语义识别,而且也为进一步的灵活、精确提取用户语义奠定了基础。对于语义较多的多种业务的语音交互环境,采用方法时主体词的划分则会有所不同。因为在这里主体词是作为理解语义的基础和语义间区别的标志,所以确定主体词时需要考虑到语义之间的区分,不能出现两个语义主体词完全相同的情况。例如对于邮件、新闻组合业务,可以按表1所示的方法划分词的属性。 表1由于在组合业务系统中单纯根据“第”、“N”、“条”的语义是无法准确判断用户的业务意图的,因此需要将原来在单一业务系统中处于缺省词地位的“邮件”、“本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种自然语言的组织和识别方法,其特征在于,该方法包括预先设定每个语义中必须出现的关键语素;当收到用户端输入的语音信息后,将语音信息划分为至少一个语义群,将每个语义群中的词汇与预先设定的每个语义的关键语素进行比较,确定当前语义群的语义。2.根据权利要求1所述的方法,其特征在于,所述的关键语素为明确表述当前语义所必须出现的主体词,将当前语义群中的词汇逐一与预先设定的每个语义的主体词进行比较,如果当前语义群中包含有某个语义的全部主体词,则判定该语义为当前语义群所表述的语义。3.根据权利要求2所述的方法,其特征在于,将区别不同语义所必须的词一起划分为主体词。4.根据权利要求2所述的方法,其特征在于,该方法进一步包括预先统计出表述每个语义所有要出现的词,如果当前语义群中包含一个以上语义的全部主体词,则将该语义群的词汇与该一个以上语义所有要出现的词逐一比较,如果该语义群的词汇完全包含在某个语义所有要出现的词中,则判定该语义为当前语义群所表述的语义。5.根据权利要求4所述的方法,其特征在于,该方法进一步包括将统计出的表述每个语义所有要出现的词按其在语义群中出现的至少一种位置顺序进行合并和排列,则所述比较进一步包括比较所述语义群中词汇的位置顺序和所述每个语义每...

【专利技术属性】
技术研发人员:刘武孙久文孙文彦诸光任文捷王楠申江涛王江高建忠王建新
申请(专利权)人:联想北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1