语言存储方法和语言对话系统技术方案

技术编号:18350404 阅读:29 留言:0更新日期:2018-07-01 23:36
本发明专利技术涉及一种语言存储方法和语言对话系统。根据本发明专利技术的一方面的语言存储方法包括:向量化步骤,用于使用针对每个词预先创建的词向量来对累积在对话日志数据库中的语言进行向量化;确定步骤,用于确定是否采用已被向量化的语言作为响应数据;以及存储步骤,用于将已被确定为要被采用作为响应数据的语言累积在响应数据库中,其中,用于降低在向量化步骤中被向量化的语言的向量维数的维度降低步骤被包括在向量化步骤与确定步骤之间,并且在确定步骤中,确定在维度降低步骤中已被降低维度的语言的向量属于采用组与未采用组中的哪一个。

【技术实现步骤摘要】
语言存储方法和语言对话系统
本专利技术涉及语言存储方法和语言对话系统,并且涉及例如在交互式机器人中执行的语言存储方法和使用该方法的语言对话系统。
技术介绍
近些年,已经提出了许多交互式机器人。交互式机器人响应于讲话者的(例如,用户的)讲出语言而输出语言。交互式机器人从存储在数据库中的语言中选择要被用于该响应的语言。因此,为了改善交互式机器人的交互能力,需要增加被存储的响应语言的数量。在日本未审查专利申请公布第2003-248497号中公开了存储语言的方法的一个示例。日本未审查专利申请公布第2003-248497号公开了:当讲话者说出未被登记在识别字典中的语言时,通过讲话单元询问该语言属于哪个语义属性(例如,汽车、运动或食物),并且将未登记在识别字典中的语言的语音数据与识别已经获得的语义属性的结果相关联地登记在语音数据字典中。在语音数据字典中登记上述语言之后,当讲话者说出未被登记在识别字典中的语言时,系统在语音数据字典中搜索与由讲话者讲出的未被登记在识别字典中的语言相同的语音数据,并且当该语言存在于语音数据字典中时,通过用已经获得的语义属性替换该语音数据来继续对话。
技术实现思路
在对话中,讲话者的讲出语言不会总是适合用于响应的语言。换言之,在交互式机器人中,机器人应当记住的语言需要被适当地选择以改善交互能力。然而,在日本未审查专利申请公布第2003-248497号中公开的技术中,不可能确定讲话者的讲出语言不应当被采用作为要被存储在响应数据库中的语言。可以通过对从讲话者获得的语言进行向量化并且对该向量执行处理以确定是否采用从讲话者获得的语言来选择机器人应当记住的语言。然而,语言的简单向量化通常导致语言的向量数目变得庞大的问题,因此需要大量的时间来执行用于确定是否学习该语言的处理。此外,当语言的向量的数目减少时,尽管处理时间变短,但是降低了确定是否学习该语言的结果的准确度。本专利技术是鉴于上述背景做出的,并且目的在于实现减少确定是否记住从讲话者获得的语言所需的时间并且提高确定是否学习该语言的准确度两者。根据本专利技术的一方面的语言存储方法是以下语言存储方法:将讲话者的讲出语言累积在对话日志数据库中,并且通过计算来确定是否采用累积在对话日志数据库中的语言作为响应数据库中的响应数据,该响应数据库存储要被用于对讲话者的讲出语言进行响应的语言,该方法包括:对话日志累积步骤,用于将讲话者的讲出语言累积在对话日志数据库中;向量化步骤,用于使用针对每个词预先创建的词向量对累积在对话日志数据库中的语言进行向量化;确定步骤,用于确定是否采用已被向量化的语言作为响应数据;以及存储步骤,用于将已被确定为要被采用作为响应数据的语言累积在响应数据库中,其中,用于降低在向量化步骤中被向量化的语言的向量维数的维度降低步骤被包括在向量化步骤与确定步骤之间,在确定步骤中,确定在维度降低步骤中已被降低维数的语言的向量属于采用组与未采用组中的哪一个,并且在存储步骤中,已被确定为属于采用组的语言被累积在响应数据库中。根据本专利技术的上述方面,从讲话者获得的语言被转换为准确表示该语言的含义的向量,然后降低语言的向量数目,并且基于已降低数目的向量来确定是否采用语言,由此可以增加选择要被存储在响应数据库中的语言的处理的速度和该处理的准确度。根据本专利技术的一方面的语言存储方法,在维度降低步骤中,在保持向量化步骤中被向量化的语言的向量的全局结构和局部结构的状态下,降低语言的向量维数。根据本专利技术的上述方面,在维度降低步骤中保持向量的全局结构和局部结构,从而可以进一步提高选择要被存储在响应数据库中的语言的准确度。根据本专利技术的一方面的语言存储方法在维度降低步骤中使用t分布随机相邻嵌入(t-SNE)、随机相邻嵌入(SNE)和主成分分析中之一来降低语言的向量维数。本专利技术的上述方面公开了用于实现向量的数目降低的特定方法的示例。可以通过在保持向量之间的关系的状态下降低向量的数目来进一步提高选择要被存储在响应数据库中的语言的准确度。根据本专利技术的一方面的语言存储方法使用高斯混合模型、支持向量机(SVM)和逻辑回归分析中之一来确定是否采用通过维度降低步骤生成的语言,依靠所述高斯混合模型、支持向量机和逻辑回归分析中之一使得能够对预先准备的应当被采用的语言和不应当被采用的语言进行分类。根据本专利技术的上述方面,可以通过使用上述学习的分类方法来增加执行确定是否采用语言的处理的速度。根据本专利技术的一方面的语言对话系统包括:语音识别器,其被配置为识别讲话者的讲出语言;对话日志数据库,其被配置为累积由语音识别器识别的语言;响应数据库,其被配置为存储对由语音识别器识别到的语言进行响应的语言;对话控制器,其被配置为从响应数据库选择对由语音识别器识别的语言进行响应的语言;语音合成器,其被配置为将由对话控制器选择的语言转换成语音信号;以及响应数据库创建模块,其被配置为确定是否采用被累积在对话日志数据库中的语言作为应当被累积在响应数据库中的语言,其中,响应数据库创建模块执行以下处理:向量化步骤,用于使用针对每个词预先创建的词向量来对累积在对话日志数据库中的语言进行向量化;维度降低步骤,用于降低在向量化步骤中被向量化的语言的向量维数;确定步骤,用于确定是否采用通过维度降低步骤已被降低向量维数的语言作为响应数据;以及存储步骤,用于将已被确定为要被采用作为要被存储在响应数据库中的响应数据的语言累积在响应数据库中,并且在确定步骤中,确定在维度降低步骤中已被降低维数的语言的向量属于采用组与未采用组中的哪一个,并且在存储步骤中,已被确定为属于采用组的语言被累积在响应数据库中。根据本专利技术的上述方面,将从讲话者获得的语言转换成适合表示该语言的含义的向量,然后降低语言的向量数目,并且然后基于已被降低数目的向量来确定是否采用语言,由此可以增加选择要被存储在响应数据库中的语言的处理的速度和该处理的准确度。根据本专利技术的语言存储方法和语言对话系统,可以通过对要被存储的语言和不应当被存储的语言进行分类的分类器来增加学习的速度。根据下文给出的详细描述和附图将更加充分地理解本专利技术的上述和其他目的、特征和优点,附图仅通过说明的方式而给出,因此不应被认为是对本专利技术的限制。附图说明图1是用于描述根据第一实施方式的语言对话系统的处理系统的框图;图2是用于描述根据第一实施方式的语言对话系统的响应数据库创建模块中的处理的流程图;图3是用于描述根据第一实施方式的语言对话系统中的降低向量维数的处理的概要的示图;图4是用于描述作为在根据第一实施方式的语言对话系统中降低向量维数的处理的一个示例的t-SNE的处理流程的流程图;图5是用于描述当GMM用作根据第一实施方式的语言对话系统的分类处理时的分类处理和函数的学习的示图;图6是用于描述当逻辑回归分析用作根据第一实施方式的语言对话系统的分类处理时的分类处理和函数的学习的示图;图7是用于描述要被存储在根据第一实施方式的语言对话系统中的语言的准确度的图表;以及图8是用于描述根据第一实施方式的语言对话系统中的语言学习时间的图表。具体实施方式第一实施方式在下文中,将参照附图说明本专利技术的实施方式。为了使说明清楚起见,下面的描述和附图被适当地省略和简化。在整个附图中,相同的附图标记表示相同的元件,并且将适当地省略交叠的描述。本文档来自技高网...
语言存储方法和语言对话系统

【技术保护点】
1.一种语言存储方法,其将讲话者的讲出语言累积在对话日志数据库中并且通过计算来确定是否采用累积在所述对话日志数据库中的语言作为响应数据库中的响应数据,所述响应数据库存储要被用于对所述讲话者的讲出语言进行响应的语言,所述方法包括:对话日志累积步骤,用于将所述讲话者的讲出语言累积在所述对话日志数据库中;向量化步骤,用于使用针对每个词预先创建的词向量来对累积在所述对话日志数据库中的语言进行向量化;确定步骤,用于确定是否采用已被向量化的语言作为所述响应数据;以及存储步骤,用于将已被确定为要被采用作为所述响应数据的语言累积在所述响应数据库中,其中,用于降低在所述向量化步骤中被向量化的语言的向量维数的维度降低步骤被包括在所述向量化步骤与所述确定步骤之间,在所述确定步骤中,确定在所述维度降低步骤中已被降低维数的语言的向量属于采用组与未采用组中的哪一个,并且在所述存储步骤中,已被确定为属于所述采用组的语言被累积在所述响应数据库中。

【技术特征摘要】
2016.12.14 JP 2016-2422971.一种语言存储方法,其将讲话者的讲出语言累积在对话日志数据库中并且通过计算来确定是否采用累积在所述对话日志数据库中的语言作为响应数据库中的响应数据,所述响应数据库存储要被用于对所述讲话者的讲出语言进行响应的语言,所述方法包括:对话日志累积步骤,用于将所述讲话者的讲出语言累积在所述对话日志数据库中;向量化步骤,用于使用针对每个词预先创建的词向量来对累积在所述对话日志数据库中的语言进行向量化;确定步骤,用于确定是否采用已被向量化的语言作为所述响应数据;以及存储步骤,用于将已被确定为要被采用作为所述响应数据的语言累积在所述响应数据库中,其中,用于降低在所述向量化步骤中被向量化的语言的向量维数的维度降低步骤被包括在所述向量化步骤与所述确定步骤之间,在所述确定步骤中,确定在所述维度降低步骤中已被降低维数的语言的向量属于采用组与未采用组中的哪一个,并且在所述存储步骤中,已被确定为属于所述采用组的语言被累积在所述响应数据库中。2.根据权利要求1所述的语言存储方法,其中,在所述维度降低步骤中,在保持所述向量化步骤中被向量化的语言的向量的全局结构和局部结构的状态下,降低所述语言的向量维数。3.根据权利要求1或2所述的语言存储方法,其中,在所述维度降低步骤中,使用t分布随机相邻嵌入(t-SNE)、随机相邻嵌入(SNE)和主成分分析中之一来降低所述语言的向量维数。4.根据权利要求1至3中任一项所述的语言存...

【专利技术属性】
技术研发人员:山口亨下川原英理平田和晖高谷智哉
申请(专利权)人:公立大学法人首都大学东京丰田自动车株式会社
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1