用于语言模型个性化的系统和方法技术方案

技术编号：26045294 阅读：58 留言：0更新日期：2020-10-23 21:25

提供了一种方法、电子设备和计算机可读介质。该方法包括识别与一个或多个用户相关联的可观察特征集合。该方法还包括根据可观察特征集合生成潜在特征。该方法还包括将潜在特征分类为一个或多个集群。该一个或多个集群的每个集群表示共享一部分潜在特征的用户组的言语表达。该方法还包括生成与一个或多个集群中的特定集群相对应的语言模型。语言模型表示与特定集群的用户组相关联的言语表达的概率排序。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于语言模型个性化的系统和方法
本公开总体上涉及电子设备。更具体地，本公开涉及生成用于自动语音识别的个性化语言模型。
技术介绍
与计算设备进行交互并且控制计算设备的方法在不断改进，以便符合更自然的方法。用于与计算设备进行交互并且控制计算设备的许多此类方法通常要求用户利用诸如键盘、鼠标之类的用户界面工具，或者如果屏幕是触摸屏，则用户可以物理地触摸屏幕本身以提供输入。某些电子设备采用语音使能的用户界面来使用户能够与计算设备进行交互。使用自然语言正成为人们所选择的与某些电子设备和器具进行交互的方法。从自然语言到预期交互的平稳过渡可以在消费者满意度方面发挥越来越重要的作用。
技术实现思路
技术问题某些电子设备采用语音使能的用户界面来使用户能够与计算设备进行交互。使用自然语言正成为人们所选择的与某些电子设备和器具进行交互的方法。从自然语言到预期交互的平稳过渡可以在消费者满意度方面发挥越来越重要的作用。本公开提供了一种用于使自动语音识别情境化的系统和方法。技术方案在一个实施例中，提供了一种方法。该方法包括识别与一个或多个用户相关联的第一信息(例如，可观察特征集合)。该方法还包括根据该可观察特征集合获得(生成)第二信息(例如，潜在特征集合)。该方法还包括通过将潜在特征分类为一个或多个集群来获得该一个或多个集群，该一个或多个集群的每个集群表示共享一部分所述潜在特征的用户组的言语表达。该方法还包括生成(获得)与该一个或多个集群的特定集群相对应的语言模型。语言模型表示与特定集群的用户组...

【技术保护点】
1.一种方法，包括：/n识别与一个或多个用户相关联的第一信息；/n通过基于与所述一个或多个用户相关联的情境信息减少所述第一信息的量而获得第二信息；/n基于所述第二信息获得一个或多个集群，所述一个或多个集群中的每个集群表示共享一部分所述第二信息的用户组的言语表达；以及/n获得与所述一个或多个集群中的集群相对应的语言模型，所述语言模型表示与所述集群的所述用户组相关联的所述言语表达的概率排序。/n

【技术特征摘要】
【国外来华专利技术】20180306 US 62/639,114;20181220 US 16/227,2091.一种方法，包括：
识别与一个或多个用户相关联的第一信息；
通过基于与所述一个或多个用户相关联的情境信息减少所述第一信息的量而获得第二信息；
基于所述第二信息获得一个或多个集群，所述一个或多个集群中的每个集群表示共享一部分所述第二信息的用户组的言语表达；以及
获得与所述一个或多个集群中的集群相对应的语言模型，所述语言模型表示与所述集群的所述用户组相关联的所述言语表达的概率排序。

2.根据权利要求1所述的方法，其中，所述第一信息包括与一个或多个用户相关联的可观察特征集合，并且所述第二信息包括从所述可观察特征集合中获得的潜在特征。

3.根据权利要求2所述的方法，其中，获得所述潜在特征包括：
基于所述可观察特征集合获得多维向量，所述多维向量的每个维度对应于所述可观察特征集合中的一个特征；以及
减少所述多维向量的维度的量以导出所述潜在特征。

4.根据权利要求3所述的方法，其中，使用自动编码过程来减少所述多维向量的维度的量。

5.根据权利要求2所述的方法，还包括：
获得第一语言模型和第二语言模型，至少所述第一语言模型和所述第二语言模型中的每个语言模型分别对应于所述一个或多个集群中的一集群；并且
获得所述第一语言模型和所述第二语言模型包括：
识别所述一个或多个集群中的每个集群的质心；
基于与所述一个或多个集群中的一个集群相关联的第一用户组的言语表达构建第一数据库；
基于与所述一个或多个集群中的另一集群相关联的第二用户组的言语表达构建第二数据库；以及
在构建所述第一数据库和所述第二数据库之后，基于所述第一数据库获得所述第一语言模型并基于所述第二数据库获得所述第二语言模型。

6.根据权利要求2所述的方法，其中，所述可观察特征集合包括至少一个典型特征和至少一个增强特征。

7.根据权利要求2所述的方法，还包括：
获得一个或多个语言模型，所述一个或多个语言模型中的每个语言模型对应于表示所述言语表达的所述一个或多个集群中的一个集群，并且
其中，所述方法还包括：
获得与新用户相关联的一个或多个可观察特征；
基于与所述新用户相关联的所述一个或多个可观察特征识别所述新用户的一个或多个潜在特征；
识别所述新用户的所述一个或多个潜在特征与分类后的潜在特征之间的相似性程度；以及
获得针对所述新用户的个性化加权语言模型，所述个性化加权语言模型基于所述新用户的所述一个或多个潜在特征与表示共享一部分所述潜在特征的用户组的言语表达的所述一个或多个集群之间的相似性程度。

8.根据权利要求7所述的方法，还包括：
获得多个语言模型，并且
所述方法还包括：
识别低于所述新用户的所述一个或多个潜在特征和与所述一个或多个集群的子集相关联的所述潜在特征之间的相似性阈值的一个集群；以及
当生成针对所述新用户的所述个性化加权语言模型时，排除所述多个语言模型中的与低于...

【专利技术属性】
技术研发人员：阿尼尔·亚达夫，阿卜杜勒·劳福·哈利达，阿里雷扎·迪拉夫佐恩，穆罕默德·梅迪·穆阿兹米，宋璞，周政，
申请(专利权)人：三星电子株式会社，
类型：发明
国别省市：韩国;KR

全部详细技术资料下载我是这个专利的主人