一种虚拟数字人的交互方法及系统技术方案

技术编号：40214049 阅读：4 留言：0更新日期：2024-02-02 22:22

本发明专利技术公开了一种虚拟数字人的交互方法及系统，包括获取基于虚拟数字人场景的语音指令数据，对所述语音指令数据进行预处理，提取预处理后的所述语音指令数据声学特征，识别所述语音指令数据的指令文本，根据所述指令文本获取个人语言习惯和语境信息，根据所述声学特征、所述个人语言习惯和所述语境信息计算个人特性值并匹配交互数据库，根据所述交互数据库建立虚拟交互模型，优化所述虚拟交互模型，将所述指令文本输入优化后的所述虚拟交互模型，输出交互结果。该方法不仅可以提高交互的精度，同时具有较好的可解释性，可以直接应用于交互系统中。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及交互领域，尤其涉及一种虚拟数字人的交互方法及系统。

技术介绍

1、虚拟数字人技术在交互领域的应用越来越广泛，可以帮助交互系统及时、高效地分析指令，实现文本的分析和对话。目前，指令信息量庞大、种类多样、信息密度大等特点，交互方法存在较多的不确定因素，导致交互方法存在较大的不确定性。虽然已经专利技术了一些虚拟数字人的交互方法与系统，但是仍不能有效解决交互方法的不确定问题。

技术实现思路

1、本专利技术的目的是要提供一种虚拟数字人的交互方法。

2、为达到上述目的，本专利技术是按照以下技术方案实施的：

3、本专利技术包括以下步骤：

4、a获取基于虚拟数字人场景的语音指令数据，对所述语音指令数据进行预处理；

5、b提取预处理后的所述语音指令数据声学特征，识别所述语音指令数据的指令文本，根据所述指令文本获取个人语言习惯和语境信息；

6、c根据所述声学特征、所述个人语言习惯和所述语境信息计算个人特性值并匹配交互数据库，所述个人特征值表征所述声学特征、所述个人语言习惯、所述语境信息与所述历史数据库的匹配程度；

7、根据所述声学特征、所述个人语言习惯和所述语境信息计算个人特性值并匹配交互数据库的方法，包括：

8、计算个人特性值：

9、

10、其中第e个交互数据库数据的特性集合为ae，指令文本的声学特征集合为b，声学特征的权重为ω1，指令文本的个人语言习惯集合为c，个人习惯的权重为

11、当个人特性值小于0.5时，指令文本与交互数据库数据不匹配，更换交互数据库数据，直到个人特性值大于等于0.5，将第e个交互数据库数据与指令文本关联；

12、当个人特征值大于等于0.5时，将第e个交互数据库数据与指令文本关联；

13、更换指令文本匹配交互数据库数据，直到遍历完所有的指令文本；

14、d根据所述交互数据库建立虚拟交互模型，优化所述虚拟交互模型，将所述指令文本输入优化后的所述虚拟交互模型，输出交互结果。

15、进一步的，步骤a中所述预处理包括预加重、分帧、加窗、端点检测和去噪。

16、进一步的，提取预处理后的所述语音指令数据声学特征的方法，包括：

17、对预处理后的所述语音指令数据进行傅里叶变换，将语音指令数据转换到频域，计算功率谱密度：

18、

19、其中第v帧第t个序列的功率谱密度为g(v,t)，每帧长度为m，第v帧第t个序列的频域表示为h(v,t)，傅里叶变换的点数为t，给定滤波器的频率响应：

20、

21、其中第i个滤波器中心频率为h(i)，第i个滤波器第v帧的频率响应为wi(v)，将功率谱密度利用三角滤波器组映射到梅尔频率尺度上，计算梅尔频率功率谱密度：

22、

23、其中三角滤波器的数量为i，第i个滤波器第v帧的梅尔频率功率谱密度为qv(v,i)，对梅尔频率功率谱密度进行离散余弦变换，得到梅尔频率倒谱系数，梅尔频率倒谱系数的计算公式为：

24、

25、其中梅尔频率倒谱系数的维数为j，第v帧第j维的梅尔频率倒谱系数为e(v,j)，计算梅尔频率倒谱系数的一阶差分：

26、

27、其中差分计算的帧数范围为l，第v+1帧第j维的梅尔频率倒谱系数函数为ej(v+1)，第v-1帧第j维的梅尔频率倒谱系数函数为ej(v-1)，第j维第v帧的梅尔频率倒谱系数一阶差分为δej(v)，计算梅尔频率倒谱系数的二阶差分：

28、

29、其中第j维第v帧的梅尔频率倒谱系数二阶差分为δδej(v)，第j维第v-1帧的梅尔频率倒谱系数一阶差分为δej(v-1)，梅尔频率倒谱系数特征为静态特征，梅尔频率倒谱系数的一阶差分、梅尔频率倒谱系数的二阶差分特征为动态特征，输出声学特征。

30、进一步的，根据所述指令文本获取个人语言习惯的方法，包括：

31、将所述指令文本构造成指令文本数据库，计算数据库中事务项的支持度：

32、

33、其中总事务项的数量为n，包含特定项m的事务数为cm，事务项m的支持度为sm，对指令文本数据库中所有的项进行支持度统计，将支持度低于阈值的项从语音指令数据中删除，得到长度为1的前缀；

34、找出前缀所对应的投影数据库，如果语音指令数据为空，则递归返回；

35、统计对应投影数据库中各项的支持度计数，如果所有项的支持度计数都低于阈值，则递归返回；

36、将满足支持度计数单项和当前的前缀进行合并，得到新的前缀；

37、令长度加一，前缀为合并单项后的前缀，分别递归，返回判断各项支持度计数是否低于阈值；

38、重复对长度满足支持度要求的前缀进行递归挖掘，直到挖掘不出新的前缀为止，将前缀输出为个人语言习惯。

39、进一步的，获取所述语境信息的方法，包括：

40、将指令文本分为主语、谓语、宾语、定语、状语、补语六个成分；以词或词组作为划分成分的基本单位；

41、根据六个成分的搭配排列按层次顺序确定指令文本的格局，根据指令文本的格局理解指令文本的语义，将指令文本的语义输出为语境信息。

42、进一步的，根据所述交互数据库建立虚拟交互模型的方法，包括

43、所述虚拟交互模型包括文本预处理分部、自然语言理解分部、对话管理分部和自然语言分部，将指令文本输入文本预处理分部获取预处理文本，将预处理文本输入自然语言理解分部获得理解信息，将理解信息输入对话管理分部获得初始交互文本，将初始交互文本输入自然语言分部输出交互结果；

44、文本预处理分部用于对指令文本进行分词、去停用词、命名实体识别、词义消歧、大小写转换和文本转换；

45、自然语言理解分部用于对预处理文本进行语义解析，识别出文本的实体和意图，并将语义解析转化为机器语言；

46、对话管理分部用于根据理解信息的状态和用户生成系统响应，决策下一步行动，更新对话的状态；

47、自然语言分部用于将初始交互文本转化为人类可读文本。

48、进一步的，根据所述交互数据库优化所述虚拟交互模型的方法，包括：

49、将所述交互数据库按照8:2随机划分成训练数据集和测试数据集；

50、令隐含层节点为一，随机给定交互超参数向量集，初始化参数，将训练数据集分组进行滚动验证；

51、选取训练数据集分组作为训练数据获得循环神经网络的初始权重；

52、给定非线性约束二次函数优化表达式：

53、

54、其中输入变量与第l个隐含层节点上一时刻对第j个节点当前时刻的循环权重为γlj本文档来自技高网...

【技术保护点】

1.一种虚拟数字人的交互方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种虚拟数字人的交互方法，其特征在于，步骤A中所述预处理包括预加重、分帧、加窗、端点检测和去噪。

3.根据权利要求1所述的一种虚拟数字人的交互方法，其特征在于，提取预处理后的所述语音指令数据声学特征的方法，包括：

4.根据权利要求1所述的一种虚拟数字人的交互方法，其特征在于，根据所述指令文本获取个人语言习惯的方法，包括：

5.根据权利要求1所述的一种虚拟数字人的交互方法，其特征在于，获取所述语境信息的方法，包括：

6.根据权利要求1所述的一种虚拟数字人的交互方法，其特征在于，根据所述交互数据库建立虚拟交互模型的方法，包括

7.根据权利要求1所述的一种虚拟数字人的交互方法，其特征在于，根据所述交互数据库优化所述虚拟交互模型的方法，包括：

8.一种虚拟数字人的交互系统，其特征在于，包括：

【技术特征摘要】

1.一种虚拟数字人的交互方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种虚拟数字人的交互方法，其特征在于，步骤a中所述预处理包括预加重、分帧、加窗、端点检测和去噪。

3.根据权利要求1所述的一种虚拟数字人的交互方法，其特征在于，提取预处理后的所述语音指令数据声学特征的方法，包括：

4.根据权利要求1所述的一种虚拟数字人的交互方法，其特征在于，根据所述指令文本获取个人语言习惯的方...

【专利技术属性】
技术研发人员：赵朝义，冉令华，呼慧敏，吴海媚，栗玮，赵鹤，
申请(专利权)人：中国标准化研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人