一种基于行为树的数据对齐方法及装置制造方法及图纸

技术编号：40384109 阅读：7 留言：0更新日期：2024-02-20 22:19

本发明专利技术公开了一种基于行为树的数据对齐方法及装置。该方法包括：S1，获取任务指令、第一价值向量、第二价值向量、行为树知识库、幅度因子和评估参数；S2，根据任务指令和行为树知识库处理第一价值向量，得到第三价值向量；S3，对第二、三价值向量进行评估，得到评估结果；当评估结果大于评估参数时，执行S4；当评估结果不大于评估参数时，执行S5；S4，根据第二、三价值向量和幅度因子更新第一价值向量，执行S2；S5，执行任务指令，得到第四价值向量；判断第四价值向量与第二价值向量是否完全一致，得到判断结果；当判断结果为否时，更新第二价值向量，执行S3；当判断结果为是时，结束流程。可见，本申请有利于提高人机协作的效率和可靠性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，尤其涉及一种基于行为树的数据对齐方法及装置。

技术介绍

1、在人工智能研究之初，人与机器人的对齐问题一直是研究者最为关注的问题。近年来，随着人工智能的兴起和广泛应用，人机对齐问题越来越受到人们的关注。正确对齐保证了机器人在任务中的目标是人类用户真正想要的。同时，它有助于人与机器人在任务中做出高质量的决策和有效的协作。

2、行为树自动生成的方法一般有两种:基于学习的方法和基于规划的方法。基于学习的行为树生成方法通常通过进化算法、强化学习算法和示范学习方法来实现。尽管基于学习的方法对于未知环境中的机器人更具有鲁棒性，但学习过程高度依赖于效用函数的设计。它可能并不完全与人类提出的价值一致，并且人类提出的价值也很难被量化。此外，基于规划的方法具有相对直观与可解释性强的优势，通过应用线性时间逻辑和分层任务网络，可以实现高效的行为树构建和执行过程。然而，基于规划的方法严格依赖于已有的定义知识，因此失去了对未知环境的适应性。为了解决这些问题，在行为树自动生成方法中采用了人在回路的方法来帮助解决规划冲突，通过利用人类智能调整行为树结构或结点。然而，这种方法侧重于细粒度的行为树调整，增加了人类用户的工作量，因此无法实现有效的机器人控制。另一方面，从机器人到人类的对齐过程是单向的，缺乏对人类用户的启发或解释。

技术实现思路

1、本专利技术所要解决的技术问题在于，人的价值通常是抽象的，可以指导人们的行为，以实现他们的目标。为了实现人与机器人之间的价值对齐，需要在机器人

2、为了解决上述技术问题，本专利技术实施例第一方面公开了基于行为树的数据对齐方法，所述方法包括：

3、s1，获取任务指令、第一价值向量、第二价值向量、行为树知识库、幅度因子和评估参数；

4、s2，根据所述任务指令和所述行为树知识库，对所述第一价值向量进行处理，得到第三价值向量；

5、s3,对所述第二价值向量和所述第三价值向量进行评估，得到评估结果；

6、当所述评估结果大于所述评估参数时，执行s4；

7、当所述评估结果不大于所述评估参数时，执行s5；

8、s4，根据所述第二价值向量、所述第三价值向量和所述幅度因子更新所述第一价值向量，执行s2；

9、s5，根据所述第三价值向量执行所述任务指令，得到第四价值向量；

10、判断所述第四价值向量与所述第二价值向量是否完全一致，得到判断结果；

11、当判断结果为否时，根据所述第四价值向量，更新所述第二价值向量，执行s3；

12、当判断结果为是时，结束流程。

13、作为一种可选的实施方式，在本专利技术实施例第一方面中，所述根据所述任务指令和所述行为树知识库，对所述第一价值向量进行处理，得到第三价值向量，包括：

14、s21，利用所述任务指令匹配所述行为树知识库，得到行为树知识库子集；所述行为树知识库子集包含n个行为树；所述行为树包含一个或多个顺序结点、选择结点和并行结点；

15、s22，利用价值向量模型，对n个所述行为树分别计算处理，得到n个行为树价值向量；

16、s23，对n个所述行为树价值向量计算处理，得到所述第三价值向量。

17、作为一种可选的实施方式，在本专利技术实施例第一方面中，所述利用价值向量模型，对n个所述行为树分别计算处理，得到n个行为树价值向量，包括：

18、s221，利用顺序结点价值向量模型，对所述行为树的所述顺序结点进行计算处理，得到所述行为树的所述顺序结点价值向量；

19、所述顺序结点价值向量模型为：

20、

21、其中fis为所述顺序结点的第i个价值元素，fim为所述顺序结点的第m个子结点的第i个价值元素，m为所述顺序结点的子结点总数；

22、s222，利用选择结点价值向量模型，对所述行为树的所述选择结点进行计算处理，得到所述行为树的所述选择结点价值向量；

23、所述选择结点价值向量模型为：

24、

25、其中fif为所述选择结点的第i个价值元素，fim为所述选择结点第m个子结点的第i个价值元素，m为所述选择结点的子结点总数；

26、s223，利用并行结点价值向量模型，对所述行为树的所述并行结点进行计算处理，得到所述行为树的所述并行结点价值向量；

27、所述并行结点价值向量模型为：

28、

29、其中fip是所述并行结点的第i个价值元素，s是所述并行结点返回成功的所有子结点的集合，u是所述并行结点的所有子结点的集合，a是所述并行结点返回成功的子结点，b是所述并行结点返回失败的子结点，fi(a)、fi(b)均是所述并行结点子结点的第i个价值元素；

30、s224，对n个所述行为树的所述顺序结点价值向量、所述选择结点价值向量和所述并行结点价值向量进行计算，得到n个所述行为树价值向量。

31、作为一种可选的实施方式，在本专利技术实施例第一方面中，所述对所述第二价值向量和所述第三价值向量进行评估，得到评估结果，包括：

32、利用价值向量距离模型对所述第二价值向量和所述第三价值向量进行计算，得到所述评估结果；

33、所述价值向量距离模型表达式为：

34、

35、其中p是所述评估结果，i是所述第二价值向量和所述第三价值向量的第i个价值元素，xi是所述第二价值向量的第i个价值元素的值，yi是所述第三价值向量的第i个价值元素的值。

36、作为一种可选的实施方式，在本专利技术实施例第一方面中，所述根据所述第二价值向量、所述第三价值向量和所述幅度因子更新所述第一价值向量，包括：

37、s41，利用价值误差损失算法，对所述第二价值向量和所述第三价值向量进行计算，得到价值向量损失值；

38、s42，利用价值修正算法，对所述第二价值向量、所述幅度因子和所述价值向量损失值进行计算，得到价值修正向量；

39、s43,对所述价值修正向量处理，得到更新后的所述第一价值向量。

40、作为一种可选的实施方式，在本专利技术实施例第一方面中，所述价值误差损失算法表达式为：

41、

42、其中，j为所述价值向量损失值，i为所述第二价值向量、所述第三价值向量的第i个价值元素，m为所述第二价值向量、所述第三价值向量的向量长度，xi是所述第二价值向量的第i个价值元素的值，yi是所述第三价值向量的第i个价值元素的值。

43、作为一种可选的实施方式，在本专利技术实施例第一方面中，所述价值修正算法表达式为：

44、

45、其中θi为所述第二价值向本文档来自技高网...

【技术保护点】

1.一种基于行为树的数据对齐方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于行为树的数据对齐方法，其特征在于，所述根据所述任务指令和所述行为树知识库，对所述第一价值向量进行处理，得到第三价值向量，包括：

3.根据权利要求2所述的基于行为树的数据对齐方法，其特征在于，所述利用价值向量模型，对N个所述行为树分别计算处理，得到N个行为树价值向量，包括：

4.根据权利要求1所述的基于行为树的数据对齐方法，其特征在于，所述对所述第二价值向量和所述第三价值向量进行评估，得到评估结果，包括：

5.根据权利要求1所述的基于行为树的数据对齐方法，其特征在于，所述根据所述第二价值向量、所述第三价值向量和所述幅度因子更新所述第一价值向量，包括：

6.根据权利要求5所述的基于行为树的数据对齐方法，其特征在于，所述价值误差损失表达式为：

7.根据权利要求5所述的基于行为树的数据对齐方法，其特征在于，所述价值修正算法表达式为：

8.一种基于行为树的数据对齐装置，其特征在于，所述装置包括：

9.一种基

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令被调用时，用于执行如权利要求1-7任一项所述的基于行为树的数据对齐方法。

...

【技术特征摘要】

1.一种基于行为树的数据对齐方法，其特征在于，所述方法包括：

3.根据权利要求2所述的基于行为树的数据对齐方法，其特征在于，所述利用价值向量模型，对n个所述行为树分别计算处理，得到n个行为树价值向量，包括：

4.根据权利要求1所述的基于行为树的数据对齐方法，其特征在于，所述对所述第二价值向量和所述第三价值向量进行评估，得到评估结果，包括：

5.根据权利要求1所述的基于行为树的数据对齐方法，其特征在于，所述根...

【专利技术属性】
技术研发人员：李皓，金昊翔，李晶华，赵晨景，田涛，
申请(专利权)人：天津滨海人工智能创新中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人