一种基于用户交互行为的强化学习自动标注系统技术方案

技术编号：40580886 阅读：7 留言：0更新日期：2024-03-06 17:24

本发明专利技术公开了一种基于用户行为反馈的强化学习自动标注方法，包括以下步骤：设计自动标注系统，所述自动标注系统根据三维数模自动生成所有的二维标注；构建用户行为反馈的强化学习环境和算法设计；基于用户的交互过程和交互结果反馈并优化所述自动标注系统。本发明专利技术标注准确率高。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及机械设计技术，特别是一种基于用户交互行为的强化学习自动标注系统。

技术介绍

1、在机械设计领域，设计方案需要输出二维图纸，来进行后续的加工过程。二维图纸中需要进行尺寸标注等，以及图框中各种文本信息(线性、半径、直径、角度、倒角、粗糙度、引线、索引、文字、填充、表格、标注排布、特性匹配、行为公差、百格线等)的填写。

2、目前针对二维图纸的方案，这些图纸的标注和信息填写均由设计人员手动完成，需要花费大量时间，从而导致浪费设计人员时间成本和精力，处理效率低下。

3、cn113901615a公开了一种二维图纸自动标注方法、装置和电子设备，涉及机械设计领域；该方法包括：获取零件的待标注三维数模；将待标注三维数模输入至预先训练好的图纸标注模型，得到与待标注三维数模对应的二维图形的图纸标注信息；其中，图纸标注信息包括图纸中针对二维图形的标注尺寸信息和图框文本信息；确定二维图形在图框中的相对位置，且确保图纸留白适中，满足预设要求，并完成标注。

4、上述现有技术中，用户不能通过交互行为优化自动标注系统，使得标注的准确率不高。

技术实现思路

1、针对现有技术中存在的问题，本专利技术提供了一种标注准确率高的基于用户交互行为的强化学习自动标注系统。

2、本专利技术的目的通过以下技术方案实现。

3、一种基于用户行为反馈的强化学习自动标注方法，包括以下步骤：

4、设计自动标注系统，所述自动标注系统根据三维数模自动生成所有的二维标注；

5、构建用户行为反馈的强化学习环境和算法设计；

6、基于用户的交互过程和交互结果反馈并优化所述自动标注系统。

7、所述自动标注系统的设计步骤包括：

8、自动标注系统的算法网络设计；

9、三维数模的解析和所有几何标注信息的收集；

10、标注信息在各个投影视图之间的分布；

11、视图内标注信息的二维布局。

12、所述构建用户行为反馈的强化学习环境和算法设计的步骤包括：

13、搭建用户交互的界面；

14、设定用户交互的动作action；

15、记录交互状态state；

16、设定用户交互动作的奖励函数。

17、所述基于用户的交互过程和交互结果反馈并优化自动标注系统的步骤包括：

18、构建用户交互过程的离线反馈流程；

19、构建用户交互结果的离线评价流程；

20、基于交互过程的反馈和交互结果的评价，迭代优化自动标注系统的算法参数。

21、所述的自动标注系统的算法网络包括mlp、cnn、gcn、transform基本模块构建的深度学习算法网络；所述的三维数模的解析包括形体特征的解析、颜色特征的解析和加工特征的解析；所述几何标注信息的收集包括线性标注、直径标注、半径标注、公差标注、粗糙度标注；所述标注信息在各个投影视图之间的分布包括主视图、左视图、俯视图、仰视图、右视图；所述视图内标注信息的二维布局包括标注信息之间互不干涉、标注信息都在几何投图信息的外轮廓之外、标注整体均匀分布；

22、所述用户交互的界面包括本地客户端的界面，网页端的交互界面；

23、所述设定用户交互动作action包括增加标注信息、删除标注信息、修改标注信息、修改标注布局；

24、所述记录交互状态state包括当前包含标注的类型，每种类型标注的数量，标注之间的关系；

25、所述设定用户交互动作的奖励函数包括设计基准惩罚值为p，用户删除标注时乘以折扣因子a，用户修改标注乘以折扣因子b，用户增加标注时乘以折扣因子c，用户交互的次数统计乘以折扣因子d，且在数值上a>b>c>d。

26、所述构建用户交互过程的离线反馈流程包括：用户id的记录，用户交互动作的序列化记录，用户交互动作的类型记录；

27、所述构建用户交互结果的离线评价反馈流程包括：记录用户交互结果的所有数据；

28、所述迭代优化自动标注系统的算法参数其损失函数的计算包括：根据用户交互动作的序列记录和类型记录和自动标注系统的结果数据对比，不断根据评价指标修正训练结果；根据奖励函数的设计计算损失函数loss；根据奖励函数的设计计算损失函数loss；所述损失函数loss的计算表达公式如下：loss＝∑10g(αls,0)f(s,α)其中：α表示计算系数，值为0～1之间；a表示action，及用户操作对应的参数表达；s表示state：即用户交互操作是的画布状态参数表达；θ为时序记录的参数化表达；f为场景函数：根据不同场景需求进行定义。所述迭代优化自动标注系统的算法参数其更新过程包括：根据loss的计算，通过反向传播的方式更新自动标注系统的算法模型参数。

29、相比于现有技术，本专利技术的优点在于：本专利技术根据强化学习的损失函数反馈，优化自动标注系统的模型参数，强化学习整体迭代；通过交互直接修改dimension-gpt输出的自动标注结果；并且将交互命令进行时序的表达；基于dimension-rlhf的强化学习系统，迭代dimension-gpt的模型；优化其输出结果dimension output。通过dimension-gpt可以实现二维图纸的自动标注，极大的提高了设计人员的出图效率和准确率，减少了设计过程中的沟通成本和标注成本等。

本文档来自技高网...

【技术保护点】

1.一种基于用户行为反馈的强化学习自动标注方法，其特征在于，包括以下步骤：

2.根据权利要求书1所述的一种基于用户行为反馈的强化学习自动标注方法，其特征在于，所述自动标注系统的设计步骤包括：

3.根据权利要求1所示的一种基于用户行为反馈的强化学习自动标注方法，其特征在于，所述构建用户行为反馈的强化学习环境和算法设计的步骤包括：

4.根据权利要求1所示的一种基于用户行为反馈的强化学习自动标注方法，其特征在于，所述基于用户的交互过程和交互结果反馈并优化自动标注系统的步骤包括：

5.根据权利要求2所述的一种基于用户行为反馈的强化学习自动标注方法，其特征在于：所述的自动标注系统的算法网络包括MLP、CNN、GCN、transform基本模块构建的深度学习算法网络；所述的三维数模的解析包括形体特征的解析、颜色特征的解析和加工特征的解析；所述几何标注信息的收集包括线性标注、直径标注、半径标注、公差标注、粗糙度标注；所述标注信息在各个投影视图之间的分布包括主视图、左视图、俯视图、仰视图、右视图；所述视图内标注信息的二维布局包括标注信息之间互不干涉

6.根据权利要求3所述的一种基于用户行为反馈的强化学习自动标注方法，其特征在于：所述用户交互的界面包括本地客户端的界面，网页端的交互界面；

7.根据权利要求4所述的一种基于用户行为反馈的强化学习自动标注方法，其特征在于：

...

【技术特征摘要】

1.一种基于用户行为反馈的强化学习自动标注方法，其特征在于，包括以下步骤：

2.根据权利要求书1所述的一种基于用户行为反馈的强化学习自动标注方法，其特征在于，所述自动标注系统的设计步骤包括：

3.根据权利要求1所示的一种基于用户行为反馈的强化学习自动标注方法，其特征在于，所述构建用户行为反馈的强化学习环境和算法设计的步骤包括：

5.根据权利要求2所述的一种基于用户行为反馈的强化学习自动标注方法，其特征在于：所述的自动标注系统的算法网络包括mlp、cn...

【专利技术属性】
技术研发人员：杨庆保，吴泳荣，过晓蒙，郜清科，张清皓，
申请(专利权)人：上海设序科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人