图像拼接方法、模型训练方法、装置、电子设备及介质制造方法及图纸

技术编号：40556590 阅读：14 留言：0更新日期：2024-03-05 19:17

本申请提供一种图像拼接方法、模型训练方法、装置、电子设备及介质，所述方法包括：获取待拼接的图像序列；将所述图像序列输入训练好的神经网络模型，以输出所述图像序列对应的透视变换矩阵和每个图像帧的偏移量，所述透视变换矩阵用于描述图像在透视变换中的变换关系，所述偏移量用于调整每个图像帧在拼接过程中的位置；根据所述透视变换矩阵和所述偏移量，对所述图像序列中的每个图像帧进行拼接，以生成最终的拼接图像。本申请有效地解决了扫描笔图像拼接的问题，并提高了拼接结果的准确性、一致性和稳定性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及图像处理，尤其涉及一种图像拼接方法、模型训练方法、装置、电子设备及介质。

技术介绍

1、电子屏幕对学生的视力和注意力有负面影响，因此很多智能辅助学习工具难以被广泛接受。相比之下，扫描笔因其便携和无副作用等特点逐渐受到学生的欢迎。然而，扫描笔的关键在于内部的功能算法，其中图像序列拼接算法是最核心的部分。

2、现有技术方案主要有两种思路来解决扫描笔场景中的图像拼接问题。一种思路是将扫描图像进行二值化，然后通过特征匹配的方式进行拼接。然而，由于二值化的局限性和对扫描笔参数等因素的考虑不足，这种方法得到的结果可能不够准确。另一种思路是利用特征点进行图像配准，并进行重叠区域的处理。然而，针对包含文字的图像，由于匹配不准确和序列校正错误的累积问题，以及边界处理对后续文字识别效果产生影响。

技术实现思路

1、本申请提供一种图像拼接方法、模型训练方法、装置、电子设备及介质，用以解决如何准确地进行扫描笔图像拼接的问题。

2、第一方面，本申请提供一种图像拼接方法，所述方法包括：

3、获取待拼接的图像序列；

4、将所述图像序列输入训练好的神经网络模型，以输出所述图像序列对应的透视变换矩阵和每个图像帧的偏移量，所述透视变换矩阵用于描述图像在透视变换中的变换关系，所述偏移量用于调整每个图像帧在拼接过程中的位置；

5、根据所述透视变换矩阵和所述偏移量，对所述图像序列中的每个图像帧进行拼接，以生成最终的拼接图像。

6、在本申请的一实施例中，所述方法还包括：

7、将获取到的合成数据和对应的标签作为训练数据，对所述神经网络按照预设的目标函数和训练策略进行训练；

8、其中，所述目标函数用于衡量所述神经网络模型的预测结果与所述标签之间的差异，所述训练策略是基于输入的图像序列与输出的透视变换矩阵和偏移量，对所述透视变换矩阵采用部分到整体的逐步训练方式。

9、在本申请的一实施例中，所述将获取到的合成数据和对应的标签作为训练数据的步骤包括：

10、选择不同语种、字体和大小的文本样本，与不同光照和背景进行融合，以生成所述合成数据。

11、在本申请的一实施例中，所述将获取到的合成数据和对应的标签作为训练数据的步骤还包括：

12、获取至少包括连续两个图像帧的图像序列；

13、对每个图像帧进行多样化处理，以生成多样化数据作为所述合成数据，其中所述多样化处理包括以下任一或其组合：

14、对每个图像帧进行质量变换，所述质量变换包括模糊、图像压缩以及对比度调整；

15、根据需求选择不同的路径形式，所述路径形式包括直线型、斜线型以及曲线型；

16、根据需求设置不同速度条件下的笔迹移动像素数量；

17、调整每个图像帧的握笔姿态，所述握笔姿态包括旋转角度和俯仰角度的变化。

18、在本申请的一实施例中，所述目标函数包括赋予预设权重的第一损失函数、第二损失函数、第三损失函数以及第四损失函数，其中所述第一损失函数表示预测的透视校正图和标签图之间的均方误差损失；所述第二损失函数表示预测的偏移量与标签对应的偏移量之间的差的绝对值损失；所述第三损失函数表示进行拼接后的图像与标签图之间的均方误差损失；所述第四损失函数表示预测空白区域的位置与实际位置之间的差的绝对值损失。

19、在本申请的一实施例中，所述训练顺序包括：

20、利用所述训练数据中只包含特定变换的图像序列，固定投影向量来训练与所述特定变换所对应的部分参数；

21、待收敛后，加入剩余参数进行整体训练，并对整体透视变换矩阵进行微调以得到优化后的透视变换矩阵，其中所述剩余参数是指除所述特定变换所对应的部分参数以外的其他参数；

22、根据所述目标函数，最小化优化后的透视变换矩阵和标签对应的真实透视变换矩阵之间的差异，以优化所述神经网络模型的参数。

23、第二方面，本申请还提供一种模型训练方法，所述方法包括：

24、将获取到的合成数据和对应的标签作为训练数据；

25、将所述训练数据输入预设的神经网络模型并对其进行训练，以得到训练好的神经网络模型，其中训练好的所述神经网络模型能输出待拼接的图像序列所对应的透视变换矩阵和每个图像帧的偏移量，所述透视变换矩阵用于描述图像在透视变换中的变换关系，所述偏移量用于调整每个图像帧在拼接过程中的位置，所述透视变换矩阵和所述偏移量用于对所述图像序列中的每个图像帧进行拼接，以生成最终的拼接图像。

26、第三方面，本申请还提供一种图像拼接装置，所述装置包括：

27、获取模块，用于获取待拼接的图像序列；

28、预测模块，用于将所述图像序列输入训练好的神经网络模型，以输出所述图像序列对应的透视变换矩阵和每个图像帧的偏移量，所述透视变换矩阵用于描述图像在透视变换中的变换关系，所述偏移量用于调整每个图像帧在拼接过程中的位置；

29、拼接模块，用于根据所述透视变换矩阵和所述偏移量，对所述图像序列中的每个图像帧进行拼接，以生成最终的拼接图像。

30、第四方面，本申请还提供一种模型训练装置，所述装置包括：

31、获取模块，用于将获取到的合成数据和对应的标签作为训练数据；

32、训练模块，用于将所述训练数据输入预设的神经网络模型并对其进行训练，以得到训练好的神经网络模型，其中训练好的所述神经网络模型能输出待拼接的图像序列所对应的透视变换矩阵和每个图像帧的偏移量，所述透视变换矩阵用于描述图像在透视变换中的变换关系，所述偏移量用于调整每个图像帧在拼接过程中的位置，所述透视变换矩阵和所述偏移量用于对所述图像序列中的每个图像帧进行拼接，以生成最终的拼接图像。

33、第五方面，本申请还提供一种电子设备，包括存储器、处理器及存储在所述存储器并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面中任一项所述的图像拼接方法或如第二方面中任一项所述的模型训练方法的步骤。

34、第六方面，本申请还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面中任一项所述的图像拼接方法或如第二方面中任一项所述的模型训练方法的步骤。

35、本申请提供的一种图像拼接方法、模型训练方法、装置、电子设备及介质，该方法通过获取待拼接的图像序列，并将图像序列输入一个已经训练好的神经网络模型，以输出每个图像帧对应的透视变换矩阵和偏移量。最后根据输出的透视变换矩阵和偏移量，对图像序列中的每个图像帧进行拼接，生成最终的拼接图像。

36、因此，本申请利用训练好的神经网络模型准确地计算每个图像帧的透视变换矩阵和偏移量，从而实现了高质量的图像拼接，能够有效处理扫描笔在扫描过程中产生的多个图像帧，并将它们无缝拼接成一个完整的图像。这样可以提高图像拼接的精度和效率，并为扫描笔的应本文档来自技高网...

【技术保护点】

1.一种图像拼接方法，其特征在于，所述方法包括：

2.根据权利要求1所述的图像拼接方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的图像拼接方法，其特征在于，所述将获取到的合成数据和对应的标签作为训练数据的步骤包括：

4.根据权利要求2所述的图像拼接方法，其特征在于，所述将获取到的合成数据和对应的标签作为训练数据的步骤还包括：

5.根据权利要求2所述的图像拼接方法，其特征在于，所述目标函数包括赋予预设权重的第一损失函数、第二损失函数、第三损失函数以及第四损失函数，其中所述第一损失函数表示预测的透视校正图和标签图之间的均方误差损失；所述第二损失函数表示预测的偏移量与标签对应的偏移量之间的差的绝对值损失；所述第三损失函数表示进行拼接后的图像与标签图之间的均方误差损失；所述第四损失函数表示预测空白区域的位置与实际位置之间的差的绝对值损失。

6.根据权利要求2所述的图像拼接方法，其特征在于，所述训练策略包括建模方式和训练顺序，所述建模方式用于学习输入的图像序列与输出的透视变换矩阵和偏移量之间的关系，所述训练顺序包括：</p>

7.一种模型训练方法，其特征在于，所述方法包括：

8.一种图像拼接装置，其特征在于，所述装置包括：

9.一种模型训练装置，其特征在于，所述装置包括：

10.一种电子设备，包括存储器、处理器及存储在所述存储器并在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的图像拼接方法或如权利要求7所述的模型训练方法的步骤。

11.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的图像拼接方法或如权利要求7所述的模型训练方法的步骤。

...

【技术特征摘要】

1.一种图像拼接方法，其特征在于，所述方法包括：

2.根据权利要求1所述的图像拼接方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的图像拼接方法，其特征在于，所述将获取到的合成数据和对应的标签作为训练数据的步骤包括：

4.根据权利要求2所述的图像拼接方法，其特征在于，所述将获取到的合成数据和对应的标签作为训练数据的步骤还包括：

【专利技术属性】
技术研发人员：吴爱红，殷兵，胡金水，张银田，殷保才，
申请(专利权)人：科大讯飞股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人