一种多语言产品包装说明书文字识别查询方法及系统技术方案

技术编号：40461484 阅读：6 留言：0更新日期：2024-02-22 23:16

本发明专利技术涉及人工智能计算机视觉和自然语言处理领域，尤其涉及一种多语言产品包装说明书文字识别查询方法及系统。通过对不规整文本图片上难检测和易检测的文本区域设置不同的惩罚系数，有效区分难检测和易检测的文本区域，提高损失估计准确度，有效检测出文本区域；应用TPS空间变换网络和Transformer网络将不规整的文本或图像部分映射到规则的形状上，提高后续的特征提取和识别性能。用户通过手机客户端扫描产品包装或产品说明书，云端平台生产厂商数据库查询得到产品说明书清晰详细内容并反馈给用户；用户通过手机客户端进行提问，多语言翻译查询基于多语言大模型和向量数据库，使用用户选择的语言回答。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能计算机视觉和自然语言处理领域，尤其涉及一种多语言产品包装说明书文字识别查询方法及系统。

技术介绍

1、当前市面上流通的商品，在其包装及使用说明书上的文字比较小，老年人或有视力障碍的人很难看清楚；尤其是像药品类产品更是如此，对于外国人来说还存在翻译成其母语才能看懂的问题，用户的体验比较差。中国专利文献cn115620305a公开了“一种基于深度学习的拍照识药系统及其使用方法”，通过拍照辨识区分待测物，对拍摄的数字图像进行预处理，对预处理后的数字图像进行前景背景分割提取出前景主体，对前景主体进行目标检测，从而得到待识别物的药品相关信息、辨别是否是药品或保健品。上述技术方案只聚焦于拍照识别整体流程，未公布文本检测具体算法，应用范围有限。

2、现有的图片文本检测方法，由于输入图片往往有大量非文本区域的背景类别和相对较少的文本区域前景类别，通常采用带一个r惩罚系数的focal loss的特定变体损失函数对文本检测神经网络模型进行优化，以减少容易分类的样本对损失的贡献，更关注那些难以分类的样本，从而提高该神经网络模型的性能。本专利技术识别对象是产品尤其是药品包装或产品使用说明书，它们往往不规整，对它们拍照或扫描获取的图片其质量受其本身的质量及环境的影响，比如说褶皱、光线、形变、遮盖、大小或字体不统一等，导致有些文本内容难以检测，从而检测精度下降。因此，如何更有效地区分难检测和易检测的文本区域、提高损失估计准确度，从而提高模型训练效率和精度、加速模型收敛，是不规整图像文字检测领域亟须解决的技术问题。本专利技术

3、目前的文本识别模型大多是基于通用场景，很少有针对识别产品包装或产品使用说明书这类不规整图片场景进行优化；针对于此，本专利技术提出了一种基于transformer的文本识别算法，提高产品包装或产品使用说明书这类不规整图片的文本识别的准确性。

4、某些用户可能存在阅读障碍，产品包装或产品使用说明书上的文字可能是外语，而另外一些用户可能存在翻译需求。针对于此，本专利技术设计了一种基于多语言大模型和向量数据库的问答助手-多语言翻译查询模块，将文本识别结果录入向量数据库，然后多语言翻译查询模块根据用户的自然语言提问，结合向量数据库的知识，使用用户使用或选择的语言回答用户的问题。

技术实现思路

1、本专利技术要解决的技术问题是：提供一种多语言产品包装说明书文字识别查询方法，通过对输入图片上难检测和易检测的文本区域设置不同的惩罚系数，有效区分难检测和易检测的文本区域、提高损失估计准确度，提高模型训练效率和精度、加速模型收敛，从而有效识别图片上非规则文本。本专利技术技术方案如下：

2、一种多语言产品包装说明书文字识别查询方法，包括：

3、s1文本检测算法，检测输入图片中的文本区域，本算法基于卷积神经网络模型，采用带不同调节因子变体损失函数；

4、；

5、是该网络模型的损失；

6、x是模型训练图片检测输出结果；

7、y表示标注的训练图片数据；

8、是训练图片的像素集合；

9、、是调节因子，用于调整损失函数聚焦度；

10、使用背景的损失函数进行反向传播：

11、；

12、使用前景的损失函数进行反向传播：

13、；

14、s2文字识别算法，基于transformer构建，对s1输出进行识别计算，输出纯文本数据，送给产品关键信息检索子模块提取产品特征信息；

15、s2.1利用tps空间变换网络对s1输出进行预处理，将不规则的文本或图像部分映射到规则的形状上；

16、s2.2通过深度残差网络resnet提取特征信息，利用多头注意力和标准化技术，将图像特征数据进行编码，转换为序列数据并输入到多层感知机网络生成文本识别结果。

17、进一步地，s2.2中所述产品特征信息包括：产品名称、产品型号、序列号、生产厂商、生产日期、产品过期日期。

18、针对现有技术存在的不足，本专利技术的目的之二是提供一种多语言产品包装说明书文字识别查询系统，采用如上述方法构建，包括用户客户端、生产厂商客户端、用户和生产厂商管理后台、云端平台，

19、m1用户客户端安装在用户带摄像头的移动电话或平板电脑移动设备上，包括用户注册与登录模块、与云端平台交互模块、查询结果显示模块；

20、m1.1用户注册与登录模块，其功能是检测用户是否注册，如未注册引导注册，如已注册引导登录系统；

21、m1.2与云端平台交互模块，其功能是通过安装本客户端的移动设备对产品包装或说明书进行拍照或扫描，将形成的图片序列发送给云端平台；接收云端平台反馈的结果信息，并传递给查询结果显示模块；用户可选择呈现方式和呈现内容，可自由放大和缩小呈现的内容；

22、m1.3查询结果显示模块，其功能是将云端平台反馈的查询结果信息显示给用户；

23、m2生产厂商客户端，包括生产厂商注册与登录模块、产品包装说明书电子文档上传云端平台模块、管理模块；

24、m2.1生产厂商注册与登录模块，其功能是检测生产厂商是否注册，如未注册引导注册，如已注册引导登录系统；

25、m2.2产品包装说明书电子文档上传云端平台模块，其功能是生产厂商上传其发布产品的包装和/或说明书的电子文档到云端平台；

26、m2.3管理模块，其功能是编辑管理生产厂商上传的产品包装和/或说明书电子文档；

27、m3用户和生产厂商管理后台，其功能是对注册的用户或生产厂商进行管理，包括对已录入云端平台的用户数据库、生产厂商数据库进行增删改查；

28、m4云端平台部署在系统或平台所有者的数据中心或者云端，包括用户数据库模块、生产厂商数据库模块、产品包装说明书图片识别模块、产品包装说明书图片识别结果存储模块、产品包装说明书电子文档存储模块；

29、m4.1用户数据库模块，其功能是存储注册的用户数据；

30、m4.2生产厂商数据库模块，其功能是存储注册的生产厂商数据；

31、m4.3产品包装说明书图片识别模块，包括产品关键信息检索子模块，采用一种多语言产品包装说明书文字识别查询方法，基于计算机视觉或人工智能技术对图片序列上的文字进行检测和识别，然后通过产品关键信息检索子模块提取产品特征信息；

32、m4.4产品包装说明书图片识别结果存储模块，以结构化的形式将m4.3识别和检索到的信息存储；

33、m4.5产品包装说明书电子文档存储模块，其功能是存储生产厂商上传的产品的包装和/或说明书的电子文档。

34、进一步地，m1所述用户客户端还可包含：多语言语音文字转换模块asr、文字语言转换模块tts；m1.4多语言语音文字转换模块asr，其功能是供用户以自然语言语音的形式询问相关产品的知识，包括对产品本文档来自技高网...

【技术保护点】

1.一种多语言产品包装说明书文字识别查询方法，其特征在于：包括：

2.根据权利要求1所述的一种多语言产品包装说明书文字识别查询方法，其特征在于：S2.2中所述产品特征信息包括：产品名称、产品型号、序列号、生产厂商、生产日期、产品过期日期。

3.一种多语言产品包装说明书文字识别查询系统，包括用户客户端、生产厂商客户端、用户和生产厂商管理后台、云端平台，其特征在于：

4.根据权利要求3所述的一种多语言产品包装说明书文字识别查询系统，其特征在于：

5.根据权利要求4所述的一种多语言产品包装说明书文字识别查询系统，其特征在于：

【技术特征摘要】

1.一种多语言产品包装说明书文字识别查询方法，其特征在于：包括：

2.根据权利要求1所述的一种多语言产品包装说明书文字识别查询方法，其特征在于：s2.2中所述产品特征信息包括：产品名称、产品型号、序列号、生产厂商、生产日期、产品过期日期。

3.一种多语言产品包装...

【专利技术属性】
技术研发人员：徐永龙，马昊，段瑛琛，徐思思，刘志强，李高健，王德建，
申请(专利权)人：腾讯烟台新工科研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人