【技术实现步骤摘要】
【国外来华专利技术】使用机器学习对字符串进行分类相关申请的交叉引用本申请与2017年9月14日提交的美国临时申请No.62/558,383和2018年4月5日提交的美国临时申请No.62/653,193相关并要求其权益,这些申请的全部内容在此通过引用整体并入本文。
本公开一般而言涉及模式识别,并且更特别地涉及使用机器学习技术的基于字符的文档标记的识别和分类。
技术介绍
管路和设备原理图设计(“P&ID”)是说明工程处理流以及用于实现这些处理流的仪器的工程图。P&ID可以包括用于捕获与P&ID图相关的各种类型的设计信息(诸如安装信息、材料、序列信息、危害信息或其它信息)的标记或标签。在许多情况下,提取、识别和分类与P&ID相关联的标记和标签使得P&ID及其提供的信息可以在数据库系统中访问和搜索是有用的。当前的P&ID标记方法依赖于人工识别P&ID标记并生成标记索引列表。例如,人类操作员可以目视检查P&ID,以提取包括符号、标记及其组织的信息组成部分,并在数据库中将这些组成部分编目。在一些示例中,光学字符识别(OCR)技术也可以用于帮助这一处理。但是,这些解决方案最终效率低下并且不准确。这些解决方案既不成本有效也不稳健。
技术实现思路
机器学习模型可以应用于P&ID图,以提取图形组成部分,诸如符号和代表化学组分或物理组分的传输的处理循环,或者控制处理,以便克服现有基于OCR的和手动分类的解决方案的缺点。本公开的一些实施例实现了 ...
【技术保护点】
1.一种用于对P&ID图像中的字符模式进行分类的机器学习模型实现的方法,所述方法包括:/n利用训练数据生成逻辑电路生成合成字符训练图像集合;/n利用符号生成逻辑电路,基于作为训练数据的所述合成字符训练图像集合来训练字符分类模型;/n从P&ID可搜索数据库中获得包括字符模式的P&ID图像,所述字符包括一个或多个轮廓;/n将字符分类模型应用于P&ID图像中的轮廓;/n基于轮廓的位置信息将轮廓聚类为分层的组;/n构造与轮廓的聚类对应的标记标签;以及/n在数据存储库中存储标记标签。/n
【技术特征摘要】
【国外来华专利技术】20170914 US 62/558,383;20180405 US 62/653,1931.一种用于对P&ID图像中的字符模式进行分类的机器学习模型实现的方法,所述方法包括:
利用训练数据生成逻辑电路生成合成字符训练图像集合;
利用符号生成逻辑电路,基于作为训练数据的所述合成字符训练图像集合来训练字符分类模型;
从P&ID可搜索数据库中获得包括字符模式的P&ID图像,所述字符包括一个或多个轮廓;
将字符分类模型应用于P&ID图像中的轮廓;
基于轮廓的位置信息将轮廓聚类为分层的组;
构造与轮廓的聚类对应的标记标签;以及
在数据存储库中存储标记标签。
2.如权利要求1所述的方法,其中生成训练数据包括:
创建感兴趣的原型字符;
将感兴趣的原型字符作为模板存储在数据存储库中,以便以编程方式创建变化的训练图像;以及
使用原型字符创建多个随机的变化的训练数据。
3.如权利要求1所述的方法,其中字符分类模型包括机器学习算法。
4.如权利要求3所述的方法,其中机器学习算法包括卷积神经网络、支持向量机、梯度提升决策树或逻辑回归模型。
5.如权利要求2所述的方法,其中生成训练数据还包括修改感兴趣的原型字符的大小、平移、旋转或其它可能的变化。
6.如权利要求2所述的方法,其中生成训练数据还包括将噪声模式应用于一个或多个图像。
7.如权利要求6所述的方法,其中应用噪声模式包括:
选择非字符背景;
生成随机噪声模式以创建噪声背景;以及
在噪声背景上放置变化的原型字符序列。
8.如权利要求2所述的方法,其中生成训练数据还包括以组合方式随机选择原型字符包括在序列中,以支持N元文法类型的训练数据。
9.如权利要求1所述的方法,其中构建字符分类模型包括将深度学习处理应用于训练数据。
10.如权利要求1所述的方法,其中将字符分类模型应用于图像以识别字符包括:对图像进行分割以及对图像应用启发法,以抑制非字符轮廓并通过用字符分类模型对轮廓进行分类来识别字符轮廓。
11.一种用于对字符模式进行分类的系统,所述系统包括:
数据存储库和字符分类逻辑电路,所述字符分类逻辑电路包括处理器和其上嵌入有计算机可执行指令的非暂态计算机可读介质,...
【专利技术属性】
技术研发人员:P·杜克,程抒星,
申请(专利权)人:雪佛龙美国公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。