基于原子邻接矩阵的可变位置马库什分子结构识别方法和系统技术方案

技术编号:45097237 阅读:30 留言:0更新日期:2025-04-25 18:35
本发明专利技术公开了一种基于原子邻接矩阵的可变位置马库什分子结构识别方法和系统,对应的方法包括:1)构建可变位置马库什分子结构图,并生成对应的原子邻接矩阵序列;2)在可变位置马库什分子结构图‑原子邻接矩阵序列数据对上训练得到图片到序列的翻译模型;3)将可变位置马库什分子结构图输入到翻译模型生成目标原子邻接矩阵序列,并通过划分组合策略将其还原成分子SMILES集合。对应的系统包括图像预处理模块、分子图编码模块和分子SMILES生成模块。本发明专利技术有效解决了可变位置马库什分子结构识别结果不完整和识别准确率低的问题,为生物医药专利数据库的高质量构建提供了有利支持。

【技术实现步骤摘要】

本专利技术涉及到光学化学结构识别中可变位置马库什分子结构识别方法,涉及基于原子邻接矩阵序列表示的可变位置马库什分子结构识别的方法和系统。


技术介绍

1、分子作为化合物的基础,由两个或多个原子借助化学键结合而成,其独特的化学性质对特定结构起着决定性作用。在科学文献与数据库里,分子结构一般以图像形式呈现。这种展示方式虽较为直观,可对于机器处理和分析来说,还需进一步转换。所以,运用光学化学结构识别(optical chemical structure recognition,ocsr)技术,从文档图像中自动提取并解析分子信息,转化成机器可读的文本格式,是当下研究的关键方向之一。

2、在分子结构识别领域的研究进程中,早期基于规则的系统依赖传统图像处理技术开展工作,比如二值化、线平滑、细化以及矢量化等操作。这些技术把像素图像分割为原子与键的形式,再利用光学字符识别(ocr)模型识别原子标签。之后,研究人员采用启发式方法,通过剖析线条的长度、宽度、间距以及方向来判定化学键的类型(像单键、双键和三键),并把识别出的元素组合成分子图。随着技术不断进步,研究者提本文档来自技高网...

【技术保护点】

1.一种基于原子邻接矩阵的可变位置马库什分子结构识别方法,其特征在于,该方法包括如下步骤:

2.如权利要求1所述的可变位置马库什分子结构识别方法,其特征在于,所述步骤一具体包括如下步骤:

3.如权利要求1所述的可变位置马库什分子结构识别方法,其特征在于,所述步骤二具体包括如下步骤:

4.如权利要求1所述的可变位置马库什分子结构识别方法,其特征在于,所述步骤三具体包括如下步骤:

5.一种基于权利要求1所述方法的基于原子邻接矩阵的可变位置马库什分子结构识别系统,其特征在于,包括图像预处理模块、分子图像编码模块和SMILES生成模块;

【技术特征摘要】

1.一种基于原子邻接矩阵的可变位置马库什分子结构识别方法,其特征在于,该方法包括如下步骤:

2.如权利要求1所述的可变位置马库什分子结构识别方法,其特征在于,所述步骤一具体包括如下步骤:

3.如权利要求1所述的可变位置马库什分子结构识别方法,其特征在于,所述步骤二具体...

【专利技术属性】
技术研发人员:兰曼添文浩李洪林
申请(专利权)人:华东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1