唯一对应化合物结构式的ID符号制造技术

技术编号:2877328 阅读:447 留言:0更新日期:2012-04-11 18:40
根据构成化合物的各原子的种类及原子间的结合关系及/或异性体的种类,对化学结构式生成实质性的唯一的固定长或可变长的字符串后将此字符串作为该化合物的ID符号的方法;以及将上述字符串用字符串变换函数变为数据量更少的数据或字符串后将此作为该化合物的ID符号的方法。(*该技术在2020年保护过期,可自由使用*)

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术系关于对应化合物的化学结构式将实质性的唯一的固定长或可变长的字符串作为附加于该化合物或与其化合物相关信息的ID符号加以生成的方法。化合物通过表示其构成的原子种类与原子间结合状态的化学结构式特定以唯一的意思。另外,在印刷、出版时也需要以语言、文字将化学结构加以特定的方法。为此,很久以来一直有人在研究化合物命名法。作为化合物命名法,著名的有IUPAC方式和化学文摘方式,也有使用不属于上述任何一种方式的命名法。例如,新化合物的发现者常使用任意命名的惯用名或天然化合物等。要想严格的运用命名规则需要高度熟练地掌握,而使用命名法的一般的有机化学工作者多不精通命名规则。因此,很多时候由于使用者不同,起名也各异。在令计算机执行IUPAC命名规则时,也存在对巨大的复杂的化学结构式难以命名及命名结果不合原意的问题。最终有可能一个化合物存在几种名字或叫法。又,在以正确表述为目的的正式命名法中,化合物名难以起成固定长的名字。据此,上述命名法不适合计算机管理。因而,近年来能够不依照命名法、直接采用化学结构式进行检索的化合物数据库逐步形成主流。只要利用计算机软件在计算机画面上画出化学结构式,就能输入原子的种类和原子间的结合关系。能将该化学结构式作为检索式进行检索。作为此种数据库的形式及检索方法,著名的有美国的MDL公司的ISIS。此方法因指定出原子的种类与原子间的联系,能够检索包含其部分结构的化学结构式,所以很方便使用。但是,若此方法在其数据库中没有用作比较的化学结构式数据就不能进行比较,故还需要比较化学结构式的专用软件。因化学结构式不是字符串数据,所以不能用索引检索用软件根据化学结构式进行检索。学述论文中发表的化合物及专利申请的化合物的数据库-Chemica1 Abstract是著名的基于命名法的化合物数据库。又,市售化合物的数据库—ACD是著名的基于化学结构式的化合物数据库。后者对应化合物的数据记录分别附以6~10位英数字组成的识别符(ID符号)。但因这些ID符号的附加同结构无关,常有同一结构附加不同ID符号的情况。所以通过ID符号无法像由结构式或命名法得到的化合物名那样来确定化学结构式是否一致。若试行检索某种化合物是否存在于现有的几个数据库中,或在出处不同的数据库间检索出是否包含着同一化合物这样的庞大的工作,替代化合物结构式,有能够作为对照对象的ID符号是很方便的。为此,就必须开发出将所有化合物的结构式附以唯一确定的特有的ID符号的方法。也就是说,本专利技术提供了一种依照构成化合物的化学结构式的各原子的种类及原子间的结合关系、对应化学结构式实质性地生成唯一的固定长或可变长的字符串并将此字符串作为该化合物的ID符号的方法。本专利技术的理想状态是能够对应构成化学结构式的各原子的原子序数及/或各原子的种类、同位素的种类、或由该原子生成的异构体的种类对各原子进行数值分配,将其作为数列的初项,然后将根据该原子群的共价键关系确定的运算规则渐变地进行有限的重复,得到数列,对应此数列各项进行大小比较后改变排列得到的该化学结构式生成实质性地唯一的数列,再在此数列的基础上生成字符串。继续上述方法的步骤,本专利技术还提供了包括用变换函数将上述步骤得到的字符串变为更短的固定长或可变长字符串的步骤的方法。作为变换函数可以使用冲突困难混列函数及/或通用单向性混列函数,作为该变换函数最好能从SHA、SHA1、MD-4、MD-5及RIPEMD等的信息摘要函数中选择至少一种函数来用,而固定长字符串最好是能够生成由字母及/或阿拉伯数字组成的固定长字符串。在由上述方法得到的字符串或字符串群中,也可以附加有关不能直接利用的信息的1或2个以上的字符串(如有关该ID符号生成法的种类及/或该ID符号对象物的属类的信息的1或2个以上的字符串)。本专利技术的方法,最好能够使用包括下列要素组成的装置来完成。即(a)对应构成化学结构式的各原子的种类对各原子进行数值分配的手段;(b)存储以这些数值为要素的向量的手段n;(c)输入该原子间共价键关系的手段及/或将其关系作为行列要素进行存储的存储手段c;(d)将通过利用n和c的运算式生成的数列进行存储的手段;该生成装置及/或存储用于其生成的运算顺序的载体;及(e)通过将上述数列按大小比较规则进行替换排列,得到该化学结构式固有的数列,再将该数列变换为字符串后的结果进行存储的载体、该变换的进行装置、及/或存储其变换方法的载体。在其它的理想状态中,使用下列各手段能够执行上述方法,即作为各原子的种类,对应化学结构式的各原子的原子序数、同位素的种类及由其原子生成的异构体的种类,对各原子进行数值分配再将这些数值作为要素排列的向量进行存储的存储装置n;存储该原子间共价关系的存储装置c;存储装置n及/或存储装置n-1的各原子对于对应的向量要素,该向量要素的一定倍数及/或结合价倍数及其原子通过存储装置c判定为共价键的原子将对应的向量要素加上一定倍数及/或结合价倍数的值进行存储的存储装置n+1;将以渐变地返复地进行这种运算得到的所有的向量列的要素以要素或原子为单位排列的数列进行存储的载体;将其数列作为唯一对应该化合物结构式的字符串进行输出的装置。从其它观点来看,能够提供一种唯一对应由上述方法得到的化合物的化学结构式的ID符号及存储了该ID符号的存储载体。此ID符号能够用来进行化合物的化学结构的同一性或类似性的判定。例如能够用于在1个化合物数据库内或2个以上的化合物数据库间抽出有关同一或类似的化学结构式的信息,也能用于化合物数据库的管理。例如对有关化合物数据库或含有化合物信息的数据库中的各文件预加上述ID符号后,不使用化学结构式信息而只比较ID符号便能进行化合物信息的检索或对照。进而,通过本专利技术能够提供下列诸项,即含有上述ID符号的文件、记录、数据对象、文件名、文件路径名、记录名或检索键;含有上述ID符号的检索式和生成该检索式的装置;用于检索含有上述ID符号的文件、记录、数据对象、文件名、文件路径名或记录名的装置;记录了上述装置作业顺序的载体;用于进行化合物间化学结构式的同一性判定的上述ID符号;不使用化合物化学结构式的部分或全部而进行的化合物间同一性或类似性判定用的上述ID符号;通过使用上述ID符号,不用直接比较该化合物的化学结构式即可完成,因此保守该化学结构式机密性的方法;为在2个以上的数据库中使同一化合物所附的ID符号一致而采用的上述方法;为在2个以上的数据库中以同一检索式进行检索而使用的上述ID符号。无论文件还是记录,在本专利技术中本质上是相同的,在计算机中的信息记录形式是一样的。进一步从其它观点看,本专利技术可提供存储着安装了上述方法的计算机用程序的存储载体,并能提供用于执行上述方法的上述装置和记录着令该装置运行的程序的载体。作为存储载体、存储装置、记录载体及记录装置,可使用计算机能够读取的任何载体或装置,理想的可使用存储器、闪存器、软盘、硬盘、CD-ROM、DVD、MO等。附图的简单说明附图说明图1所示为能够将以局部ID管理的记录直接用化合物结构式固有的ID作为检索式进行检索的数据库系统。「字符」指字母、阿拉伯数字、平假名、片假名、汉字、朝鲜字母等、将世界上使用的所有或部分字符符号代码化的数据。「字符串」指将1个以上的有限数量的文字顺序本文档来自技高网...

【技术保护点】
提供一种方法,其根据构成化学结构式的各原子的种类及该原子间的结合关系,对应该化学结构式生成实质性的唯一的固定长或可变长的字符串并将此字符串作为该化学结构式及/或该化学结构式特定的化合物的ID符号。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:丰田哲郎板井昭子
申请(专利权)人:株式会社医药分子设计研究所
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利