用于在中文文档中识别化学名称的方法及系统技术方案

技术编号:8387129 阅读:226 留言:0更新日期:2013-03-07 07:48
本发明专利技术提供一种用于在中文文档中识别化学名称的方法及其系统。所述方法包括:接收包括化学名称的中文文档;识别所述文档中的化学名称片段;识别所述文档中的非化学名称片段;以及基于所识别的化学名称片段和非化学名称片段,合并所述化学名称片段以得到所述化学名称。本发明专利技术的具体实施方式可以有效地从化学文献中识别化学名称。

【技术实现步骤摘要】

本专利技术为一种2,6_ 二甲基萘的分离方法”为例详细说明识别中文文档中的化学名称片段的过程。通过将上述句子与化学名称片段字典进行匹配,从而获得了上述句子的如表I左侧第一栏所示的所有化学名称片段,同时在表I中记录了各个化学名称片段在该句子中的起始位置和结束位置,比如化学名称片段“二甲基”的起始位置为“0”,结束位置为“3”。由于这里的化学名称片段有大量的冗余,因此可以对表I中的化学名称片段进行缩减。缩减所述化学名称片段是按照以最少的化学名称片段数目匹配最多的化学名称片段的原则进行缩减的。例如“二甲基”(0,3)就包括了紧邻位置的“二甲”(0,2)、“甲基”(1,3),因此可以删除“二甲”(0,2)和“甲基”(1,3)而只保 留“二甲基”(0,3)。依次类推,最后得到了如表2所示的该句子不冲突的化学名称片段集合是{ “二甲基”(0,3),“2,6-”(13,17),“二甲基萘”(17,21)}。如此将可以大大减少后续进行化学名称片段的合并的时间和效率,并提高准确度。当然,缩减的步骤并非必需。表I 化学片段起始位置结束位置类型 二甲O2ΧΨ 二甲基 O3ΧΨ3χψ ~61416W¥本文档来自技高网...

【技术保护点】
一种用于在中文文档中识别化学名称的方法,包括:接收包括化学名称的中文文档;识别所述文档中的化学名称片段;识别所述文档中的非化学名称片段;以及基于所识别的化学名称片段和非化学名称片段,合并所述化学名称片段以得到所述化学名称。

【技术特征摘要】

【专利技术属性】
技术研发人员:吴贤张俐陈颖苏中
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1