用于在中文文档中识别化学名称的方法及系统技术方案

技术编号:8387129 阅读:222 留言:0更新日期:2013-03-07 07:48
本发明专利技术提供一种用于在中文文档中识别化学名称的方法及其系统。所述方法包括:接收包括化学名称的中文文档;识别所述文档中的化学名称片段;识别所述文档中的非化学名称片段;以及基于所识别的化学名称片段和非化学名称片段,合并所述化学名称片段以得到所述化学名称。本发明专利技术的具体实施方式可以有效地从化学文献中识别化学名称。

【技术实现步骤摘要】

本专利技术为一种2,6_ 二甲基萘的分离方法”为例详细说明识别中文文档中的化学名称片段的过程。通过将上述句子与化学名称片段字典进行匹配,从而获得了上述句子的如表I左侧第一栏所示的所有化学名称片段,同时在表I中记录了各个化学名称片段在该句子中的起始位置和结束位置,比如化学名称片段“二甲基”的起始位置为“0”,结束位置为“3”。由于这里的化学名称片段有大量的冗余,因此可以对表I中的化学名称片段进行缩减。缩减所述化学名称片段是按照以最少的化学名称片段数目匹配最多的化学名称片段的原则进行缩减的。例如“二甲基”(0,3)就包括了紧邻位置的“二甲”(0,2)、“甲基”(1,3),因此可以删除“二甲”(0,2)和“甲基”(1,3)而只保 留“二甲基”(0,3)。依次类推,最后得到了如表2所示的该句子不冲突的化学名称片段集合是{ “二甲基”(0,3),“2,6-”(13,17),“二甲基萘”(17,21)}。如此将可以大大减少后续进行化学名称片段的合并的时间和效率,并提高准确度。当然,缩减的步骤并非必需。表I 化学片段起始位置结束位置类型 二甲O2ΧΨ 二甲基 O3ΧΨ3χψ ~61416W¥2,6-13171517二甲1719ΧΨ二甲基 1720Χψ甲基1820Χψ 二甲基萘 1721Χψ甲基萘 1821Χψ表权利要求1.一种用于在中文文档中识别化学名称的方法,包括 接收包括化学名称的中文文档; 识别所述文档中的化学名称片段; 识别所述文档中的非化学名称片段;以及 基于所识别的化学名称片段和非化学名称片段,合并所述化学名称片段以得到所述化学名称。2.如权利要求I所述的方法,其中所述非化学名称片段在所述合并所述化学名称片段以得到所述化学名称中作为阻隔符。3.如权利要求I所述的方法,其中所述识别所述文档中的化学名称片段包括 对所述文档进行分句; 基于化学名称片段字典匹配所述文档的分句中出现的所有化学名称片段; 记录所述化学名称片段的位置信息;以及 缩减在同一分句中的所述化学名称片段。4.如权利要求I或3所述的方法,其中所述识别所述文档中的非化学名称片段包括 对所述文档进行分词; 检查每个分词是否在非化学名称片段字典中; 响应于所述分词在非化学名称片段字典中,确定所述分词为非化学名称片段;以及 记录所述非化学名称片段的位置信息。5.如权利要求3或4所述的方法,其中所述基于所识别的化学名称片段和非化学名称片段,合并所述化学名称片段以得到所述化学名称包括 根据所述化学名称片段的位置信息,确定在同一个句子中的相邻的化学名称片段;根据化学名称片段和非化学名称片段的位置信息,检查相邻的化学名称片段的中间是否存在非化学名称片段;以及, 响应于相邻的化学名称片段的中间不存在非化学名称片段,合并相邻的化学名称片段以得到所述化学名称。6.如权利要求I或5所述的方法,其中所述方法还包括 从所述化学名称片段的位置向两端进行扩展,直至遇到非化学名称片段为止,以获得所述化学名称。7.如权利要求3或4所述的方法,其中 所述位置信息包括所述化学名称片段和非化学名称片段中之一的在所述文档中的开始位置和结束位置。8.如权利要求3或4所述的方法,还包括以下步骤至少之一 从已有的中文化学名称生成化学名称片段字典;或者 基于非化学领域的中文文档收集出现频率较高的词形成非化学名称片段字典。9.如权利要求3所述的方法,其中所述缩减在同一分句中的所述化学名称片段按照以最少的化学名称片段数目匹配最多的化学名称片段的原则进行缩减。10.如权利要求8所述的方法,还包括 从已有的英文化学名称生成化学名称片段字典。11.一种用于在中文文档中识别化学名称的系统,包括接收装置,被配置为接收包括化学名称的中文文档; 第一识别装置,被配置为识别所述文档中的化学名称片段; 第二识别装置,被配置为识别所述文档中的非化学名称片段;以及合并装置,被配置为基于所识别的化学名称片段和非化学名称片段,合并所述化学名称片段以得到所述化学名称。12.如权利要求11所述的系统,其中所述非化学名称片段在合并所述化学名称片段以得到所述化学名称中作为阻隔符。13.如权利要求11所述的系统,其中所述第一识别装置包括 分句装置,被配置为对所述文档进行分句; 匹配装置,被配置为基于化学名称片段字典匹配所述文档的分句中出现的所有化学名称片段; 第一记录装置,被配置为记录所述化学名称片段的位置信息;以及 缩减装置,被配置为缩减在同一分句中的所述化学名称片段。14.如权利要求11或13所述的系统,其中所述第二识别装置包括 分词装置,被配置为对所述文档进行分词; 第一检查装置,被配置为检查每个分词是否在非化学名称片段字典中; 第一确定装置,被配置为响应于所述分词在非化学名称片段字典中,确定所述分词为非化学名称片段;以及 第二记录装置,被配置为记录所述非化学名称片段的位置信息。15.如权利要求11或13所述的系统,其中所述合并装置包括 第二确定装置,被配置为根据所述化学名称片段的位置信息,确定在同一个句子中的相邻的化学名称片段; 第二检查装置,被配置为根据化学名称片段和非化学名称片段的位置信息,检查相邻的化学名称片段的中间是否存在非化学名称片段;以及, 合并执行装置,被配置为响应于相邻的化学名称片段的中间不存在非化学名称片段,合并相邻的化学名称片段以获取所述化学名称。16.如权利要求11或15所述的系统,其中所述系统还包括 扩展装置,被配置为从所述化学名称片段的位置向两端进行扩展,直至遇到非化学名称片段为止,以获得所述化学名称。17.如权利要求13或14所述的系统,其中 所述位置信息包括所述化学名称片段和非化学名称片段中之一的在文档中的开始位置和结束位置。18.如权利要求13或14所述的系统,还包括以下装置至少之一 化学名称片段字典生成装置,被配置为从已有的中文化学名称生成化学名称片段字典;或者 非化学名称片段字典生成装置,被配置为基于非化学领域的中文文档收集出现频率较高的词形成非化学名称片段字典。19.如权利要求13所述的系统,其中所述缩减在同一分句中的所述化学名称片段按照以最少的化学名称片段数目匹配最多的化学名称片段的原则进行缩减。20.如权利要求18所述的系统,所述化学名称片段字典生成装置能够从已有的英文化 学名称生成化学名称片段字典。全文摘要本专利技术提供一种用于在中文文档中识别化学名称的方法及其系统。所述方法包括接收包括化学名称的中文文档;识别所述文档中的化学名称片段;识别所述文档中的非化学名称片段;以及基于所识别的化学名称片段和非化学名称片段,合并所述化学名称片段以得到所述化学名称。本专利技术的具体实施方式可以有效地从化学文献中识别化学名称。文档编号G06F17/27GK102955773SQ20111025475公开日2013年3月6日 申请日期2011年8月31日 优先权日2011年8月31日专利技术者吴贤, 张俐, 陈颖, 苏中 申请人:国际商业机器公司本文档来自技高网...

【技术保护点】
一种用于在中文文档中识别化学名称的方法,包括:接收包括化学名称的中文文档;识别所述文档中的化学名称片段;识别所述文档中的非化学名称片段;以及基于所识别的化学名称片段和非化学名称片段,合并所述化学名称片段以得到所述化学名称。

【技术特征摘要】

【专利技术属性】
技术研发人员:吴贤张俐陈颖苏中
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1