一种传统药物专利文献的信息提取方法、系统和装置制造方法及图纸

技术编号:4202906 阅读:309 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种传统药物专利文献的信息提取方法、系统和装置,所述方法包括:建立分类标引关键词库,根据分类标引关键词库中标引关键词对待标引的传统药物专利文献进行标引,提取传统药物专利文献中包含的传统药物名称信息、方剂信息、治疗作用信息、制备方法信息、药物制剂信息等传统药物相关信息,并判断提取的传统药物相关信息是否有效,当判断结果为是时,将传统药物名称信息、方剂信息、治疗作用信息、制备方法信息、药物制剂信息等传统药物相关信息与传统药物专利文献相关联,并存储在相应的传统药物标引数据库中。通过使用本发明专利技术,实现了对传统药物专利文献的标引与信息提取。本发明专利技术同时公开了一种应用上述方法的装置。

【技术实现步骤摘要】

本专利技术涉及信息检索领域,尤其涉及一种传统药物专利文献的信息提取方法、系统和装置
技术介绍
目前,自动标引的研究主要集中在图书情报学、语言学和人工智能等领域。自动标 引的发展主要表现为理论性研究,没有规定其标引的应用领域,由于不同应用领域中对待 标引文档的标引特殊性,常规的标引往往不能将其中的特殊消息标引出来,限制了自动标 引在实际需要中的应用。 利用自动标引对专利文献资料进行标引的应用很少,且不同领域的专利文献都有 其特殊性,对不同领域的专利文献进行标引需要建立特定的知识库,以提高自动标引的准 确性和可靠性。在传统药物专利文献的标引过程中,由于传统药物专利文献中包含不同类 型的相关信息,例如传统药物的名称信息、方剂信息、治疗作用信息、制备方法信息和药物 制剂信息等,要实现对各相关信息的标引需要建立相应的标引知识库。且在传统药物的标 引过程中,很多药物的组方都是由几十味药物组成,如果只抽取其中部分关键词就会造成 药物信息的漏标。另外,在传统药物的领域,一个重要的信息就是中药的方剂信息,按照一 般的自动标引方法,只考虑将药物标引词正确地抽取出来,而不考虑抽取专利文献中出现 的方剂的剂量信息。在现有技术方案中,没有对传统药物专利文献中的传统药物相关信息 进行标引与提取,特别是关于传统药物专利文献中传统药物名称信息、方剂信息、治疗作用 信息、制备方法信息、药物制剂信息等传统药物相关信息的标引与信息提取。
技术实现思路
本专利技术实施例提供了一种传统药物专利文献的信息提取方法、系统和装置,实现 了对传统药物专利文献的传统药物名称信息、方剂信息、治疗作用信息、制备方法信息、药 物制剂信息等传统药物相关信息的标引和信息提取,并将提取的传统药物相关信息与传统 药物专利文献相关联,以便于对传统药物相关信息的检索。 本专利技术提供了一种传统药物专利文献的信息提取方法,所述方法包括如下步骤 建立分类标引关键词库,所述分类标引关键词库包括传统药物词库、方剂信息提 取词库、治疗作用词库和传统药物通用词库; 根据所述分类标引关键词库中标引关键词对待标引的传统药物专利文献进行标 引; 提取所述传统药物专利文献中包含的传统药物名称信息、方剂信息、治疗作用信 息、制备方法信息、药物制剂信息等传统药物相关信息,并判断提取的所述传统药物相关信 息是否有效; 当判断结果为是时,将所述传统药物名称信息、方剂信息、治疗作用信息、制备方 法信息、药物制剂信息等传统药物相关信息与所述传统药物专利文献相关联,并存储在相应的传统药物标引数据库中; 当判断结果为否时,对所述分类标引关键词库中标引关键词进行增添、修改、替换 或删除,更新所述分类标弓I关键词库。 优选的,根据所述分类标引关键词库中标引关键词对待标引的传统药物专利文献 进行标引,包括 根据传统药物词库对所述传统药物专利文献中的传统药物名称进行标引;根据方 剂信息提取词库对所述传统药物专利文献中的传统药物方剂信息进行标引;根据治疗作用 词库对所述传统药物专利文献中的传统药物治疗作用信息进行标引;根据传统药物通用词 库对所述传统药物专利文献中的传统药物制备方法、药物制剂等其他信息进行标引。 优选的,根据所述分类标引关键词库中标引关键词对待标引的传统药物专利文献 进行标引,之前还包括 对待标引的所述传统药物专利文献进行预处理,所述预处理包括 对待标引的所述传统药物专利文献进行格式转换处理、对待标引的所述传统药物专利文献进行分词处理、对待标引的所述传统药物专利文献进行串频统计。 优选的,对待标引的所述传统药物专利文献进行串频统计,包括 统计所述传统药物专利文献中字符串出现的频率,并判断所述字符串的出现频率是否高于预设的阈值,当判断结果为是时,对所述字符串进行标识。 优选的,提取所述传统药物专利文献中包含的传统药物名称信息、方剂信息、治疗 作用信息、制备方法信息、药物制剂信息等传统药物相关信息,并判断提取的所述传统药物 相关信息是否有效,包括 在所述传统药物专利文献的标引结果中提取所述传统药物专利文献中包含的传 统药物名称信息、方剂信息、治疗作用信息、制备方法信息、药物制剂信息等传统药物相关 信息,并判断提取的所述传统药物相关信息是否有效; 在所述传统药物专利文献的串频统计结果中提取经过标识后的所述字符串,并判 断提取的所述字符串是否有效。优选的,判断提取的所述字符串是否有效,之后还包括 当判断结果为是时,判断所述字符串属于传统药物名称信息、方剂信息、治疗作用 信息、制备方法信息、药物制剂信息等传统药物相关信息中的一种信息,并与所述传统药物 专利文献相关联,存储在相应的传统药物标引数据库中,将所述字符串添加到相应的所述 分类标引关键词库中。 优选的,将所述传统药物名称信息、方剂信息、治疗作用信息、制备方法信息和药物制剂信息等传统药物相关信息与所述传统药物专利文献相关联,包括 将所述传统药物名称信息、方剂信息、治疗作用信息、制备方法信息和药物制剂信息等传统药物相关信息与所述传统药物专利文献的申请号和/或申请日相关联。本专利技术提供了一种传统药物专利文献信息提取系统,包括 分类标引关键词库,用于存储传统药物标引关键词,包括传统药物词库、方剂信息 提取词库、治疗作用词库和传统药物通用词库; 服务器,用于建立分类标引关键词库,所述分类标引关键词库包括传统药物词库、 方剂信息提取词库、治疗作用词库和传统药物通用词库,根据所述分类标引关键词库中标6引关键词对待标引的传统药物专利文献进行标引,提取所述传统药物专利文献中包含的传 统药物名称信息、方剂信息、治疗作用信息、制备方法信息、药物制剂信息等传统药物相关 信息,并判断提取的所述传统药物相关信息是否有效,当判断结果为是时,将所述传统药物 名称信息、方剂信息、治疗作用信息、制备方法信息、药物制剂信息等传统药物相关信息与 所述传统药物专利文献相关联,并存储在传统药物标引数据库中,当判断结果为否时,对所 述分类标引关键词库中标引关键词进行增添、修改、替换或删除,更新所述分类标引关键词 库; 传统药物标引数据库,用于存储与所述传统药物专利文献相关联的所述传统药物 名称信息、方剂信息、治疗作用信息、制备方法信息、药物制剂信息等传统药物相关信息。 优选的,所述分类标引关键词库,具体用于 根据传统药物词库对所述传统药物专利文献中的传统药物名称进行标引;根据方 剂信息提取词库对所述传统药物专利文献中的传统药物方剂信息进行标引;根据治疗作用 词库对所述传统药物专利文献中的传统药物治疗作用信息进行标引;根据传统药物通用词 库对所述传统药物专利文献中的传统药物制备方法、药物制剂等其他信息进行标引。 本专利技术提供了一种服务器,包括 词库创建模块,用于建立分类标引关键词库,所述分类标引关键词库包括传统药 物词库、方剂信息提取词库、治疗作用词库和传统药物通用词库; 标引模块,根据所述分类标引关键词库中标引关键词对待标引的传统药物专利文 献进行标引; 提取模块,用于提取所述传统药物专利文献中包含的传统药物名称信息、方剂信 息、治疗作用信息、制备方法信息、药物制剂信息等传统药物相关信息,并判断提取的所述 传统药物相关信息是否有效; 关联模块,当判断结果为是时,将所述传统药物名称信息、方本文档来自技高网...

【技术保护点】
一种传统药物专利文献信息提取的方法,其特征在于,所述方法包括如下步骤:    建立分类标引关键词库,所述分类标引关键词库包括传统药物词库、方剂信息提取词库、治疗作用词库和传统药物通用词库;    根据所述分类标引关键词库中标引关键词对待标引的传统药物专利文献进行标引;    提取所述传统药物专利文献中包含的传统药物名称信息、方剂信息、治疗作用信息、制备方法信息、药物制剂信息等传统药物相关信息,并判断提取的所述传统药物相关信息是否有效;    当判断结果为是时,将所述传统药物名称信息、方剂信息、治疗作用信息、制备方法信息、药物制剂信息等传统药物相关信息与所述传统药物专利文献相关联,并存储在相应的传统药物标引数据库中;    当判断结果为否时,对所述分类标引关键词库中标引关键词进行增添、修改、替换或删除,更新所述分类标引关键词库。

【技术特征摘要】
一种传统药物专利文献信息提取的方法,其特征在于,所述方法包括如下步骤建立分类标引关键词库,所述分类标引关键词库包括传统药物词库、方剂信息提取词库、治疗作用词库和传统药物通用词库;根据所述分类标引关键词库中标引关键词对待标引的传统药物专利文献进行标引;提取所述传统药物专利文献中包含的传统药物名称信息、方剂信息、治疗作用信息、制备方法信息、药物制剂信息等传统药物相关信息,并判断提取的所述传统药物相关信息是否有效;当判断结果为是时,将所述传统药物名称信息、方剂信息、治疗作用信息、制备方法信息、药物制剂信息等传统药物相关信息与所述传统药物专利文献相关联,并存储在相应的传统药物标引数据库中;当判断结果为否时,对所述分类标引关键词库中标引关键词进行增添、修改、替换或删除,更新所述分类标引关键词库。2. 如权利要求1所述的方法,其特征在于,根据所述分类标引关键词库中标引关键词 对待标引的传统药物专利文献进行标引,包括根据传统药物词库对所述传统药物专利文献中的传统药物名称进行标引;根据方剂信 息提取词库对所述传统药物专利文献中的传统药物方剂信息进行标引;根据治疗作用词库 对所述传统药物专利文献中的传统药物治疗作用信息进行标引;根据传统药物通用词库对 所述传统药物专利文献中的传统药物制备方法、药物制剂等其他信息进行标引。3. 如权利要求2所述的方法,其特征在于,根据所述分类标引关键词库中标引关键词 对待标弓I的传统药物专利文献进行标弓I ,之前还包括对待标引的所述传统药物专利文献进行预处理,所述预处理包括对待标引的所述传统药物专利文献进行格式转换处理、对待标引的所述传统药物专利 文献进行分词处理、对待标引的所述传统药物专利文献进行串频统计。4. 如权利要求3所述的方法,其特征在于,对待标引的所述传统药物专利文献进行串 频统计,包括统计所述传统药物专利文献中字符串出现的频率,并判断所述字符串的出现频率是否 高于预设的阈值,当判断结果为是时,对所述字符串进行标识。5. 如权利要求1所述的方法,其特征在于,提取所述传统药物专利文献中包含的传统 药物名称信息、方剂信息、治疗作用信息、制备方法信息、药物制剂信息等传统药物相关信 息,并判断提取的所述传统药物相关信息是否有效,包括在所述传统药物专利文献的标引结果中提取所述传统药物专利文献中包含的传统药 物名称信息、方剂信息、治疗作用信息、制备方法信息、药物制剂信息等传统药物相关信息, 并判断提取的所述传统药物相关信息是否有效;在所述传统药物专利文献的串频统计结果中提取经过标识后的所述字符串,并判断提 取的所述字符串是否有效。6. 如权利要求5所述的方法,其特征在于,判断提取的所述字符串是否有效,之后还包括当判断结果为是时,判断所述字符串属于传统药物名称信息、方剂信息、治疗作用信 息、制备方法信息、药物制剂信息等传统药物相关信息中的一种信息,并与所述传统药物专利文献相关联,存储在相应的传统药物标引数据库中,将所述字符串添加到相应的所述分 类标引关键词库中。7. 如权利要求1所述的方法,其特征在于,将所述传统药物名称信息、方剂信息、治疗 作用信息、制备方法信息和药物制剂信息等传统药物相关信息与所述传统药物专利文献相 关联,包括将所述传统药物名称信息、方剂信息、治疗作用信息、制备方法信息和药物制剂信息等 传统药物相关信息与所述传统药物专利文献的申请号和/或申请日相关联。8. —种传统药物专利文献信息提取系统,其特征在于,包括分类标引关键词库,用于存储传统药物标引关键词,包括传统药物词库、方剂信息提取 词库、治疗作用词库和传统药物通用词库;服务器,用于建立分类标引关键词库,所述分类标引关键词库包括传统药物词库、方剂 信息提取词库、治疗作用词库和传统药物通用词库,根据所述分类标引关键词库中标引关 键词对待标引的传统药物专利文献进行标引,提取所述传统药物专利文献中包含的传统药 物名称信息、方剂信息、治疗作用信息、制备方法信息、药物制剂信息等传统药物相关信息, 并判断提取的所述传统...

【专利技术属性】
技术研发人员:李素建刘晓波张晶
申请(专利权)人:北京东方灵盾科技有限公司北京大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1