针对药品的数据库更新方法、装置及电子装置制造方法及图纸

技术编号:22167029 阅读:36 留言:0更新日期:2019-09-21 10:38
本发明专利技术提供了一种针对药品的数据库更新方法、装置及电子装置,其中,该方法包括:在指定网站中爬取针对药品的网页中的文本信息,其中,指定网站为预先配置的垂直网站;从文本信息中抽取药品名称和药品属性;根据抽取结果,在药品图数据库中建立或更新对应药品的节点和属性;利用第一类正则表达式在文本信息中匹配是否存在与药品具有药物关系的其它药品,其中,第一类正则表达式是表示至少两种药品具有药物关系的文本模式;如果存在,在药品图数据库中,根据匹配结果建立药品的节点与其它药品的节点的关系边。通过本发明专利技术,解决了相关技术中采用关系型数据库不便于存储不同药品之间的关系的问题。

Database updating methods, devices and electronic devices for drugs

【技术实现步骤摘要】
针对药品的数据库更新方法、装置及电子装置
本专利技术涉及数据库领域,具体而言,涉及一种针对药品的数据库更新方法、装置及电子装置。
技术介绍
目前的医学药品的文本资料都以关系型数据库的形式进行存储,例如,采用SQL数据库,每种药品作为一个条目,每个药品条目包括药品的各项信息,例如,注册证号、药品名称、功效、剂型、药品类型、规格、生产单位、适应症、禁忌症等等。但是,关系型数据库仅能通过条目列表的形式来展示基于用户检索的关键词搜索到的药品,不便于存储不同药物之间的关系,从而导致展示检索结果的方式单一,不便于用户比对。针对相关技术中存在的上述问题,目前尚未发现有效的解决方案。
技术实现思路
本专利技术实施例提供了一种针对药品的数据库更新方法、装置及电子装置,以至少解决现有技术中采用关系型数据库不便于存储不同药品之间的关系的问题。根据本专利技术的一个实施例,提供了一种针对药品的数据库更新方法,该方法包括:在指定网站中爬取针对药品的网页中的文本信息,其中,指定网站为预先配置的垂直网站;从文本信息中抽取药品名称和药品属性;根据抽取结果,在药品图数据库中建立或更新对应药品的节点和属性;利用第一类正则表达式在文本信息中匹配是否存在与药品具有药物关系的其它药品,其中,第一类正则表达式是表示至少两种药品具有药物关系的文本模式;如果存在,在药品图数据库中,根据匹配结果建立药品的节点与其它药品的节点的关系边。进一步地,在指定网站中爬取针对药品的网页中的文本信息,包括:在网址对应的网页中提取图片;利用光学字符识别方法识别图片中的文字信息;从文本信息中抽取药品名称和药品属性,包括:在图片的文字信息中抽取药品命名实体名称,得到药品的名称;利用第二类正则表达式在图片的文字信息中匹配药品对应的属性信息。进一步地,在根据抽取结果,在药品图数据库中建立或更新对应药品的节点和属性之后,该方法还包括:获取收集的多个用户在指定网站中浏览多个网页的历史浏览行为;根据历史浏览行为,统计任意两种药品的相关程度;在药品图数据库中,对相关程度超过预设阈值的两种药品的节点之间建立对应的关系边。进一步地,利用第一类正则表达式在文本信息中匹配是否存在与药品具有药物关系的其它药品,包括:获取预先存储的多个第一类正则表达式,每个第一类正则表达式用于表示一种药物关系;利用多个第一类正则表达式在药品文本信息中进行匹配;在任一第一类正则表达式匹配成功的情况下,得到药品具有对应的第一类正则表达式所表示的药物关系,并得到与药品具有药物关系的其它药品的名称。进一步地,根据匹配结果建立药品的节点与其它药品的节点的关系边,包括:判断与药品具有药物关系的其它药品在药品图数据库中是否存在对应的节点;如果存在,获取药品和其它药品之间的关系边,并判断是否存在与药物关系对应的关系边;如果不存在,则根据药物关系建立药品与其它药品之间的关系边。进一步地,药品图数据库中的关系边为单向边,根据药物关系建立药品与其它药品之间的关系边,包括:建立药品指向其它药品的第一向关系边,并根据药物关系确定第一向关系边的名称;建立其它药品指向药品的第二向关系边,并根据药物关系确定第二向关系边的名称。进一步地,在指定网站中爬取针对药品的网页中的文本信息,包括:在指定网站中爬取符合预设规则的网址,其中,符合预设规则的网址的网页为针对药品的网页;利用符合预设规则的网页所对应的格式化模板,抽取网页中的字段以及每个字段对应的字段属性,得到网页中的文本信息。进一步地,从文本信息中抽取药品名称和药品属性,包括:在指定字段属性的文本信息中抽取药品命名实体名称,得到网页所针对的药品的名称;基于文本信息中的字段属性,确定药品的名称所对应的属性信息。根据本专利技术的另一个实施例,提供了一种针对药品的数据库更新装置,包括:爬取模块,用于在指定网站中爬取针对药品的网页中的文本信息,其中,指定网站为预先配置的垂直网站;抽取模块,用于从文本信息中抽取药品名称和药品属性;执行模块,用于根据抽取结果,在药品图数据库中建立或更新对应药品的节点和属性;匹配模块,用于利用第一类正则表达式在文本信息中匹配是否存在与药品具有药物关系的其它药品,其中,第一类正则表达式是表示至少两种药品具有药物关系的文本模式;建立模块,用于如果存在,在药品图数据库中,根据匹配结果建立药品的节点与其它药品的节点的关系边。进一步地,爬取模块还用于:在网址对应的网页中提取图片;利用光学字符识别方法识别图片中的文字信息;从文本信息中抽取药品名称和药品属性,包括:在图片的文字信息中抽取药品命名实体名称,得到药品的名称;利用第二类正则表达式在图片的文字信息中匹配药品对应的属性信息。进一步地,该装置还包括:获取模块,用于在根据抽取结果,在药品图数据库中建立或更新对应药品的节点和属性之后,获取收集的多个用户在指定网站中浏览多个网页的历史浏览行为;统计模块,用于根据历史浏览行为,统计任意两种药品的相关程度;建立模块还用于在药品图数据库中,对相关程度超过预设阈值的两种药品的节点之间建立对应的关系边。进一步地,匹配模块还用于:获取预先存储的多个第一类正则表达式,每个第一类正则表达式用于表示一种药物关系;利用多个第一类正则表达式在药品文本信息中进行匹配;在任一第一类正则表达式匹配成功的情况下,得到药品具有对应的第一类正则表达式所表示的药物关系,并得到与药品具有药物关系的其它药品的名称。进一步地,建立模块还用于:判断与药品具有药物关系的其它药品在药品图数据库中是否存在对应的节点;如果存在,获取药品和其它药品之间的关系边,并判断是否存在与药物关系对应的关系边;如果不存在,则根据药物关系建立药品与其它药品之间的关系边。进一步地,药品图数据库中的关系边为单向边,建立模块还用于:建立药品指向其它药品的第一向关系边,并根据药物关系确定第一向关系边的名称;建立其它药品指向药品的第二向关系边,并根据药物关系确定第二向关系边的名称。进一步地,爬取模块还用于:在指定网站中爬取符合预设规则的网址,其中,符合预设规则的网址的网页为针对药品的网页;利用符合预设规则的网页所对应的格式化模板,抽取网页中的字段以及每个字段对应的字段属性,得到网页中的文本信息。进一步地,抽取模块还用于:在指定字段属性的文本信息中抽取药品命名实体名称,得到网页所针对的药品的名称;基于文本信息中的字段属性,确定药品的名称所对应的属性信息。根据本专利技术的又一个实施例,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。根据本专利技术的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。通过本专利技术,通过在指定网站中爬取针对药品的网页中的文本信息,其中,指定网站为预先配置的垂直网站;从文本信息中抽取药品名称和药品属性;根据抽取结果,在药品图数据库中建立或更新对应药品的节点和属性;利用第一类正则表达式在文本信息中匹配是否存在与药品具有药物关系的其它药品,其中,第一类正则表达式是表示至少两种药品具有药物关系的文本模式;如果存在,在药品图数据库中,根据匹配结果建立药品的节点与其它药品的节点的关系边,解决现本文档来自技高网...

【技术保护点】
1.一种针对药品的数据库更新方法,其特征在于,所述方法包括:在指定网站中爬取针对药品的网页中的文本信息,其中,所述指定网站为预先配置的垂直网站;从所述文本信息中抽取药品名称和药品属性;根据抽取结果,在药品图数据库中建立或更新对应药品的节点和属性;利用第一类正则表达式在所述文本信息中匹配是否存在与所述药品具有药物关系的其它药品,其中,所述第一类正则表达式是表示至少两种药品具有药物关系的文本模式;如果存在,在所述药品图数据库中,根据匹配结果建立所述药品的节点与所述其它药品的节点的关系边。

【技术特征摘要】
1.一种针对药品的数据库更新方法,其特征在于,所述方法包括:在指定网站中爬取针对药品的网页中的文本信息,其中,所述指定网站为预先配置的垂直网站;从所述文本信息中抽取药品名称和药品属性;根据抽取结果,在药品图数据库中建立或更新对应药品的节点和属性;利用第一类正则表达式在所述文本信息中匹配是否存在与所述药品具有药物关系的其它药品,其中,所述第一类正则表达式是表示至少两种药品具有药物关系的文本模式;如果存在,在所述药品图数据库中,根据匹配结果建立所述药品的节点与所述其它药品的节点的关系边。2.根据权利要求1所述的方法,其特征在于,所述在指定网站中爬取针对药品的网页中的文本信息,包括:在所述网址对应的网页中提取图片;利用光学字符识别方法识别所述图片中的文字信息;所述从所述文本信息中抽取药品名称和药品属性,包括:在所述图片的文字信息中抽取药品命名实体名称,得到药品的名称;利用第二类正则表达式在所述图片的文字信息中匹配所述药品对应的属性信息。3.根据权利要求1所述的方法,其特征在于,在根据抽取结果,在药品图数据库中建立或更新对应药品的节点和属性之后,所述方法还包括:获取收集的多个用户在所述指定网站中浏览多个网页的历史浏览行为;根据所述历史浏览行为,统计任意两种药品的相关程度;在所述药品图数据库中,对所述相关程度超过所述预设阈值的两种药品的节点之间建立对应的关系边。4.根据权利要求1所述的方法,其特征在于,所述利用第一类正则表达式在所述文本信息中匹配是否存在与所述药品具有药物关系的其它药品,包括:获取预先存储的多个第一类正则表达式,每个所述第一类正则表达式用于表示一种所述药物关系;利用所述多个第一类正则表达式在所述药品文本信息中进行匹配;在任一所述第一类正则表达式匹配成功的情况下,得到所述药品具有对应的所述第一类正则表达式所表示的药物关系,并得到与所述药品具有所述药物关系的所述其它药品的名称。5.根据权利要求1所述的方法,其特征在于,所述根据匹配结果建立所述药品的节点与所述其它药品的节点的关系边,包括:判断与所述药品具有所述药物关系的其它药品在所述药品图数据...

【专利技术属性】
技术研发人员:吴壮伟
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1