一种医疗认知智能科研平台的知识提取方法技术

技术编号:34895447 阅读:47 留言:0更新日期:2022-09-10 13:55
本发明专利技术公开了一种医疗认知智能科研平台的知识提取方法,涉及滚塑技术领域,包括以下步骤S1、数据源获取;S2、数据源采掘;S3、数据清洗;S4、知识图谱构建;S5、知识存储和人工纠错。该医疗认知智能科研平台的知识提取方法,采用分布式爬虫框架Scrapy抓取超过10个网页获取数据,使得数据具有广泛性与全面性并针对获取的数据进行采掘融合,并在融合的数据不限定文本,同时融合的还有图片与视频数据,保证了数据的全面性同时也方便了查阅人员的直观查看,并利用NoSQL构建知识图谱使得方便使用者查询,并利用数据清洗将数据中重复性数据与无效性数据剔除,使得能够减小数据的占用空间保证知识数据的精炼性的同时也方便了后期对知识数据的维护。数据的维护。

【技术实现步骤摘要】
一种医疗认知智能科研平台的知识提取方法


[0001]本专利技术涉及医疗认知智能科研平台
,具体为一种医疗认知智能科研平台的知识提取方法。

技术介绍

[0002]智能医疗是通过打造健康档案区域医疗信息平台,利用最先进的物联网技术,实现患者与医务人员、医疗机构、医疗设备之间的互动,逐步达到信息化,由于线下医疗资源紧缺,人们越来越倾向于在互联网上寻找健康知识,采用医疗数据构建知识图谱,使用知识图谱能够以疾病为中心,显示疾病与其他医学信息(如症状和药物)之间的关系,并且它们通常具有查询、问答功能,用户可以通过输入关键字,从知识图谱中获取自己想要的医疗信息。
[0003]现有的知识提取方法方法常常不够全面,导致对疾病特征的描述不够清晰导致影响患者的判断,同时不能够实时补充信息,单靠算法抓取信息不够全面,为此,我们提出一种医疗认知智能科研平台的知识提取方法。

技术实现思路

[0004]针对现有技术的不足,本专利技术提供了一种医疗认知智能科研平台的知识提取方法,解决了上述
技术介绍
中提出的问题。
[0005]为实现以上目的,本专利技术通过以下技术方案予以实现、一种医疗认知智能科研平台的知识提取方法,包括以下步骤:
[0006]S1、数据源获取
[0007]利用万维网获取原始的知识数据源,为了保证数据源的可靠性,采取多抓取式,在网站获取疾病、症状和手术等信息;
[0008]S2、数据源采掘
[0009]对S1中获取的数据进行采掘提取,从三个方向对获取的数据进行分类、存储和剔除,随后对处理的知识数据进行融合,降低知识数据中的重复性数据与无效数据并对重复性数据与无效数据进行标注;
[0010]S3、数据清洗
[0011]将S2中融合的知识数据中受标注的数据进行清洗,减小数据的占用空间保证知识数据的精炼性的同时也方便了后期对知识数据的维护;
[0012]S4、知识图谱构建
[0013]将清洗后的融合数据基于NoSQL数据库来构建知识图谱,该知识图谱从实体定义、属性定义和关系定义对数据分支构建;
[0014]S5、知识存储与人工纠错
[0015]随后将知识数据进行数据保存,并对标准化的知识数据源使进行预标注,然后由人工对知识数据源进行纠错与补标。
[0016]进一步的,所述在S1数据源获取过程中采用的分布式爬虫框架Scrapy获取数据。
[0017]进一步的,所述在S2数据源采掘过程中数据分类的三个方向为结构化数据。半结构化数据和非结构化数据。
[0018]进一步的,所述在S2数据源采掘过程中对知识数据进行整和管理和保护,同时数据的融合包括图形、视频与文本的自由融合。
[0019]进一步的,所述在S4知识图谱构建过程中NoSQL数据库具有查询性能高、应用方便、开发敏捷等优点。
[0020]进一步的,所述在S5知识存储与人工纠错过程中采用预训练模型进行预标注。
[0021]本专利技术提供了一种医疗认知智能科研平台的知识提取方法,具备以下有益效果:该医疗认知智能科研平台的知识提取方法采用分布式爬虫框架Scrapy抓取超过10个网页获取数据,使得数据具有广泛性与全面性并针对获取的数据进行采掘融合,并在融合的数据不限定文本,同时融合的还有图片与视频数据,保证了数据的全面性同时也方便了查阅人员的直观查看,并利用NoSQL构建知识图谱使得方便使用者查询,并利用数据清洗将数据中重复性数据与无效性数据剔除,使得能够减小数据的占用空间保证知识数据的精炼性的同时也方便了后期对知识数据的维护,并在最后的知识存储中加用预训练模型对储存的数据进行预标注,然后进行人工纠错与补标,人工纠错和补标的结果用于进行不优化预训练模型的持续迭代,保持数据的实时维护与更新。
具体实施方式
[0022]一种医疗认知智能科研平台的知识提取方法,包括以下步骤:
[0023]S1、数据源获取
[0024]利用万维网获取原始的知识数据源,为了保证数据源的可靠性,采用分布式爬虫框架Scrapy抓取超过10个网页获取数据,使得数据具有广泛性与全面性,在网站获取疾病、症状和手术等信息;
[0025]S2、数据源采掘
[0026]对S1中获取的数据进行采掘提取,从结构化数据、半结构化数据和非结构化数据三个方向对获取的数据进行分类、存储和剔除,降低知识数据中的重复性数据与无效数据并对重复性数据与无效数据进行标注,随后对处理的知识数据进行融合并且融合的数据不限定文本,同时融合的还有图片与视频数据,保证了数据的全面性同时也方便了查阅人员的直观查看;
[0027]S3、数据清洗
[0028]将S2中融合的知识数据中受标注的数据进行清洗,减小数据的占用空间保证知识数据的精炼性的同时也方便了后期对知识数据的维护;
[0029]S4、知识图谱构建
[0030]将清洗后的融合数据基于NoSQL数据库来构建知识图谱,该知识图谱从实体定义、属性定义和关系定义对数据分支构建,利用NoSQL构建知识图谱使得方便使用者查询;
[0031]S5、知识存储与人工纠错
[0032]随后将知识数据进行数据保存,并对标准化的知识数据源使进行预标注,然后由人工对知识数据源进行纠错与补标,采用预训练模型对储存的数据进行预标注,在进行人
工纠错与补标,人工纠错和补标的结果用于进行不优化预训练模型的持续迭代,保持数据的实时维护与更新。
[0033]综上所述,该医疗认知智能科研平台的知识提取方法,使用时医疗认知智能科研平台的知识提取方法包括以下具体步骤:
[0034]S1、数据源获取:利用万维网获取原始的知识数据源,为了保证数据源的可靠性,采用分布式爬虫框架Scrapy抓取超过10个网页获取数据,使得数据具有广泛性与全面性,在网站获取疾病、症状和手术等信息;
[0035]S2、数据源采掘:对S1中获取的数据进行采掘提取,从结构化数据、半结构化数据和非结构化数据三个方向对获取的数据进行分类、存储和剔除,降低知识数据中的重复性数据与无效数据并对重复性数据与无效数据进行标注,随后对处理的知识数据进行融合并且融合的数据不限定文本,同时融合的还有图片与视频数据,保证了数据的全面性同时也方便了查阅人员的直观查看;
[0036]S3、数据清洗:将S2中融合的知识数据中受标注的数据进行清洗,减小数据的占用空间保证知识数据的精炼性的同时也方便了后期对知识数据的维护;
[0037]S4、知识图谱构建:将清洗后的融合数据基于NoSQL数据库来构建知识图谱,该知识图谱从实体定义、属性定义和关系定义对数据分支构建,利用NoSQL构建知识图谱使得方便使用者查询;
[0038]S5、知识存储与人工纠错:随后将知识数据进行数据保存,并对标准化的知识数据源使进行预标注,然后由人工对知识数据源进行纠错与补标,采用预训练模型对储存的数据进行预标注,在进行人工纠错与补标,人工纠错和补标的结果用于进行不优化预训练模型的持续本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种医疗认知智能科研平台的知识提取方法,其特征在于,包括以下步骤:S1、数据源获取利用万维网获取原始的知识数据源,为了保证数据源的可靠性,采取多抓取式,在网站获取疾病、症状和手术等信息;S2、数据源采掘对S1中获取的数据进行采掘提取,从三个方向对获取的数据进行分类、存储和剔除,随后对处理的知识数据进行融合,降低知识数据中的重复性数据与无效数据并对重复性数据与无效数据进行标注;S3、数据清洗将S2中融合的知识数据中受标注的数据进行清洗,减小数据的占用空间保证知识数据的精炼性的同时也方便了后期对知识数据的维护;S4、知识图谱构建将清洗后的融合数据基于NoSQL数据库来构建知识图谱,该知识图谱从实体定义、属性定义和关系定义对数据分支构建;S5、知识存储与人工纠错随后将知识数据进行数据保存,并对标准化的知识数据源使进行预标注,然后由人工对知识数据源进行纠错与补标。2.根据权利...

【专利技术属性】
技术研发人员:向飞秦航宇曾欢贺涛葛坤张金毅
申请(专利权)人:四川数愈医疗科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1