基于人工智能的罕见病辅助分析方法、装置及存储介质制造方法及图纸

技术编号:26691872 阅读:25 留言:0更新日期:2020-12-12 02:44
本发明专利技术公开了基于人工智能的罕见病辅助分析方法,包括以下步骤:获取日志源中的罕见病人行为日志;提取罕见病人行为日志中的罕见病人的相关特征;将罕见病人的相关特征与罕见病人特征库中的罕见病人特征向量进行相似度比较,选择相似度最高的罕见病人特征向量作为罕见病人的特征向量;根据罕见病人的特征向量推送对应的治疗方案至所述罕见病人;对罕见病人的特征向量进行聚类分析,根据所述聚类分析的结果将所述罕见病人的特征向量加入群体特征库的对应位置。本发明专利技术能够对群体特征库进行完善,并建立罕见病知识数据库,能够对用户的行为进行分析并根据分析结果为用户推送相应的治疗方案,解决了罕见病患者多元异构数据存储及自动分析的问题。

【技术实现步骤摘要】
基于人工智能的罕见病辅助分析方法、装置及存储介质
本公开涉及计算机视觉
,具体涉及基于人工智能的罕见病辅助分析方法、装置及存储介质。
技术介绍
(1)罕见病患者基因测序诊断的研究进展从2000年6月26日,人类第一个基因组测序完成,到第一次以基因测序为基础查找病因实施治疗,并治愈出院花了10年的时间。基因测序技术的发展使之具备了罕见疾病诊断的能力。2010年12月,住在威斯康星州密尔沃基市的五岁男孩尼古拉斯.沃尔克已经承受了百余次手术,但是病情未见好转反而有恶化的趋势。医生认为用常规的手段已经无法确认这一罕见疾病的病因,提出要用基因测序的方法来进行疾病诊断。当他的DNA测序完成后,医生发现了基因突变的病因,并用这一发现实施正确的治疗,现在尼古拉斯已经康复。这是医学领域中关于人类基因组拯救生命的第一个案例。这也是用基因测序确定病因治疗罕见病患者的第一个案例。现在威斯康星医院就如常规检查一样每天都为几十个孩子进行基因组检测。其他对罕见病的基因检测诊断的病例包括:2011年,对患有罕见病的运动障碍的十余岁异卵双生的患者进行全基因组测序发现这对夫妇健康的孪生患者的致病突变是“复合杂合子”,突变位于相同基因座上有两个等位突变的基因,分别来自其父母,结合在一起导致运动障碍。这可以解释为什么在前几代没有出现过的疾病,在接下来的测序中确肯定能共同发现。在犹他州的奥格登,有个家庭的两代人中有五个孩子,死于莫名其妙的加速衰老的疾病。通过对这个家庭进行基因组测序,准确地描述出基因突变位于X染色体76。对于这个家庭,借助体外受精选择不携带突变基因的胚胎可以有效预防现在称为奥格登综合症的罕见病。基因测序成为了罕见病确诊的必要手段。(2)大数据平台在疾病研究中的应用现阶段生物医学大数据的快速产生主要基于高通量技术和医院信息化的迅速发展。以高通量测序技术为例,2001年第一个人类基因组图谱花费近30亿美元,而如今用二代测序技术完成一个人基因组测序费用约1000美元。呈几何指数增长的生物医学大数据正引领生命科学从某种程度上成为信息科学。对这些数据创新性的管理和应用将为生命科学带来一次新的革命。互联网公司早面临海量数据的存储分析问题。在2003年谷歌公司发布了GoogleFileSystem用来存储大文件,使得存储服务器搭建的分布式存储成为现在互联网公司最流行的底层硬件架构。随后的2004年该公司发布了MapReduce的计算框架,并于2006年发布了Bigtable这一NoSQL数据库。在大数据基本框架发表3年后的2009年有研究报道用大数据技术存储及分析组学数据。有个别研究尝试用大数据技术处理医学数据。归纳起来大数据技术在疾病研究中的应用主要体现在以下几个方面:1、开展组学及不同组学之间的关联研究;2、实时开展健康管理;3、快速识别生物标志物和研发药物;4、了解人类疾病谱的变化;5、实时开展卫生监测和公共卫生监测。(3)罕见病大数据平台发展现状目前罕见病数据平台大致分为5类,包括数据库检索平台、医患协作平台、社交网络平台、基因检测平台和咨询问诊平台。他们建设的目的相同都是希望能够利用互联网加速罕见病的科研临床进展。例如由法国INSERN和欧盟建立的全球最大的罕见病数据库Orphanet,提供包括症状搜索、疾病描述、诊断、罕见病药物、专家信息、临床研究等信息。罕见病搜索引擎FindZebra,其创建初衷就是为罕见病领域的临床医生及研究者提供诸如症状搜索及筛选、查看基因等功能。医患协作工具CrowdMed,该平台算法会对群体预测加以整合,把最有可能的诊断结果告知病人。患者由此能够尽快获得正确的诊断,避免了辗转就医的困扰。23andMe提供个人基因组检测服务。PatientsLikeMe是一个罕见病患者社交网络,患者在填写病史等资料后,平台会根据病情做出详细的数据分析图,在数据库之外,患者还可以找到与自己病情类似的成员,进行点对点的交流。这些平台为罕见病的科研临床提供了非常重要的资源。在功能方面上,目前为止还没有平台有效结合线上线下资源为罕见病人提供查询、筛查、诊断及治疗的一站式医学服务(onestopsolution)。从平台搭建技术方面,这些平台还是基于传统的RDBMS存储数据。而不是大数据技术计算框架MapReduce,对今后越来越多的基因组数据的融合与分析的扩展性会相对局限。综上目前的罕见病相关系统具备如下问题:(1)罕见疾病的研究需要临床、遗传、基础研究人员及测序平台与信息分析平台的密切结合,我国尚未有类似美国霍普金斯-贝勒罕见病中心等整合多方资源的一站式医疗中心;(2)各个医院的样本库及医院信息系统缺乏共享机制,存在多个“资源与信息孤岛”,数据应用规模较小导致数据价值挖掘不足;(3)由于没有统一的样本资源和信息平台,导致与国际的合作和数据共享的资源贫乏,没有足够样本和信息进行有效研究;(4)样本收集标准、基因测序标准及数据分析标准规范化尚未完善,并不能够以直接合并资源方式来达到整合应用;(5)缺乏一个网络平台整合国家医疗和信息资源,虽然国内已有部分科研机构和公司在一定范围内开展遗传信息分析服务,由于商业公司分析存在知识产权流失的问题,无法满足科研单位的巨大的分析需求。这些因素均限制了我国罕见病的医学实践以及相关科学研究的开展。
技术实现思路
本公开旨在至少解决上述问题之一,提供基于人工智能的罕见病辅助分析方法、装置及存储介质。为了实现上述目的,根据本公开的一方面,提供基于人工智能的罕见病辅助分析方法,所述方法包括以下步骤:获取日志源中的罕见病人行为日志;提取所述罕见病人行为日志中的罕见病人的相关特征;将罕见病人的所述相关特征与罕见病人特征库中的罕见病人特征向量进行相似度比较,选择相似度最高的罕见病人特征向量作为所述罕见病人的特征向量;根据所述罕见病人的特征向量推送对应的治疗方案至所述罕见病人;对所述罕见病人的特征向量进行聚类分析,根据所述聚类分析的结果将所述罕见病人的特征向量加入群体特征库的对应位置。进一步,上述获取日志源中的罕见病人行为日志具体包括以下,建立日志格式规范;获取罕见病人的访问记录,记录罕见病人的所有操作,并通过Flume将所述访问记录按照所述日志格式规范保存至日志中进而形成日志源数据库;根据罕见病人的身份信息获取所述日志源中的罕见病人行为日志。进一步,上述提取所述罕见病人行为日志中的罕见病人的相关特征包括以下,通过MapReduce的编程模型实现,具体的,提取罕见病人对所述罕见病人行为日志中的各个内容的操作进行加权;构建疾病特征词库,根据加权结果计算罕见病人与所述疾病特征词库对应的所有特征词,并选取最为接近的前N个特征词作为所述罕见病人的特征词,即罕见病人的相关特征。进一步,所述MapReduce的编程模型计算罕见病人的疾病特征具体包括以下,计算疾病特征之间的相似度,具体的,建立罕见病人-疾病特征倒排表,所述罕见病人-本文档来自技高网
...

【技术保护点】
1.基于人工智能的罕见病辅助分析方法,其特征在于,所述方法包括以下步骤:/n获取日志源中的罕见病人行为日志;/n提取所述罕见病人行为日志中的罕见病人的相关特征;/n将罕见病人的所述相关特征与罕见病人特征库中的罕见病人特征向量进行相似度比较,选择相似度最高的罕见病人特征向量作为所述罕见病人的特征向量;/n根据所述罕见病人的特征向量推送对应的治疗方案至所述罕见病人;/n对所述罕见病人的特征向量进行聚类分析,根据所述聚类分析的结果将所述罕见病人的特征向量加入群体特征库的对应位置。/n

【技术特征摘要】
1.基于人工智能的罕见病辅助分析方法,其特征在于,所述方法包括以下步骤:
获取日志源中的罕见病人行为日志;
提取所述罕见病人行为日志中的罕见病人的相关特征;
将罕见病人的所述相关特征与罕见病人特征库中的罕见病人特征向量进行相似度比较,选择相似度最高的罕见病人特征向量作为所述罕见病人的特征向量;
根据所述罕见病人的特征向量推送对应的治疗方案至所述罕见病人;
对所述罕见病人的特征向量进行聚类分析,根据所述聚类分析的结果将所述罕见病人的特征向量加入群体特征库的对应位置。


2.根据权利要求1所述的基于人工智能的罕见病辅助分析方法,其特征在于,上述获取日志源中的罕见病人行为日志具体包括以下,
建立日志格式规范;
获取罕见病人的访问记录,记录罕见病人的所有操作,并通过Flume将所述访问记录按照所述日志格式规范保存至日志中进而形成日志源数据库;
根据罕见病人的身份信息获取所述日志源中的罕见病人行为日志。


3.根据权利要求1所述的基于人工智能的罕见病辅助分析方法,其特征在于,上述提取所述罕见病人行为日志中的罕见病人的相关特征包括以下,
通过MapReduce的编程模型实现,具体的,
提取罕见病人对所述罕见病人行为日志中的各个内容的操作进行加权;
构建疾病特征词库,根据加权结果计算罕见病人与所述疾病特征词库对应的所有特征词,并选取最为接近的前N个特征词作为所述罕见病人的特征词,即罕见病人的相关特征。


4.根据权利要求3所述的基于人工智能的罕见病辅助分析方法,其特征在于,所述计算罕见病人的疾病特征具体包括以下,
计算疾病特征之间的相似度,具体的,
建立罕见病人-疾病特征倒排表,所述罕见病人-疾病特征倒排表为对每个罕见病人建立一个包括他喜欢检索的疾病特征的列表,并通过余弦相似度来计算所述列表中的两两疾病特征之间的相似度,其计算公式如下:



其中,wij表示相似度矩阵,N(i)是喜欢检索疾病特征i的罕见病人集合,N(j)是喜欢检索疾病特征j的罕见病人集合,rui是罕见病人u对疾病特征i的评分,ruj是罕见病人u对疾病特征j的评分,N(u)是罕见病人u喜欢检索的疾病特征集合,ruv是罕见病人u对疾病特征v的评分;
对上述wij按最大值归一化,得到如下优化后的相似度矩阵w′ij,



根据疾病特征的相似度和罕见病人的历史行为给罕见病人生成疾病特征列表,具体的,
在得到疾病特征之间的相似度矩阵wij后,通过如下公式计算罕见病人u对一个疾病特征j的兴趣,



其中N(u)是罕见罕见病人u喜欢检索的疾病特征集合,S(j,k)是和疾病特征j最相似的k疾病特征的集合,wij是疾病特征j和i的相似度,rui是罕见罕见病人u对疾病特征i的评分。


5.根据权利要求3所述的基于人工智能的罕...

【专利技术属性】
技术研发人员:练镜锋宋德寿
申请(专利权)人:广州瀚信通信科技股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1