用于医学数据自动采集分割和分析平台的方法和装置制造方法及图纸

技术编号:32141986 阅读:32 留言:0更新日期:2022-02-08 14:37
一种医学数据自动采集分割和分析的方法,包括:从多个源采集多种格式的非结构化医学数据;使用医学词典识别每条非结构化医学数据的医学命名实体;以及对每条非结构化医学数据执行语义文本分割,使得每条非结构化医学数据被划分到共享相同主题的组中。该方法还包括:将识别出医学命名实体的每条非结构化医学数据、被划分成组的每条非结构化医学数据生成为结构化医学数据;以及将结构化医学数据索引到弹性搜索集群中。性搜索集群中。

【技术实现步骤摘要】
【国外来华专利技术】用于医学数据自动采集分割和分析平台的方法和装置
[0001]相关申请的交叉引用
[0002]本申请要求于2019年4月10日在美国专利商标局提交的美国专利申请第16/379,992号的优先权,该申请通过引用整体并入本文。

技术介绍

[0003]传统的医学数据平台非常昂贵且低效。第一种方法是将标准或结构化的医学书籍用于数据集,获取对这些书籍的访问既不容易也不便宜。第二种方法是邀请具有医学背景的专业人士参与该处理并且执行标记或数据清理。然而,该方法导致不可预测的处理时间以及人工劳动工作的高成本。
[0004]当前方法的另一缺点是大量数据可能对于人类理解是有效的,但对于机器学习是不够的。事实上,大多数基于深度学习的方法需要大量的训练数据来学习模型。

技术实现思路

[0005]根据实施方式,一种医学数据自动采集分割和分析的方法,包括:从多个源采集多种格式的非结构化医学数据;使用医学词典识别每条非结构化医学数据的医学命名实体;以及对每条非结构化医学数据执行语义文本分割,使得每条非结构化医学数据被划分到共享相同主题的组中。该方法还包括:将识别出医学命名实体的每条非结构化医学数据、被划分成组的每条非结构化医学数据生成为结构化医学数据;以及将结构化医学数据索引到弹性搜索集群中。
[0006]根据实施方式,一种用于医学数据自动采集分割和分析的装置,包括:至少一个存储器,其被配置成存储程序代码;以及至少一个处理器,其被配置成读取程序代码并且按照程序代码所指示的进行操作。程序代码包括:采集代码,其被配置成使至少一个处理器从多个源采集多种格式的非结构化医学数据;识别代码,其被配置成使至少一个处理器使用医学词典识别每条非结构化医学数据的医学命名实体;以及执行代码,其被配置成使至少一个处理器对每条非结构化医学数据执行语义文本分割,使得每条非结构化医学数据被划分到共享相同主题的组中。程序代码还包括:第一生成代码,其被配置成使至少一个处理器将识别出医学命名实体的每条非结构化医学数据、被划分成组的每条非结构化医学数据生成为结构化医学数据;以及索引代码,其被配置成使至少一个处理器将结构化医学数据索引到弹性搜索集群中。
[0007]根据实施方式,一种非暂态计算机可读介质,该非暂态计算机可读介质存储指令,指令在由设备的至少一个处理器执行时使至少一个处理器执行以下操作:从多个源采集多种格式的非结构化医学数据;使用医学词典识别每条非结构化医学数据的医学命名实体;对每条非结构化医学数据执行语义文本分割,使得每条非结构化医学数据被划分到共享相同主题的组中;将识别出医学命名实体的每条非结构化医学数据、被划分成组的每条非结构化医学数据生成为结构化医学数据;以及将结构化医学数据索引到弹性搜索集群中。
附图说明
[0008]图1是根据实施方式的可以实现本文中描述的方法、装置和系统的环境的图。
[0009]图2是图1的一个或更多个设备的示例部件的图。
[0010]图3是根据实施方式的医学数据平台的部件架构的图。
[0011]图4是根据实施方式的在执行语义文本分割的NLP模块中实现的主题概率结构的图。
[0012]图5是根据实施方式的使用来自数据的语义分层(hieratical)结构来生成弹性搜索集群(elastic search cluster)的方法的图。
[0013]图6是根据实施方式的方法的流程图。
[0014]图7是根据实施方式的装置的图。
具体实施方式
[0015]本文中描述的实施方式包括利用低成本的数据采集和转换构建高质量且可靠的医学知识库的医学数据平台。医学数据平台是自动扩展的、大数据驱动的、基于弹性搜索的平台,该平台根据大量低质量、低成本和无监督的数据构建高质量的医学事实存储。平台的主要部件包括:用于原始数据采集的网络爬虫;用于光学字符识别(optical character recognition,OCR)以及数据清理和格式化的提取、转换、加载(extract,transform,load,ETL)管道;用于文本分割的潜在的狄利克雷分布(latent Dirichlet allocation,LDA)模型和非负矩阵分解(non

negative matrix factorization,NMF)模型;以及用于数据索引和存储的自动扩展的弹性搜索集群。
[0016]具体地,因为利用深度学习模型解决医学问题的需求不断增加,所以使用了可靠且合适的医学事实和数据存储。因此,医学数据平台从医学论坛、医学网站和科学杂志采集大量低质量、高噪声的数据,过滤出真实的医学案例、诊断、文章、论文和书籍。该多源非结构化数据被放入ETL管道中,该ETL管道使用自然语言处理(NLP)部件进行实体识别和标准化,以将非结构化数据转变成结构化实体。对于大型文本和文档,医学数据平台使用用于语义文本分割的NMF模型和LDA模型对结构化实体执行组合主题建模,以查找和加强结构化实体之间的内部关系。为了解决大容量数据存储和效率问题,医学数据平台使用弹性搜索集群来实现自动扩展的分布式存储系统。
[0017]上面的医学数据平台解决了传统数据平台的所有缺点。例如,为了解决数据量和成本问题,医学数据平台使用网络爬虫从医学诊所相关网站抓取数百万免费的文档、段落和对话,并且将这样的多源支持数据注入转换管道中,以将数据转变为结构化数据格式。
[0018]在另一示例中,为了保证数据准确性和高质量,医学平台使用NLP词嵌入模型来识别具有不同类别的医学相关实体,并且将这些实体写入弹性搜索集群中以用于索引。弹性搜索使用词频

逆文档频率(term frequency

inverse document frequency,tf

idf)和最佳匹配25(Best Matching25,BM25)评分机制进行数据搜索。该方法极大地减少了来自大数据量的噪声数据,并且仅针对感兴趣的主题或领域提高了质量和准确性。
[0019]在又一示例中,为了使医学数据平台出于深度学习目的是容易且有用的,需要易于使用的接口。医学数据平台使用RESTful应用程序接口(application program interface,API)接口来搜索医学数据集。这使得医学数据平台易于插入到诸如TensorFlow
的流行的机器学习框架中。
[0020]图1是根据实施方式的可以实现本文中描述的方法、装置和系统的环境100的图。如图1所示,环境100可以包括用户设备110、平台120和网络130。环境100的设备可以经由有线连接、无线连接或有线连接和无线连接的组合进行互连。
[0021]用户设备110包括能够接收、生成、存储、处理和/或提供与平台120相关联的信息的一个或更多个设备。例如,用户设备110可以包括计算设备(例如,台式计算机、膝上型计算机、平板计算机、手持式计算机、智能扬声器、服务器等)、移动电话(例如,智能电话、无线电话等)、可穿戴设备(本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种医学数据自动采集分割和分析的方法,所述方法包括:从多个源采集多种格式的非结构化医学数据;使用医学词典识别每条所述非结构化医学数据的医学命名实体;对每条所述非结构化医学数据执行语义文本分割,使得每条所述非结构化医学数据被划分到共享相同主题的组中;将识别出所述医学命名实体的每条所述非结构化医学数据、被划分成所述组的每条所述非结构化医学数据生成为结构化医学数据;以及将所述结构化医学数据索引到弹性搜索集群中。2.根据权利要求1所述的方法,还包括进行控制以搜索和显示所述弹性搜索集群中的至少一个。3.根据权利要求1所述的方法,还包括使用所述非结构化医学数据生成所述医学词典。4.根据权利要求1所述的方法,其中,所述执行所述语义文本分割包括使用所述非结构化医学数据来训练隐含狄利克雷分布(LDA)模型和非负矩阵分解(NMF)模型。5.根据权利要求4所述的方法,其中,所述执行所述语义文本分割还包括,针对所述非结构化医学数据的句子中的每个句子:分别从所述LDA模型输出LDA分数并且从所述NMF模型输出NMF分数;对所述LDA分数和所述NMF分数中的每一个执行柔性最大值函数,以分别生成第一标准导出分数和第二标准导出分数;将所述第一标准导出分数和所述第二标准导出分数相加;对相加的所述第一标准导出分数和所述第二标准导出分数求平均,以确定平均分数;以及基于所述平均分数确定所述句子中的相应一个句子的主题。6.根据权利要求1所述的方法,还包括生成每条所述非结构化医学数据的元数据的分层树形结构,其中,所述对所述结构化医学数据进行索引包括:使用每条所述非结构化医学数据的元数据的所述分层树形结构将所述结构化医学数据索引到所述弹性搜索集群中。7.根据权利要求1所述的方法,其中,所述非结构化医学数据包括来自因特网的医学书籍、诊断案例、论坛讨论和医学论文中的任何一种或任何组合。8.一种用于医学数据自动采集分割和分析的装置,所述装置包括:至少一个存储器,其被配置成存储程序代码;以及至少一个处理器,其被配置成读取所述程序代码并且按照所述程序代码所指示的进行操作,所述程序代码包括:采集代码,其被配置成使所述至少一个处理器从多个源采集多种格式的非结构化医学数据;识别代码,其被配置成使所述至少一个处理器使用医学词典识别每条所述非结构化医学数据的医学命名实体;执行代码,其被配置成使所述至少一个处理器对每条所述非结构化医学数据执行语义文本分割,使得每条所述非结构化医学数据被划分到共享相同主题的组中;第一生成代码,其被配置成使所述至少一个处理器将识别出所述医学命名实体的每条
所述非结构化医学数据、被划分成所述组的每条所述非结构化医学数据生成为结构化医学数据;以及索引代码,其被配置成使所述至少一个处理器将所述结构化医学数据索引到弹性搜索集群中。9.根据权利要求8所述的装置,还包括控制代码,所述控制代码被配置成使所述至少一个处理器进行控制以搜索和显示所述弹性搜索集群中的至少一个。10.根据权利要求8所述的装置,还包括第二生成代码,所述第二生成代码被配置成使所述至少一个处理器使用所述非结构化医学数据生成所述医学词典。11.根据权利要求8所述的装置,其中,所述执行代码还被配置成使所述至少一个处理器使用所述...

【专利技术属性】
技术研发人员:张尚卿涂旻杜楠谢于晟李亚亮杨陶范伟
申请(专利权)人:腾讯美国有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1