用于医学数据自动采集分割和分析平台的方法和装置制造方法及图纸

技术编号：32141986 阅读：32 留言：0更新日期：2022-02-08 14:37

一种医学数据自动采集分割和分析的方法，包括：从多个源采集多种格式的非结构化医学数据；使用医学词典识别每条非结构化医学数据的医学命名实体；以及对每条非结构化医学数据执行语义文本分割，使得每条非结构化医学数据被划分到共享相同主题的组中。该方法还包括：将识别出医学命名实体的每条非结构化医学数据、被划分成组的每条非结构化医学数据生成为结构化医学数据；以及将结构化医学数据索引到弹性搜索集群中。性搜索集群中。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于医学数据自动采集分割和分析平台的方法和装置
[0001]相关申请的交叉引用
[0002]本申请要求于2019年4月10日在美国专利商标局提交的美国专利申请第16/379,992号的优先权，该申请通过引用整体并入本文。

技术介绍

[0003]传统的医学数据平台非常昂贵且低效。第一种方法是将标准或结构化的医学书籍用于数据集，获取对这些书籍的访问既不容易也不便宜。第二种方法是邀请具有医学背景的专业人士参与该处理并且执行标记或数据清理。然而，该方法导致不可预测的处理时间以及人工劳动工作的高成本。
[0004]当前方法的另一缺点是大量数据可能对于人类理解是有效的，但对于机器学习是不够的。事实上，大多数基于深度学习的方法需要大量的训练数据来学习模型。

技术实现思路

[0005]根据实施方式，一种医学数据自动采集分割和分析的方法，包括：从多个源采集多种格式的非结构化医学数据；使用医学词典识别每条非结构化医学数据的医学命名实体；以及对每条非结构化医学数据执行语义文本分割，使得每条非结构化医学数据被划分到共享相同主题的组中。该方法还包括：将识别出医学命名实体的每条非结构化医学数据、被划分成组的每条非结构化医学数据生成为结构化医学数据；以及将结构化医学数据索引到弹性搜索集群中。
[0006]根据实施方式，一种用于医学数据自动采集分割和分析的装置，包括：至少一个存储器，其被配置成存储程序代码；以及至少一个处理器，其被配置成读取程序代码并且按照程序代码所指示的进行操作。程序代码包括：采集代码，其被配置成使至少一个处...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种医学数据自动采集分割和分析的方法，所述方法包括：从多个源采集多种格式的非结构化医学数据；使用医学词典识别每条所述非结构化医学数据的医学命名实体；对每条所述非结构化医学数据执行语义文本分割，使得每条所述非结构化医学数据被划分到共享相同主题的组中；将识别出所述医学命名实体的每条所述非结构化医学数据、被划分成所述组的每条所述非结构化医学数据生成为结构化医学数据；以及将所述结构化医学数据索引到弹性搜索集群中。2.根据权利要求1所述的方法，还包括进行控制以搜索和显示所述弹性搜索集群中的至少一个。3.根据权利要求1所述的方法，还包括使用所述非结构化医学数据生成所述医学词典。4.根据权利要求1所述的方法，其中，所述执行所述语义文本分割包括使用所述非结构化医学数据来训练隐含狄利克雷分布(LDA)模型和非负矩阵分解(NMF)模型。5.根据权利要求4所述的方法，其中，所述执行所述语义文本分割还包括，针对所述非结构化医学数据的句子中的每个句子：分别从所述LDA模型输出LDA分数并且从所述NMF模型输出NMF分数；对所述LDA分数和所述NMF分数中的每一个执行柔性最大值函数，以分别生成第一标准导出分数和第二标准导出分数；将所述第一标准导出分数和所述第二标准导出分数相加；对相加的所述第一标准导出分数和所述第二标准导出分数求平均，以确定平均分数；以及基于所述平均分数确定所述句子中的相应一个句子的主题。6.根据权利要求1所述的方法，还包括生成每条所述非结构化医学数据的元数据的分层树形结构，其中，所述对所述结构化医学数据进行索引包括：使用每条所述非结构化医学数据的元数据的所述分层树形结构将所述结构化医学数据索引到所述弹性搜索集群中。7.根据权利要求1所述的方法，其中，所述非结构化医学数据包括来自因特网的医学书籍、诊断案例、论坛讨论和医学论文中的任何一种或任何组合。8.一种用于医学数据自动采集分割和分析的装置，所述装置包括：至少一个存储器，其被配置成存储程序代码；以及至少一个处理器，其被配置成读取所述程序代码并且按照所述程序代码所指示的进行操作，所述程序代码包括：采集代码，其被配置成使所述至少一个处理器从多个源采集多种格式的非结构化医学数据；识别代码，其被配置成使所述至少一个处理器使用医学词典识别每条所述非结构化医学数据的医学命名实体；执行代码，其被配置成使所述至少一个处理器对每条所述非结构化医学数据执行语义文本分割，使得每条所述非结构化医学数据被划分到共享相同主题的组中；第一生成代码，其被配置成使所述至少一个处理器将识别出所述医学命名实体的每条
所述非结构化医学数据、被划分成所述组的每条所述非结构化医学数据生成为结构化医学数据；以及索引代码，其被配置成使所述至少一个处理器将所述结构化医学数据索引到弹性搜索集群中。9.根据权利要求8所述的装置，还包括控制代码，所述控制代码被配置成使所述至少一个处理器进行控制以搜索和显示所述弹性搜索集群中的至少一个。10.根据权利要求8所述的装置，还包括第二生成代码，所述第二生成代码被配置成使所述至少一个处理器使用所述非结构化医学数据生成所述医学词典。11.根据权利要求8所述的装置，其中，所述执行代码还被配置成使所述至少一个处理器使用所述...

【专利技术属性】
技术研发人员：张尚卿，涂旻，杜楠，谢于晟，李亚亮，杨陶，范伟，
申请(专利权)人：腾讯美国有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人