用于细粒度医疗实体提取的系统和方法技术方案

技术编号:17162124 阅读:20 留言:0更新日期:2018-02-01 20:24
本申请公开一种用于细粒度医疗实体提取的系统和方法,其提供改进的与医疗有关的信息的自动提取。在实施例中,可以提取细粒度的与医疗有关的数据,诸如医疗实体,包括症状、疾病、维度和时间信息。在实施例中,通过从输入语句提取精细水平的与医疗有关的信息并且生成该信息的视觉显示,医疗专业人员能够容易地看见提供医疗实体和相关联的维度信息以及演变历史的有关医疗信息。

System and method for fine particle medical entity extraction

The present application discloses a system and method for fine-grained medical entity extraction, which provides an improved automatic extraction of medical related information. In an example, fine-grained medical related data, such as medical entities, including symptoms, diseases, dimension and time information, can be extracted. In an example, medical professionals can easily see medical information that provides medical entities and associated dimension information and evolution history by extracting fine level medical related information from input statements and generating visual display of the information.

【技术实现步骤摘要】
用于细粒度医疗实体提取的系统和方法
本公开内容一般涉及收集细粒度医疗实体,并且具体地涉及用于提取细粒度医疗实体来进行自动化医疗咨询的系统和方法。
技术介绍
随着医疗保健行业持续寻求削减成本降低浪费以及提高效率,人工任务的自动化可以是改善性能的策略的重要部分。诸如IBM的Watson计算机系统的自动化医疗咨询系统,正在彻底改革传统医疗保健。Watson的自然语言、假设生成以及基于证据的学习能力允许其用作医疗专业人员使用的临床决策支持系统。自动化医疗咨询系统可以被实现用于具有有限医疗资源的农村地区的增强的医疗保健,用于早期检测和/或重大疾病防预。自动医疗咨询系统成功实现的一个关键方面是准确且全面地获取患者的提供信息。不像标准的医疗记录,患者的输入可以是嘈杂的语音消息或非标准、非书面的自由文本。一些传统的实体提取工具仅集中在解析纯实体上,因此可能忽视关于症状演变或症状维度(诸如频率、强度等)的信息。因此,需要用于自动地识别和提取细粒度医疗实体(包括症状维度信息和时间信息)来进行自动化医疗咨询的系统和方法。
技术实现思路
本专利技术在第一方面提供一种用于从输入语句中提取医疗实体的计算机实现的方法,所述方法包括:基于所述输入语句中的一个或多个时间线索,将所述输入语句分割成一个或多个时间片段;对于来自所述一个或多个时间片段的时间片段:使用基于规则的模型和包括与医疗有关的术语或短语的集合的医疗实体词典来解析所述时间片段,以获得第一解析医疗实体集合;使用解析模型来解析所述时间片段,所述解析模型接收所述时间片段作为输入并且在所述时间片段中输出第二解析医疗实体集合;基于所述第一解析医疗实体集合和所述第二解析医疗实体集合来输出最终医疗实体集合。本专利技术在第二方面提供一种用于创建从输入语句中提取医疗实体的系统的方法,所述方法包括:接收医疗实体词典,所述医疗实体词典包括与医疗有关的术语或短语的集合和医疗论坛数据;使用所述医疗论坛数据中的至少一部分和所述医疗实体词典中的至少一部分来形成训练数据集合的样本集合,对于每个样本,所述医疗实体词典包括来自所述医疗论坛数据的医疗语句和所述医疗语句中的相对应的医疗实体;使用所述训练数据集合中的至少一部分来训练解析模型以识别输入语句中的医疗实体;以及使用所述医疗实体词典中的术语和短语中的至少一部分来形成基于规则的模型以识别输入语句中的医疗实体。本专利技术在第三方面提供一种用于医疗实体识别的系统,包括:一个或多个处理器;医疗实体词典,可通过所述一个或多个处理器中的至少一个通信地访问,所述医疗实体词典包括与医疗有关的术语或短语的集合;包括一个或多个指令序列的暂时性计算机可读介质或介质,所述指令序列在由所述一个或多个处理器中的至少一个处理器执行时,使得执行以下步骤:基于所述输入语句中的一个或多个时间线索,将所述输入语句分割成一个或多个时间片段;对于来自所述一个或多个时间片段的时间片段:使用基于规则的模型和所述医疗实体词典来获得第一解析医疗实体集合;使用解析模型来解析所述时间片段,所述解析模型接收所述时间片段作为输入并且在所述时间片段中输出第二解析医疗实体集合;基于所述第一解析医疗实体集合和所述第二解析医疗实体集合来输出最终医疗实体集合。附图说明将参考本专利技术的实施例,其示例将以附图来说明。这些附图旨在说明而不是限制性的。虽然本专利技术一般在这些实施例的上下文中描述,但是应当理解的是,其并非旨在将本专利技术的范围限制为这些特定实施例。附图中的项目不是按比例的。图1示出了根据本公开内容的实施例的医疗实体解析系统的系统架构;图2示出了根据本公开内容的实施例的医疗实体词典扩充的一般流程图;图3示出了根据本公开内容的实施例的医疗实体识别和分类的流程图。图4示出了根据本公开内容的实施例的基于机器学习的解析器训练的示例性流程图;图5示出了根据本公开内容的实施例的在线医疗实体解析的示例性流程图;图6示出了根据本公开内容的实施例的针对解析的医疗实体的维度搜索的示例性流程图;图7示出了根据本公开内容的实施例的用于生成时间依赖的实体图的示例性流程图;图8示出了根据本公开内容的实施例的示例性时间依赖的实体图;图9描绘了根据本公开内容的实施例的计算设备/信息处置系统的简化框图。具体实施方式在下文描述中,出于解释的目的,阐述了具体细节以便理解本专利技术。但是,本领域的技术人员将理解的是,在没有这些具体细节的情况下,也可以实施本专利技术。此外,本领域技术人员将认识到的是,下文描述的本专利技术的实施例可以以诸如过程、装置、系统、设备或方法的多种方式实现在非暂时性计算机可读介质上。图中示出的组件或模块示例地说明本专利技术的示例性实施例,并且意在避免本专利技术含混晦涩。还应当理解的是,遍及本论述,组件可以被描述为单独的功能单元,其可以包括子单元,但是本领域技术人员还将认识到的是,各个组件或其部分可以被划分成单独的组件或者可以被集成在一起,包括被集成在单个系统或组件内。应当注意的是,本文论述的功能或操作可以被实现为组件/模块。组件可以用软件、硬件或其组合实现。此外,附图内的组件或系统之间的连接非旨在受限于直接连接。此外,这些组件之间的数据可以被修改、重新格式化或其它方式被中间组件改变。此外,可以使用额外的或更少的连接。应当注意的是,术语“耦合”、“连接”或“通信地耦合”应当被理解为包括直接连接、通过一个或多个中间设备的间接连接以及无线连接。在说明书中对“一个实施例”、“优选实施例”“一实施例”或“实施例”的引用意指集合实施例描述的特定特征、结构、特性或功能被包括在本专利技术的至少一个实施例中并且可以在一个以上的实施例中。此外,上述短语在说明书各个地方的出现不必都指代相同的一个实施例或多个实施例。某些术语在说明书各处的使用是为了说明而不应当被解释为进行限制。服务、功能或资源不受限于单个服务、功能或资源;这些术语的使用可以指代有关服务、功能或资源(其可以被分布或聚集)的分组。术语“包括”、“包含”、“由……组成”、“由……构成”应当被理解为是开放术语并且跟在后面的任何列表是示例并且非意指受限于所列出的项目。本文使用的任何标题仅是出于组织的目的并且不应当用于限制本描述或权利要求书的范围。本专利文件中提及的每个引用的全部内容通过引用的方式并入本文。此外,本领域技术人员将认识到:(1)可以选择地执行某些步骤;(2)步骤可以不受限于本文阐述的特定次序;(3)可以以不同的次序来执行某些步骤;以及(4)可以并发地完成某些步骤。总体概述本公开内容的各个实施例涉及用于收集包括症状维度和时间信息的细粒度医疗实体来进行自动化医疗咨询的系统和方法。在实施例中,为了解析医疗实体和维度信息以及演进历史,通过借助大型在线医疗论坛数据来扩充实体词典并且识别症状维度。在实施例中,充实的词典和论坛数据用于生成训练数据,该训练数据用于训练接收输入语句并输出与医疗有关的实体的解析器模型。短语“输入语句”应当被理解为覆盖语句、问题、一个或多个句子、一个或多个问题、一个或多个短语、或其任何组合。在实施例中,时间依赖的图被构建为以易于理解的方式来对实体的时间信息和实体维度进行编码。根据实施例,一个或多个标准的医疗实体词典(诸如在MedMD或MedTerms中使用的词典)可以用作医疗实体提取的开始。额外的资源可以用于扩本文档来自技高网...
用于细粒度医疗实体提取的系统和方法

【技术保护点】
一种用于从输入语句中提取医疗实体的计算机实现的方法,所述方法包括:基于所述输入语句中的一个或多个时间线索,将所述输入语句分割成一个或多个时间片段;对于来自所述一个或多个时间片段的时间片段:使用基于规则的模型和包括与医疗有关的术语或短语的集合的医疗实体词典来解析所述时间片段,以获得第一解析医疗实体集合;使用解析模型来解析所述时间片段,所述解析模型接收所述时间片段作为输入并且在所述时间片段中输出第二解析医疗实体集合;基于所述第一解析医疗实体集合和所述第二解析医疗实体集合来输出最终医疗实体集合。

【技术特征摘要】
2016.07.20 US 15/215,3931.一种用于从输入语句中提取医疗实体的计算机实现的方法,所述方法包括:基于所述输入语句中的一个或多个时间线索,将所述输入语句分割成一个或多个时间片段;对于来自所述一个或多个时间片段的时间片段:使用基于规则的模型和包括与医疗有关的术语或短语的集合的医疗实体词典来解析所述时间片段,以获得第一解析医疗实体集合;使用解析模型来解析所述时间片段,所述解析模型接收所述时间片段作为输入并且在所述时间片段中输出第二解析医疗实体集合;基于所述第一解析医疗实体集合和所述第二解析医疗实体集合来输出最终医疗实体集合。2.根据权利要求1所述的计算机实现的方法,其中,所述最终医疗实体集合是所述第一解析医疗实体集合和所述第二解析医疗实体集合的组合。3.根据权利要求2所述的计算机实现的方法,其中,所述第一解析医疗实体集合和所述第二解析医疗实体集合的所述组合是所述第一解析医疗实体集合和所述第二解析医疗实体集合的联合减去所述第一解析医疗实体集合和所述第二解析医疗实体集合之间重复的任何实体。4.根据权利要求1所述的计算机实现的方法,其中,所述基于规则的模型使用所述医疗实体词典来进行关键字匹配以识别所述时间片段中的医疗实体。5.根据权利要求4所述的计算机实现的方法,其中,所述医疗实体词典是通过执行包括以下的步骤来获得的充实的医疗实体词典:通过将来自初始医疗实体词典的术语或短语的集合中的每个术语或短语与来自修饰符集合的每个修饰符组合,来生成候选合成医疗实体集合;使用医疗数据来确定每个候选合成医疗实体的出现频率;以及将出现频率超过门限值的每个候选合成医疗实体添加到所述医疗实体词典。6.根据权利要求5所述的计算机实现的方法,其中,所述解析模型是利用使用所述充实的医疗实体词典和医疗论坛数据形成的训练数据来训练的。7.根据权利要求1所述的计算机实现的方法,还包括:对于所述最终解析医疗实体集合内的每个医疗实体,确定所述医疗实体是否被描述性修饰符所修饰;以及响应于存在描述性修饰符,将所述描述性修饰符映射到一个或多个水平。8.根据权利要求7所述的计算机实现的方法,还包括:生成针对每个时间片段的有向图,其中,来自所述时间片段的所述最终解析医疗实体集合的每个解析医疗实体是表示所述医疗实体或维度的节点,每个边缘表示由所述边缘连接的节点之间的关系。9.根据权利要求8所述的计算机实现的方法,其中,所述表示维度的节点被编码来标识相关联的解析医疗实体的定量描述的可测量水平。10.一种用于创建从输入语句中提取医疗实体的系统的方法,所述方法包括:接收医疗实体词典,所述医疗实体词典包括与医疗有关的术语或短语的集合和医疗论坛数据;使用所述医疗论坛数据中的至少一部分和所述医疗实体词典中的至少一部分来形成训练数据集合的样本集合,对于每个样本,所述医疗实体词典包括来自所述医疗论坛数据的医疗语句和所述医疗语句中的相对应的医疗实体;使用所述训练数据集合中的至少一部分来训练解析模型以识别输入语句中的医疗实体;以及使用所述医疗实体词典中的术语和短语中的至少一部分来形成基于规则的模型以识别输入语句中的医疗实体。11.根据权利要求10所述的方法,...

【专利技术属性】
技术研发人员:费洪亮谭树龙甄毅钟迩桁刘朝春周达文范伟
申请(专利权)人:百度美国有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1