The present application discloses a system and method for fine-grained medical entity extraction, which provides an improved automatic extraction of medical related information. In an example, fine-grained medical related data, such as medical entities, including symptoms, diseases, dimension and time information, can be extracted. In an example, medical professionals can easily see medical information that provides medical entities and associated dimension information and evolution history by extracting fine level medical related information from input statements and generating visual display of the information.
【技术实现步骤摘要】
用于细粒度医疗实体提取的系统和方法
本公开内容一般涉及收集细粒度医疗实体,并且具体地涉及用于提取细粒度医疗实体来进行自动化医疗咨询的系统和方法。
技术介绍
随着医疗保健行业持续寻求削减成本降低浪费以及提高效率,人工任务的自动化可以是改善性能的策略的重要部分。诸如IBM的Watson计算机系统的自动化医疗咨询系统,正在彻底改革传统医疗保健。Watson的自然语言、假设生成以及基于证据的学习能力允许其用作医疗专业人员使用的临床决策支持系统。自动化医疗咨询系统可以被实现用于具有有限医疗资源的农村地区的增强的医疗保健,用于早期检测和/或重大疾病防预。自动医疗咨询系统成功实现的一个关键方面是准确且全面地获取患者的提供信息。不像标准的医疗记录,患者的输入可以是嘈杂的语音消息或非标准、非书面的自由文本。一些传统的实体提取工具仅集中在解析纯实体上,因此可能忽视关于症状演变或症状维度(诸如频率、强度等)的信息。因此,需要用于自动地识别和提取细粒度医疗实体(包括症状维度信息和时间信息)来进行自动化医疗咨询的系统和方法。
技术实现思路
本专利技术在第一方面提供一种用于从输入语句中提取医疗实体的计算机实现的方法,所述方法包括:基于所述输入语句中的一个或多个时间线索,将所述输入语句分割成一个或多个时间片段;对于来自所述一个或多个时间片段的时间片段:使用基于规则的模型和包括与医疗有关的术语或短语的集合的医疗实体词典来解析所述时间片段,以获得第一解析医疗实体集合;使用解析模型来解析所述时间片段,所述解析模型接收所述时间片段作为输入并且在所述时间片段中输出第二解析医疗实体集合;基于所述第一解 ...
【技术保护点】
一种用于从输入语句中提取医疗实体的计算机实现的方法,所述方法包括:基于所述输入语句中的一个或多个时间线索,将所述输入语句分割成一个或多个时间片段;对于来自所述一个或多个时间片段的时间片段:使用基于规则的模型和包括与医疗有关的术语或短语的集合的医疗实体词典来解析所述时间片段,以获得第一解析医疗实体集合;使用解析模型来解析所述时间片段,所述解析模型接收所述时间片段作为输入并且在所述时间片段中输出第二解析医疗实体集合;基于所述第一解析医疗实体集合和所述第二解析医疗实体集合来输出最终医疗实体集合。
【技术特征摘要】
2016.07.20 US 15/215,3931.一种用于从输入语句中提取医疗实体的计算机实现的方法,所述方法包括:基于所述输入语句中的一个或多个时间线索,将所述输入语句分割成一个或多个时间片段;对于来自所述一个或多个时间片段的时间片段:使用基于规则的模型和包括与医疗有关的术语或短语的集合的医疗实体词典来解析所述时间片段,以获得第一解析医疗实体集合;使用解析模型来解析所述时间片段,所述解析模型接收所述时间片段作为输入并且在所述时间片段中输出第二解析医疗实体集合;基于所述第一解析医疗实体集合和所述第二解析医疗实体集合来输出最终医疗实体集合。2.根据权利要求1所述的计算机实现的方法,其中,所述最终医疗实体集合是所述第一解析医疗实体集合和所述第二解析医疗实体集合的组合。3.根据权利要求2所述的计算机实现的方法,其中,所述第一解析医疗实体集合和所述第二解析医疗实体集合的所述组合是所述第一解析医疗实体集合和所述第二解析医疗实体集合的联合减去所述第一解析医疗实体集合和所述第二解析医疗实体集合之间重复的任何实体。4.根据权利要求1所述的计算机实现的方法,其中,所述基于规则的模型使用所述医疗实体词典来进行关键字匹配以识别所述时间片段中的医疗实体。5.根据权利要求4所述的计算机实现的方法,其中,所述医疗实体词典是通过执行包括以下的步骤来获得的充实的医疗实体词典:通过将来自初始医疗实体词典的术语或短语的集合中的每个术语或短语与来自修饰符集合的每个修饰符组合,来生成候选合成医疗实体集合;使用医疗数据来确定每个候选合成医疗实体的出现频率;以及将出现频率超过门限值的每个候选合成医疗实体添加到所述医疗实体词典。6.根据权利要求5所述的计算机实现的方法,其中,所述解析模型是利用使用所述充实的医疗实体词典和医疗论坛数据形成的训练数据来训练的。7.根据权利要求1所述的计算机实现的方法,还包括:对于所述最终解析医疗实体集合内的每个医疗实体,确定所述医疗实体是否被描述性修饰符所修饰;以及响应于存在描述性修饰符,将所述描述性修饰符映射到一个或多个水平。8.根据权利要求7所述的计算机实现的方法,还包括:生成针对每个时间片段的有向图,其中,来自所述时间片段的所述最终解析医疗实体集合的每个解析医疗实体是表示所述医疗实体或维度的节点,每个边缘表示由所述边缘连接的节点之间的关系。9.根据权利要求8所述的计算机实现的方法,其中,所述表示维度的节点被编码来标识相关联的解析医疗实体的定量描述的可测量水平。10.一种用于创建从输入语句中提取医疗实体的系统的方法,所述方法包括:接收医疗实体词典,所述医疗实体词典包括与医疗有关的术语或短语的集合和医疗论坛数据;使用所述医疗论坛数据中的至少一部分和所述医疗实体词典中的至少一部分来形成训练数据集合的样本集合,对于每个样本,所述医疗实体词典包括来自所述医疗论坛数据的医疗语句和所述医疗语句中的相对应的医疗实体;使用所述训练数据集合中的至少一部分来训练解析模型以识别输入语句中的医疗实体;以及使用所述医疗实体词典中的术语和短语中的至少一部分来形成基于规则的模型以识别输入语句中的医疗实体。11.根据权利要求10所述的方法,...
【专利技术属性】
技术研发人员:费洪亮,谭树龙,甄毅,钟迩桁,刘朝春,周达文,范伟,
申请(专利权)人:百度美国有限责任公司,
类型:发明
国别省市:美国,US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。