当前位置: 首页 > 专利查询>豪夫迈专利>正文

病理报告中的使用自然语言处理的自动信息提取与扩展制造技术

技术编号:33079004 阅读:25 留言:0更新日期:2022-04-15 10:24
在一个示例中,计算机系统执行的方法包括:接收包含病理报告的图像文件;对图像文件执行图像识别操作以提取输入文本字符串;使用自然语言处理(NLP)模型从输入文本字符串检测实体,每个实体包括标签和值;使用NLP模型从输入文本字符串中提取实体的值;基于将实体和值映射到预定术语的映射表,将实体中的至少一些实体的值转换为相对应的预定术语;以及生成处理后病理报告,该处理后病理报告包括从输入文本字符串中检测到的实体和相对应的预定术语。本字符串中检测到的实体和相对应的预定术语。本字符串中检测到的实体和相对应的预定术语。

【技术实现步骤摘要】
【国外来华专利技术】病理报告中的使用自然语言处理的自动信息提取与扩展
相关申请的交叉引用
[0001]本申请要求享有2019年9月6日提交的美国临时专利申请第62/897,252号的优先权权益,该美国临时专利申请的内容出于所有目的通过引用以其整体合并于此。

技术介绍

[0002]每天,医院都会在全球范围内创建大量的临床数据。医务人员,诸如临床医生和临床工作人员,需要分析临床数据以向患者实施护理。对这些数据的分析对于医疗服务供给和护理质量的详细洞察、以及提供改善医疗保健的基础十分关键。
[0003]不幸的是,临床数据中的很大一部分十分难以获取和分析,因为大部分数据不是纸质形式就是扫描图像的形式。这些数据可能包括,例如,病理报告或者任何其他既不与结构性数据模型相关联也不以预定义的方式组织以定义数据的上下文和/或含义的数据。因为数据的物理形式,以及数据是非结构化的这一事实,临床医生和临床工作人员一般需要花费大量的时间通读患者的病理报告以获取关键的临床数据,诸如诊断、治疗历史等,同时所花费的时间将会积累增加以阅读大量患者的病理报告。此外,手动提取也是十分费力、缓慢、昂贵以及本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种由计算机系统执行的方法,包括:接收包括病理报告的图像文件;对所述图像文件执行图像识别操作,以提取输入文本字符串;使用自然语言处理(NLP)模型从所述输入文本字符串检测实体,每个实体包括标签和值;使用所述NLP模型从所述输入文本字符串提取所述实体的所述值;基于将实体和值映射到预先确定的术语的映射表,将所述实体中的至少一些实体的所述值转换为相对应的预先确定的术语;以及生成处理后病理报告,所述处理后病理报告包括从所述输入文本字符串检测到的所述实体和所述相对应的预先确定的术语。2.如权利要求2所述的方法,其特征在于,所述图像识别操作包括下列各项中的至少一项:光学字符识别(OCR)过程或光学单词识别过程。3.如权利要求1所述的方法,其特征在于,所述图像文件是可移植文档格式(pdf)格式。4.如权利要求1所述的方法,其特征在于,所述NLP模型包括图,所述图包括节点和边缘;其中每个节点与文本字符串相对应;其中两个节点之间的边缘指示所述两个节点所表示的两个文本字符串之间的顺序关系;并且其中检测所述实体包括将所述输入文本字符串的文本字符串序列与所述图中表示的文本字符串序列进行匹配。5.如权利要求4所述的方法,其特征在于,进一步包括:基于对标记有实体的名称的文本字符串的训练,更新所述图。6.如权利要求4所述的方法,其中所述NLP模型包括基线NLP子模型和病理学NLP子模型;其中所述基线NLP子模型是基于来自常规医疗文档的第一训练文本字符串而被训练的;并且其中所述病理学NLP子模型是基于来自病理报告的第二训练文本字符串而被训练的。7.如权利要求5所述的方法,其特征在于,进一步包括:由所述NLP模型确定从所述输入文本字符串识别所述实体的准确度;基于所述准确度,基于所述输入文本字符串更新训练文本字符串;以及基于更新的训练文本字符串来更新所述图。8.如权利要求1所述的方法,其特征在于,从所述输入文本的一组相邻文本字符串识别多个实体。9.如权利要求1所述的方法,其特征在于,所述输入文本字符串是第一输入文本字符串;并且其中所述...

【专利技术属性】
技术研发人员:V
申请(专利权)人:豪夫迈
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1