当前位置: 首页 > 专利查询>东华大学专利>正文

一种跨类型乳腺肿瘤临床文档的结构化处理方法技术

技术编号:16700713 阅读:60 留言:0更新日期:2017-12-02 13:03
本发明专利技术提供了一种跨类型乳腺肿瘤临床文档的结构化处理方法,步骤1:对乳腺肿瘤临床文档的文本进行预处理,包括:切分短文本、及对切分后的短文本进行分词;步骤2:针对分词结果,进行单类型报告的部分语料标注;步骤3:采用所述单类型报告的语料,实现跨类型实体识别;步骤4:提取出结构化结果,包括:组织、位置、特征、特征值。本发明专利技术提供的方法克服了现有技术的不足,结构化信息的提取是自动形成,节省了人力与时间,且不局限于报告类型,可以应用于不同报告的特征识别与文本结构化,解决了中文跨类型临床文档的结构化处理问题。方法实现简单,处理速度快,处理结果准确率高。

A structured processing method for the clinical document of cross type breast tumor

The invention provides a structured approach, a cross type breast cancer clinical document step 1: text of clinical documents of breast tumors are pre processed, including: segmentation and segmentation of the short text, short text segmentation; step 2: according to the results of segmentation, labeling data type single report; step 3: using the single type of report data, cross type entity recognition; step 4: structured extracted results, including: organization, location, feature, characteristic value. The method provided by the invention overcomes the defects of the existing technology, extracting structured information is formed automatically, save manpower and time, and it is not limited to the type of report, can be applied to pattern recognition and text structuring different reports, solve the structured processing problem Chinese across types of clinical documents. The method is simple to realize, the processing speed is fast, and the accuracy rate of the processing result is high.

【技术实现步骤摘要】
一种跨类型乳腺肿瘤临床文档的结构化处理方法
本专利技术涉及自然语言处理
,尤其涉及一种基于跨类型半监督学习的乳腺肿瘤临床文档的结构化处理方法。
技术介绍
由于近些年计算机技术高速发展,导致各行业信息电子存储方式越来越流行,医疗数据尤甚,现如今病人的病历已逐渐转换为电子病历,取代手写纸张病历。目前医院累积了大量电子病历,虽然与传统的纸质病历相比,电子病历对于数据的采集和分析更加容易,但是由于电子病历是纸质病历的电子化存储,因此其中病人病情描述记录以及病理报告中的检验信息都是自然语言形式存储的医疗记录,为了方便管理数据并从中得到有用的信息,自然语言结构化处理成为了必不可少的手段。医疗信息较复杂且更灵活,不同类型的临床文档报告有各自的语言特点,所以现有的结构化实现技术很难满足跨类型临床文档结构化要求。因此,如何实现跨类型临床文档结构化处理成为了目前急需解决的关键问题之一。
技术实现思路
本专利技术要解决的技术问题是如何实现跨类型乳腺肿瘤临床文档的结构化处理。为了解决上述技术问题,本专利技术的技术方案是提供一种跨类型乳腺肿瘤临床文档的结构化处理方法,其特征在于,包括如下步骤:步骤1:对乳腺肿瘤临床文档的文本进行预处理,包括:切分短文本、及对切分后的短文本进行分词;步骤2:针对分词结果,进行单类型报告的部分语料标注;步骤3:采用所述单类型报告的语料,实现跨类型实体识别;步骤4:提取出结构化结果,包括:组织、位置、特征、特征值。优选地,所述步骤1中,切分短文本是指:通过截取方法将乳腺肿瘤临床文档的文本分为不包含两个特征的短句。优选地,所述步骤1中,分词是指:针对切分后的短文本,采用jieba分词工具,结合肉眼观察和历史资料制作的自定义词典,切分成短语。优选地,所述步骤2中,语料标注是指:采用句法分析与人工标注相结合的方式,将步骤1中的部分分词结果标注为I-X形式,标注方式符合CoNLL2003公布的标注数据集构建模式。更优选地,所述语料标注的实体类别包括:组织ORG、位置LOC、特征IND、特征值ATT。优选地,所述步骤3中,实体识别是指:针对步骤2中构建的单类型报告的语料库,采用协同训练模型实现跨类型实体识别,选择LSTM-CRF算法做学习器,生成实体识别模型;针对未标注语料,采用实体识别模型进行标注,对实验结果进行反馈,扩大标注数据集规模,实现跨类型临床文档实体识别。优选地,所述步骤4中,提取出结构化结果是指:针对步骤3中识别的实体,将特征与特征值相对应,按照同组织不同位置的形式进行区分,形成特征-特征值的键对模式。本专利技术提供的方法克服了现有技术的不足,结构化信息的提取是自动形成,节省了人力与时间,且不局限于报告类型,可以将模型应用于不同报告的特征识别与文本结构化,解决了中文跨类型临床文档的结构化处理问题。方法实现简单,处理速度快,处理结果准确率高。附图说明图1为乳腺肿瘤临床文档的层次结构图;图2为语料库构建的数据流图;图3为协同训练的数据流图;图4为长短期记忆网络-条件随机场学习器的数据流图;图5为长短期记忆网络的数据流图;图6为条件随机场的数据流图;图7为结构化信息提取的数据流图;图8为跨类型乳腺肿瘤临床文档的结构化处理方法整体流程图。具体实施方式下面结合具体实施例,进一步阐述本专利技术。结合图1,本专利技术针对非结构化中文乳腺跨类型临床文档进行结构化处理,步骤为:(1)对临床文本进行预处理,包括切分短文本及对该短文本进行分词;(2)针对分词结果进行单类型报告的部分语料标注;(3)采用半监督学习实现跨类型报告的实体识别;(4)提取出组织、位置、特征、特征值等结构化结果。乳腺超声文本包含以下信息,如表1:表1中文乳腺超声样本数据案例乳腺X光文本包含以下信息,如表2:表2中文乳腺X光样本数据案例对上表进行分析发现,虽然不同医疗报告的语言特点、语义结构不同,但多由若干句独立的短句构成,短句间用“。”或“;”隔开,且每个短句均会包含一个检查组织,而每个短句又会包含不同的位置描述,针对不同的位置含有若干个特征项,每个特征项一般由特征名和特征值成对组成,不同特征项之间由“,”分隔开。首先对临床文档进行预处理,包括以下两个步骤:1.临床文档预处理:1)短文本切分:由上述分析可知,针对短文本切分可以采取以下两种方式。(1)可以对医疗文本针对标点符号进行划分,将医疗文本按照标点符号“。”、“;”和“,”分成短句;(2)有特定的词语标识了短句的间隔,如“呈”、“见”等,定义其为断点词。将常见的分隔标点和词汇作为短句的切分规则。判断短句中是否包含断点词,若包含,则判断断点词前是否为标点符号,若是,则将断点词的前一句与该短句切分为一句,若不是忽略。若不包含断点词,则直接切分。针对上述方法,运行表1中的实验数据,可得以下结果:2)分词:针对上述切分结果进行分词操作。运用jieba工具对例句进行分词,发现分词结果并不完全符合要求。对医疗数据语法进行分析,由于医疗数据的特殊性,导致其与其他自然语言有着明显的区别,其中包含大量医疗专业术语、医务人员习惯用语及医学英语缩略词,这严重影响了分词效果。为解决此问题,首先针对大量医疗文档进行医疗专有词语词典构建,再在词典中填写可能出现的其他描述情况,涵盖面要求尽量广,同时上网搜索同一个词语可能出现的其他描述方式,将结果一同写入词典中,将其存储为jieba工具自定义词典,提高分词准确率。至此,临床文档预处理结束,下面进行实体识别,主要包括以下两个步骤:2.跨类型半监督学习实体识别1)单报告部分语料标注:实体识别中标注语料是首位,现有的语料标注方式有两种:人工和机械。为减少人力和时间的耗费,同时保证标注的准确性,采用句法分析与医疗规则相结合的方式,如图2所示。(1)句法分析方法:判断核心关系词的词性,定义以下规则:规则1:核心词为动词时,其子结点依赖关系为主谓关系,且词性为名词,则定义该动词为IND,名词为ATT;其子结点依赖关系为定中关系,且词性为nz,则定义其为LOC;其子结点依赖关系为定中关系,且词性为n,则定义其为ORG,附加关系定义为O。规则2:核心词为形容词时,定义该形容词为ATT,其子结点依赖关系为主谓关系或并列关系,且其词性为名词,则定义该名词为IND,其余关系标注如规则1。规则3:若定中关系中包含两个词语,词性为名词和形容词,则将其合并,定义为IND或ATT,其余关系标注如规则1。(2)医疗规则方法:由于医疗语句的特殊性,导致标注数据集覆盖范围有限,而句法分析结果并不完全准确且无法覆盖所有医疗语句,因此需在其中手动添加医疗规则。对医疗文档研究分析,可定义以下规则:规则4:短句中包含断点词:若短句中含断点词“见”,且其前向词语词性为n或nz时,定义n为ORG,nz为LOC,其后向词语词性若为形容词,定义为ATT,若为名词或动词,定义为IND。例如“双侧乳腺见丰富血流信号”,则标注如下:“双侧LOC_乳腺_ORG见丰富_ATT血流信号_IND”,若短句中包含断点词:“呈”,且其前向词词性为名词,则定义为IND,其后向词词性为名词或形容词,则定义为ATT。例如“形状呈椭圆形”,则标注如下:“形状_IND呈椭圆形_ATT”;规则5:若短句中包含数字,则定义数字为ATT,定义数字前向词为IND;本文档来自技高网...
一种跨类型乳腺肿瘤临床文档的结构化处理方法

【技术保护点】
一种跨类型乳腺肿瘤临床文档的结构化处理方法,其特征在于,包括如下步骤:步骤1:对乳腺肿瘤临床文档的文本进行预处理,包括:切分短文本、及对切分后的短文本进行分词;步骤2:针对分词结果,进行单类型报告的部分语料标注;步骤3:采用所述单类型报告的语料,实现跨类型实体识别;步骤4:提取出结构化结果,包括:组织、位置、特征、特征值。

【技术特征摘要】
1.一种跨类型乳腺肿瘤临床文档的结构化处理方法,其特征在于,包括如下步骤:步骤1:对乳腺肿瘤临床文档的文本进行预处理,包括:切分短文本、及对切分后的短文本进行分词;步骤2:针对分词结果,进行单类型报告的部分语料标注;步骤3:采用所述单类型报告的语料,实现跨类型实体识别;步骤4:提取出结构化结果,包括:组织、位置、特征、特征值。2.如权利要求1所述的一种跨类型乳腺肿瘤临床文档的结构化处理方法,其特征在于:所述步骤1中,切分短文本是指:通过截取方法将乳腺肿瘤临床文档的文本分为不包含两个特征的短句。3.如权利要求1所述的一种跨类型乳腺肿瘤临床文档的结构化处理方法,其特征在于:所述步骤1中,分词是指:针对切分后的短文本,采用jieba分词工具,结合肉眼观察和历史资料制作的自定义词典,切分成短语。4.如权利要求1所述的一种跨类型乳腺肿瘤临床文档的结构化处理方法,其特征在于:所述步骤2中,语料标注是指:采用句法分析与人工标注相结...

【专利技术属性】
技术研发人员:陈德华车楠楠朱立峰乐嘉锦潘乔
申请(专利权)人:东华大学上海交通大学医学院附属瑞金医院
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1