一种跨类型乳腺肿瘤临床文档的结构化处理方法技术

技术编号：16700713 阅读：60 留言：0更新日期：2017-12-02 13:03

本发明专利技术提供了一种跨类型乳腺肿瘤临床文档的结构化处理方法，步骤1：对乳腺肿瘤临床文档的文本进行预处理，包括：切分短文本、及对切分后的短文本进行分词；步骤2：针对分词结果，进行单类型报告的部分语料标注；步骤3：采用所述单类型报告的语料，实现跨类型实体识别；步骤4：提取出结构化结果，包括：组织、位置、特征、特征值。本发明专利技术提供的方法克服了现有技术的不足，结构化信息的提取是自动形成，节省了人力与时间，且不局限于报告类型，可以应用于不同报告的特征识别与文本结构化，解决了中文跨类型临床文档的结构化处理问题。方法实现简单，处理速度快，处理结果准确率高。

A structured processing method for the clinical document of cross type breast tumor

The invention provides a structured approach, a cross type breast cancer clinical document step 1: text of clinical documents of breast tumors are pre processed, including: segmentation and segmentation of the short text, short text segmentation; step 2: according to the results of segmentation, labeling data type single report; step 3: using the single type of report data, cross type entity recognition; step 4: structured extracted results, including: organization, location, feature, characteristic value. The method provided by the invention overcomes the defects of the existing technology, extracting structured information is formed automatically, save manpower and time, and it is not limited to the type of report, can be applied to pattern recognition and text structuring different reports, solve the structured processing problem Chinese across types of clinical documents. The method is simple to realize, the processing speed is fast, and the accuracy rate of the processing result is high.

全部详细技术资料下载

【技术实现步骤摘要】
一种跨类型乳腺肿瘤临床文档的结构化处理方法
本专利技术涉及自然语言处理
，尤其涉及一种基于跨类型半监督学习的乳腺肿瘤临床文档的结构化处理方法。
技术介绍
由于近些年计算机技术高速发展，导致各行业信息电子存储方式越来越流行，医疗数据尤甚，现如今病人的病历已逐渐转换为电子病历，取代手写纸张病历。目前医院累积了大量电子病历，虽然与传统的纸质病历相比，电子病历对于数据的采集和分析更加容易，但是由于电子病历是纸质病历的电子化存储，因此其中病人病情描述记录以及病理报告中的检验信息都是自然语言形式存储的医疗记录，为了方便管理数据并从中得到有用的信息，自然语言结构化处理成为了必不可少的手段。医疗信息较复杂且更灵活，不同类型的临床文档报告有各自的语言特点，所以现有的结构化实现技术很难满足跨类型临床文档结构化要求。因此，如何实现跨类型临床文档结构化处理成为了目前急需解决的关键问题之一。
技术实现思路
本专利技术要解决的技术问题是如何实现跨类型乳腺肿瘤临床文档的结构化处理。为了解决上述技术问题，本专利技术的技术方案是提供一种跨类型乳腺肿瘤临床文档的结构化处理方法，其特征在于，包括如下步骤：步骤1：对乳腺肿瘤临床文档的文本进行预处理，包括：切分短文本、及对切分后的短文本进行分词；步骤2：针对分词结果，进行单类型报告的部分语料标注；步骤3：采用所述单类型报告的语料，实现跨类型实体识别；步骤4：提取出结构化结果，包括：组织、位置、特征、特征值。优选地，所述步骤1中，切分短文本是指：通过截取方法将乳腺肿瘤临床文档的文本分为不包含两个特征的短句。优选地，所述步骤1中，分词是指：针对切分...
一种跨类型乳腺肿瘤临床文档的结构化处理方法

【技术保护点】
一种跨类型乳腺肿瘤临床文档的结构化处理方法，其特征在于，包括如下步骤：步骤1：对乳腺肿瘤临床文档的文本进行预处理，包括：切分短文本、及对切分后的短文本进行分词；步骤2：针对分词结果，进行单类型报告的部分语料标注；步骤3：采用所述单类型报告的语料，实现跨类型实体识别；步骤4：提取出结构化结果，包括：组织、位置、特征、特征值。

【技术特征摘要】
1.一种跨类型乳腺肿瘤临床文档的结构化处理方法，其特征在于，包括如下步骤：步骤1：对乳腺肿瘤临床文档的文本进行预处理，包括：切分短文本、及对切分后的短文本进行分词；步骤2：针对分词结果，进行单类型报告的部分语料标注；步骤3：采用所述单类型报告的语料，实现跨类型实体识别；步骤4：提取出结构化结果，包括：组织、位置、特征、特征值。2.如权利要求1所述的一种跨类型乳腺肿瘤临床文档的结构化处理方法，其特征在于：所述步骤1中，切分短文本是指：通过截取方法将乳腺肿瘤临床文档的文本分为不包含两个特征的短句。3.如权利要求1所述的一种跨类型乳腺肿瘤临床文档的结构化处理方法，其特征在于：所述步骤1中，分词是指：针对切分后的短文本，采用jieba分词工具，结合肉眼观察和历史资料制作的自定义词典，切分成短语。4.如权利要求1所述的一种跨类型乳腺肿瘤临床文档的结构化处理方法，其特征在于：所述步骤2中，语料标注是指：采用句法分析与人工标注相结...

【专利技术属性】
技术研发人员：陈德华，车楠楠，朱立峰，乐嘉锦，潘乔，
申请(专利权)人：东华大学，上海交通大学医学院附属瑞金医院，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人