当前位置: 首页 > 专利查询>东华大学专利>正文

非结构化中文乳腺超声文本的结构化处理方法技术

技术编号:14854455 阅读:47 留言:0更新日期:2017-03-18 21:50
本发明专利技术涉及本发明专利技术涉及非结构化中文乳腺超声文本的结构化处理方法,该方法接受由超声科医生书写的非结构化中文乳腺超声文本,输出结构化之后的超声特征及其特征值,该方法包括以下步骤:对乳腺超声文本内容按照描述规则,分别切分为描述双、左、右侧乳腺的文本短句;对切分后的文本短句进行同义词替换;对替换后的文本短句分别进行句法分析;乳腺超声特征、特征值的提取。本发明专利技术能够将非结构化的中文乳腺超声文本进行结构化处理。

【技术实现步骤摘要】

本专利技术涉及一种针对中文超声诊断文本结构化处理方法,属于自然语言处理领域。
技术介绍
伴随大数据分析处理技术的进步和医疗行业信息化,医疗信息呈爆炸式增长。随着医疗和科学技术的发展,人们对医疗诊断的效率和准确度更加关注。目前医院累积了大量非结构化的数据,并且每天仍在持续增长。为了方便管理数据并从中得到有用的信息,结构化处理成为了必不可少的手段。自然语言处理是当今技术发展的热门。现有的技术多为句法分析、词频统计,聚类等。但是如何合理的运用这些方法并优化,以期更高效的处理数据就成为了结构化处理的难题。
技术实现思路
本专利技术的目的是提供一种中文乳腺超声文本的结构化处理方法。为了达到上述目的,本专利技术的技术方案是提供了一种非结构化中文乳腺超声文本的结构化处理方法,其特征在于,包括以下步骤:步骤1、对乳腺超声文本内容按照描述规则,分别切分为描述双、左、右侧乳腺的文本短句;步骤2、利用自定义的同义词替换词典对切分后的文本短句进行同义词替换;步骤3、对替换后的文本短句分别进行句法分析,以{关键字key:值value
非结构化中文乳腺超声文本的结构化处理方法

【技术保护点】
一种非结构化中文乳腺超声文本的结构化处理方法,其特征在于,包括以下步骤:步骤1、对乳腺超声文本内容按照描述规则,分别切分为描述双、左、右侧乳腺的文本短句;步骤2、利用自定义的同义词替换词典对切分后的文本短句进行同义词替换;步骤3、对替换后的文本短句分别进行句法分析,以{关键字key:值value}的形式输出结果,其中,关键字key及值value均为根据自定义的词语属性在步骤2得到的文本短句中找到的单个词或词语;步骤4、提取乳腺超声的特征及特征值,其中,针对步骤3得到的关键字key及步骤2得到的文本短句中的名词,结合同义词替换词典中的相关词语,提取自定义的特征,再根据特征提取特征值。

【技术特征摘要】
1.一种非结构化中文乳腺超声文本的结构化处理方法,其特征在于,包括以下步骤:步骤1、对乳腺超声文本内容按照描述规则,分别切分为描述双、左、右侧乳腺的文...

【专利技术属性】
技术研发人员:陈德华车楠楠朱立峰乐嘉锦潘乔
申请(专利权)人:东华大学上海交通大学医学院附属瑞金医院
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1