当前位置: 首页 > 专利查询>河南大学专利>正文

一种在医疗文本中基于词汇构词法获取时间复合词的方法及系统及装置制造方法及图纸

技术编号:30768981 阅读:34 留言:0更新日期:2021-11-10 12:34
本发明专利技术公开了一种在医疗文本中提取时间复合词的方法及装置及系统,具体涉及自然语言处理信息抽取技术领域。本发明专利技术包括读取模块、计算模块、展示模块。读取模块主要指系统读取医疗文本。计算模块包含时间复合词提取单元、时间复合词更新单元、新时间复合词结构提取单元。时间复合词的提取主要根据构词法“数词+时间词+时间搭配词”,需人工总结部分时间复合词结构。步骤如下:a.读取医疗文本;b.通过时间复合词结构提取时间复合词;c.通过时间复合词获取时间复合词结构。如果结果较已有的实体在数量上有增加,则继续迭代,否则结束。展示模块包括:存储单元、输出单元。本发明专利技术以医疗文本为起点,最终实现医疗文本中时间复合词的准确抽取。取。取。

【技术实现步骤摘要】
一种在医疗文本中基于词汇构词法获取时间复合词的方法及系统及装置


[0001]本专利技术涉及自然语言处理信息抽取的
,具体涉及一种在医疗文本中提取时间复合词的方法及装置及系统。

技术介绍

[0002]近些年来,互联网上积累了大量的医疗文本。医疗文本主要包括专业教材、专业医疗网站、医疗大典、电子病例、医疗科研期刊中的论文。这些医疗文本中包含了丰富的医疗数据,其中主要包括疾病的发病时间、治疗时间、病因、症状、治疗、诊断等信息。但是这些海量的数据大多以半结构化或非结构化的形式存在,目前自然语言处理或信息抽取技术对于在非结构化文本中提取完整、准确的信息不太成熟。已有公司或产品尚不能将疾病时间复合词提取到准确水平。本专利技术主要分析医疗文本中常用时间复合词结构,将时间复合词结构数学化,设计了一种迭代算法和程序,能够从医疗文本中迭代地获取准确的时间复合词。
[0003]随着计算机的不断发展,文本挖掘系统已经得到了实现。如一种基于非结构化电子病历的文本挖掘方法及系统,专利申请号为201910701406.5,包括了文本预处理模块、特征工程模块、分本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种在医疗文本中获取时间复合词的方法,其特征在于,包括:步骤S100:获取医疗文本并人工总结部分时间复合词结构;步骤S200:提取时间复合词,基于时间复合词结构,在医疗文本中,通过时间复合词结构获取时间复合词;步骤S300:对时间复合词进行除杂,将除杂后的时间复合词并入到已有的时间复合词集合中;步骤S400:提取时间复合词结构,基于更新后的时间复合词集合,提取新的时间复合词结构;步骤S500:进行时间复合词结构除杂、验证并并入已有的时间复合词结构集合中;步骤S600:基于新的时间复合词结构,重复步骤S200,直到没有新的时间复合词结构为止。2.根据权利要求1所述的医疗文本中提取时间复合词的方法,其特征在于,所述时间复合词的除杂是根据Hanlp分词工具进行分词和停用词过滤,然后加入特定阈值筛选条件进行筛选。3.根据权利要求1所述的医疗文本中提取时间复合词的方法,其特征在于,所述医疗文本的获取是通过正则表达式来获取非结构化文本中的中文句子。4.根据权利要求1所述的医疗文本中提取时间复合词的方法,其特...

【专利技术属性】
技术研发人员:卢旭召李军周鹏程冯洪海魏亚举侯瑞辉
申请(专利权)人:河南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1