【技术实现步骤摘要】
一种在医疗文本中基于词汇构词法获取时间复合词的方法及系统及装置
[0001]本专利技术涉及自然语言处理信息抽取的
,具体涉及一种在医疗文本中提取时间复合词的方法及装置及系统。
技术介绍
[0002]近些年来,互联网上积累了大量的医疗文本。医疗文本主要包括专业教材、专业医疗网站、医疗大典、电子病例、医疗科研期刊中的论文。这些医疗文本中包含了丰富的医疗数据,其中主要包括疾病的发病时间、治疗时间、病因、症状、治疗、诊断等信息。但是这些海量的数据大多以半结构化或非结构化的形式存在,目前自然语言处理或信息抽取技术对于在非结构化文本中提取完整、准确的信息不太成熟。已有公司或产品尚不能将疾病时间复合词提取到准确水平。本专利技术主要分析医疗文本中常用时间复合词结构,将时间复合词结构数学化,设计了一种迭代算法和程序,能够从医疗文本中迭代地获取准确的时间复合词。
[0003]随着计算机的不断发展,文本挖掘系统已经得到了实现。如一种基于非结构化电子病历的文本挖掘方法及系统,专利申请号为201910701406.5,包括了文本预处理模 ...
【技术保护点】
【技术特征摘要】
1.一种在医疗文本中获取时间复合词的方法,其特征在于,包括:步骤S100:获取医疗文本并人工总结部分时间复合词结构;步骤S200:提取时间复合词,基于时间复合词结构,在医疗文本中,通过时间复合词结构获取时间复合词;步骤S300:对时间复合词进行除杂,将除杂后的时间复合词并入到已有的时间复合词集合中;步骤S400:提取时间复合词结构,基于更新后的时间复合词集合,提取新的时间复合词结构;步骤S500:进行时间复合词结构除杂、验证并并入已有的时间复合词结构集合中;步骤S600:基于新的时间复合词结构,重复步骤S200,直到没有新的时间复合词结构为止。2.根据权利要求1所述的医疗文本中提取时间复合词的方法,其特征在于,所述时间复合词的除杂是根据Hanlp分词工具进行分词和停用词过滤,然后加入特定阈值筛选条件进行筛选。3.根据权利要求1所述的医疗文本中提取时间复合词的方法,其特征在于,所述医疗文本的获取是通过正则表达式来获取非结构化文本中的中文句子。4.根据权利要求1所述的医疗文本中提取时间复合词的方法,其特...
【专利技术属性】
技术研发人员:卢旭召,李军,周鹏程,冯洪海,魏亚举,侯瑞辉,
申请(专利权)人:河南大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。