心血管疾病信息实体标注和识别方法、装置和系统制造方法及图纸

技术编号:32462880 阅读:36 留言:0更新日期:2022-02-26 08:55
本发明专利技术公开一种心血管疾病信息实体标注和识别方法、系统及设备,提取数字文件中的全文信息或收集做好切词准备的数据,将数据输入标签函数,基于正则匹配对信息进行分词训练并产生标签,根据模型的入参,将标签数据和原始数据整合后,输入到模型中进行实体识别模型训练产出了结果集以及相应的评分结果。本发明专利技术通过模型训练,解决了海量数字文件的信息实体标注的时效和成本问题,并且通过程序实现的方式让非算法人员可以快速实现操作,属于工具类的极大创新,可以广泛应用于数字应用领域的数据标注,为互联网业务和资源对接等提供了便利,大量节约时间和资金成本。大量节约时间和资金成本。大量节约时间和资金成本。

【技术实现步骤摘要】
心血管疾病信息实体标注和识别方法、装置和系统
[0001]本申请是申请日为2021年7月27日,申请号为CN202110848292.4,专利技术名称为“数字文件信息实体标注和识别方法、装置和系统”的中国专利技术专利申请的分案申请。


[0002]本专利技术涉及人工智能
,应用于互联网技术方向,尤其涉及一种心血管疾病信息实体标注和识别方法、装置和系统。

技术介绍

[0003]随着互联网技术的普及,越来越多的应用应运而生,互联网+应用成为方便人们和社会获得更加平等和便捷医疗服务的有效手段,对于数字文件的识别从人工到文本自动识别再到人工智能技术的应用,由于对专业知识人员的要求度极高,不仅需要专业医疗知识,还需要算法或开发的知识,因此不够方便也会极大地增加负担。

技术实现思路

[0004]针对上述缺陷,本专利技术要解决的技术问题是如何借助人工智能技术和自然语言处理技术感知和识别用户的各种信息并对后续决策流程进行建模,实现自动执行和智能决策。
[0005]针对上述缺陷,本专利技术的目的在于提供一种心血管疾病信息实体标本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种心血管疾病信息实体标注和识别方法,从用户输入的冠状动脉造影本报告单和/或冠状动脉造影病例报告中经过OCR提取全文本信息并对文本信息进行切词处理或收集做好切词准备的数据,通过词表,将纯文本处理成表格中的四元组数据,通过词表,将纯文本处理成表格中的四元组数据,关联Snorkel训练模型并分配计算空间,上传需要打标的数据集,生成标签函数并进行模型训练,通过Snorkel训练对输入的数据产出对应的实体,将标注好的数据与原始数据融合,生成Bert训练的数据,输入到模型中进行实体识别模型训练产出了结果集以及相应的评分结果。2.根据权利要求1所述的心血管疾病信息实体标注和识别方法,其特征在于,所述方法根据需求创建任务,关联训练模型,分配计算空间后上传要打标的数据集。3.根据权利要求1所述的心血管疾病信息实体标注和识别方法,其特征在于,通过词表将纯文本处理成表格中的四元组数据,关键字、实体类型、位置以及文本下标。4.根据权利要求1

3之一所述的心血管疾病信息实体标注和识别方法,其特征在于,将数据作为标签函数的输入,通过Snorkel模型的训练后针对每一行数据都产生一个实体。5.根据权利要求4所述的心血管疾病信息实体标注和识别方法,其特征在于,所述方法包括:S201、从冠状动脉造影本报告单和/或冠状动脉造影病例报告中经过OCR提取全文本信息,包括冠状动脉造影病案号;S202、通过词表,将纯文本处理成表格中的四元组数据;S203、将步骤S202得到的数据作为标签函数的输入,通过Snorkel的训练后针对每一行的数据产出一个实体,冠状动脉造影报告单对应为右冠状动脉label,冠状动...

【专利技术属性】
技术研发人员:陈冠伟
申请(专利权)人:北京好欣晴移动医疗科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1