一种医学文档识别方法、装置及设备制造方法及图纸

技术编号:31455985 阅读:27 留言:0更新日期:2021-12-18 11:22
本发明专利技术公开了一种医学文档识别方法,通过获取待识别文档信息;将所述待识别文档信息作为输入量输入预训练的医学文档识别模型,得到文档识别信息;其中,所述医学文档识别模型为通过医疗结构化数据库,对待处理文档数据进行反向标注得到的标注数据作为输入量训练得到的模型。本发明专利技术利用了医疗结构化数据库,通过对大量未标注医疗数据进行反向标注,无需人工介入即可获得大量的医学标注样本,相比于现有技术,大大节约了人工成本与时间成本,使最终得到的医学文档识别模型的识别准确率大幅提升,方便了医疗机构从大量纸质文档中归纳有价值数据。本发明专利技术同时还提供了一种具有上述有益效果的医学文档识别装置、设备及计算机可读存储介质。储介质。储介质。

【技术实现步骤摘要】
一种医学文档识别方法、装置及设备


[0001]本专利技术涉及医疗辅助领域,特别是涉及一种医学文档识别方法、装置、设备及计算机可读存储介质。

技术介绍

[0002]近年来随着医院在数字化建设方面不断深入和发展,电子病历、医院内外诊疗资料、健康管理、网络诊疗、生物医药文献、教育材料、新闻报道、行业资料等信息逐年增多,已经达到相当可观的文本数据。而这些文本数据,除了患者在医院诊疗的过程中的病案数据,包含入院记录、病程记录、出院记录、沟通记录、手术记录等,还包括网络诊疗交互数据、健康管理及咨询数据、医学百科、医学资料、医学文献、医学新闻等生命及健康信息数据。。如何在非结构化的医学文档文本中抽取有价值的内容,成为近年来医学领域的研究热点。
[0003]命名实体识别(Named Entity Recognition,NER)任务最早由MUC会议测评会议引入,后来该任务被归类为信息抽取技术中的基本任务之一,为构建知识库和知识图谱提供理论基础。而在医学领域中临床命名实体识别(Clinical Named Entity Recognition,CNER)本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种医学文档识别方法,其特征在于,包括:获取待识别文档信息;将所述待识别文档信息作为输入量输入预训练的医学文档识别模型,得到文档识别信息;其中,所述医学文档识别模型为通过医疗结构化数据库,对待处理文档数据进行反向标注得到的标注数据作为输入量训练得到的模型。2.如权利要求1所述的医学文档识别方法,其特征在于,通过医疗结构化数据库对待处理文档数据进行反向标注,得到所述标注数据的方法包括:获取所述医疗结构化数据库的标签库及规则库;通过所述医疗结构化数据库的结构化单元,对所述待处理文档数据进行取词并标注特征数据,得到所述标注数据。3.如权利要求2所述的医学文档识别方法,其特征在于,所述通过所述医疗结构化数据库的结构化单元,对所述待处理文档数据进行取词并标注特征数据,得到所述标注数据包括:通过所述医疗结构化数据库的结构化单元,对所述待处理文档数据进行取词并标注特征数据,得到粗标注数据;通过所述粗标注数据,确定所述粗标注数据对应的汉字的文字属性信息;其中,所述文字属性特征包括偏旁部首特征信息、拼音特征信息、词性特征信息或词边界特征信息中至少一种;根据所述粗标注数据及所述文字属性信息确定所述标注数据。4.如权利要求3所述的医学文档识别方法,其特征在于,所述通过所述医疗结构化数据库的结构化单元,对所述待处理文档数据进行取词并标注特征数据,得到粗标注数据包括:通过所述医疗结构化数据库的结构化单元,对所述待处理文档数据进行取词并标注特征数据,得到含数标注数据;将所述含数标注...

【专利技术属性】
技术研发人员:徐滔伶闾磊樊淼淼陈吟秋钟应佳熊亮
申请(专利权)人:四川医枢科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1