【技术实现步骤摘要】
一种医学文档识别方法、装置及设备
[0001]本专利技术涉及医疗辅助领域,特别是涉及一种医学文档识别方法、装置、设备及计算机可读存储介质。
技术介绍
[0002]近年来随着医院在数字化建设方面不断深入和发展,电子病历、医院内外诊疗资料、健康管理、网络诊疗、生物医药文献、教育材料、新闻报道、行业资料等信息逐年增多,已经达到相当可观的文本数据。而这些文本数据,除了患者在医院诊疗的过程中的病案数据,包含入院记录、病程记录、出院记录、沟通记录、手术记录等,还包括网络诊疗交互数据、健康管理及咨询数据、医学百科、医学资料、医学文献、医学新闻等生命及健康信息数据。。如何在非结构化的医学文档文本中抽取有价值的内容,成为近年来医学领域的研究热点。
[0003]命名实体识别(Named Entity Recognition,NER)任务最早由MUC会议测评会议引入,后来该任务被归类为信息抽取技术中的基本任务之一,为构建知识库和知识图谱提供理论基础。而在医学领域中临床命名实体识别(Clinical Named Entity Recogni ...
【技术保护点】
【技术特征摘要】
1.一种医学文档识别方法,其特征在于,包括:获取待识别文档信息;将所述待识别文档信息作为输入量输入预训练的医学文档识别模型,得到文档识别信息;其中,所述医学文档识别模型为通过医疗结构化数据库,对待处理文档数据进行反向标注得到的标注数据作为输入量训练得到的模型。2.如权利要求1所述的医学文档识别方法,其特征在于,通过医疗结构化数据库对待处理文档数据进行反向标注,得到所述标注数据的方法包括:获取所述医疗结构化数据库的标签库及规则库;通过所述医疗结构化数据库的结构化单元,对所述待处理文档数据进行取词并标注特征数据,得到所述标注数据。3.如权利要求2所述的医学文档识别方法,其特征在于,所述通过所述医疗结构化数据库的结构化单元,对所述待处理文档数据进行取词并标注特征数据,得到所述标注数据包括:通过所述医疗结构化数据库的结构化单元,对所述待处理文档数据进行取词并标注特征数据,得到粗标注数据;通过所述粗标注数据,确定所述粗标注数据对应的汉字的文字属性信息;其中,所述文字属性特征包括偏旁部首特征信息、拼音特征信息、词性特征信息或词边界特征信息中至少一种;根据所述粗标注数据及所述文字属性信息确定所述标注数据。4.如权利要求3所述的医学文档识别方法,其特征在于,所述通过所述医疗结构化数据库的结构化单元,对所述待处理文档数据进行取词并标注特征数据,得到粗标注数据包括:通过所述医疗结构化数据库的结构化单元,对所述待处理文档数据进行取词并标注特征数据,得到含数标注数据;将所述含数标注...
【专利技术属性】
技术研发人员:徐滔伶,闾磊,樊淼淼,陈吟秋,钟应佳,熊亮,
申请(专利权)人:四川医枢科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。