文本识别方法、装置、计算机设备及计算机可读存储介质制造方法及图纸

技术编号:38276643 阅读:22 留言:0更新日期:2023-07-27 10:27
本申请公开了一种文本识别方法、装置、计算机设备及计算机可读存储介质,涉及人工智能技术领域,将医疗短语信息融入基于字符的中文预训练模型,提高模型泛化能力,提升文本识别准确率,更好地适用于疾病诊断、健康管理、远程会诊等医疗场景,提升诊疗质量。所述方法包括:在语料库中提取多个样本语句,对多个样本语句进行分割,得到多个文本单元;根据多个文本单元的出现频率生成粗粒度词汇表,利用粗粒度词汇表生成细粒度词汇表;采用粗粒度词汇表、细粒度词汇表对多个样本语句进行处理,利用深度预测算法对处理后的多个样本语句进行训练,得到中文预训练模型;响应于文本识别请求,将待识别文本输入中文预训练模型,获取输出的文本识别结果。识别结果。识别结果。

【技术实现步骤摘要】
文本识别方法、装置、计算机设备及计算机可读存储介质


[0001]本申请涉及人工智能
,特别是涉及一种文本识别方法、装置、计算机设备及计算机可读存储介质。

技术介绍

[0002]随着人工智能技术的快速发展,自然语言处理方法广泛应用于文本识别任务,与此同时,在自然语言处理过程中预训练模型的重要性也日渐突出。在医疗领域的文本识别任务中,需要先通过中文预训练模型充分利用医疗训练数据当中的词法结构、语法结构以及语义信息去学习建模,以使中文预训练模型尽可能多的学习到医疗训练数据的信息,可以支持疾病辅助诊断、健康管理、远程会诊等功能。其中,预训练是指通过在大规模无标注的语料上进行无监督训练,来学习通用的语言表达和上下文行文特点。
[0003]相关技术中,医疗领域的文本识别任务应用到的预训练模型大多针对英文领域,中文领域起步相对较晚,因此,大多数中文预训练模型基本上沿用了英文模型的做法,聚焦于小颗粒度医疗文本数据的输入,比如就诊平台对患者的病例信息进行识别,得到发、热、急、诊。但是申请人认识到,在文本识别任务过程中,现有的中文预训练模型是基于单个本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本识别方法,其特征在于,包括:在语料库中提取多个样本语句,对所述多个样本语句执行分割操作,得到多个文本单元;根据所述多个文本单元在所述多个样本语句中的出现频率,为所述多个样本语句生成粗粒度词汇表,以及利用所述粗粒度词汇表为所述多个样本语句生成细粒度词汇表;采用所述粗粒度词汇表、所述细粒度词汇表对所述多个样本语句进行处理,以及利用深度预测算法对处理后的所述多个样本语句进行训练,得到中文预训练模型;响应于文本识别请求,获取待识别文本,以及将所述待识别文本输入至所述中文预训练模型中,获取所述中文预训练模型输出的文本识别结果。2.根据权利要求1所述的方法,其特征在于,所述对所述多个样本语句执行分割操作,得到多个文本单元,包括:获取中文分词工具,其中,所述中文分词工具中设置有预设语句分割规则;对于所述多个样本语句的每个样本语句,采用所述中文分词工具按照所述预设语句分割规则对所述样本语句执行分割操作,得到至少一个文本单元,所述文本单元是单字、词语、长尾中文词、非中文标记词中的一种或多种;采用所述中文分词工具按照所述预设语句分割规则分别对所述多个样本语句执行分割操作,得到所述多个文本单元。3.根据权利要求1所述的方法,其特征在于,所述根据所述多个文本单元在所述多个样本语句中的出现频率,为所述多个样本语句生成粗粒度词汇表,包括:创建一空白表格作为第一初始词汇表;统计所述多个文本单元中每个文本单元在所述多个样本语句中重复出现的出现频率,得到所述多个文本单元的多个出现频率;获取预设覆盖阈值,将所述多个出现频率分别与所述预设覆盖阈值进行比对,确定出现频率大于等于所述预设覆盖阈值的多个目标文本单元;对所述多个目标文本单元进行过滤处理,在所述多个目标文本单元中将重复出现的目标文本单元删除;将处理后的所述多个目标文本单元加入所述第一初始词汇表,得到所述粗粒度词汇表。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:当一文本单元是长尾中文词、非中文标记词中的任一种时,获取预设分词规则,以及采用所述预设分词规则对所述文本单元执行分词操作,得到所述文本单元的多个拆分单元;将所述多个拆分单元添加至所述粗粒度词汇表。5.根据权利要求1所述的方法,其特征在于,所述利用所述粗粒度词汇表为所述多个样本语句生成细粒度词汇表,包括:创建一空白表格作为第二初始词汇表,以及获取所述粗粒度词汇表包括的多个粗粒度文本单元;将所述多个粗粒度文本单元中每个粗粒度文本单元拆分成至少一个字符,得到多个字符;对所述多个字符进行过滤处理,在所述多个字符中将重复出现的字符删除;
将处理后的所述多个字符加入所述第二初始词汇表,得到所述细粒度词汇表。6.根据权利要求1所述的方法,其特征在于,所述采用所述粗粒度词汇表、所述细粒度词汇表对所述多个样本语句进行处理,包括:在所述多个样本语句中任选一个样本语句作为预训练样本;根据所述细粒度词汇表包括的多个细粒度字符,对所述预训练样本执行拆分操作,得到所述预训练样本的多个细粒度样本单元;确定所述多个细粒度样本单元中每个细粒度样...

【专利技术属性】
技术研发人员:朱威
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1