基于人工智能的文本处理方法、装置、设备、介质制造方法及图纸

技术编号:24411516 阅读:11 留言:0更新日期:2020-06-06 09:25
公开了一种基于人工智能的文本处理方法、装置、设备、介质。所述文本处理方法包括:对待处理图像进行字符识别以确定包括至少两行文本的待处理文本;针对所述至少两行文本中的每行文本,确定该行文本所属的文本类别;根据所述至少两行文本中每行文本所属的文本类别,从所述待处理文本中获取对应于所述文本类别的文本。

Text processing methods, devices, equipment and media based on Artificial Intelligence

【技术实现步骤摘要】
基于人工智能的文本处理方法、装置、设备、介质
本申请涉及文本处理领域,更具体地涉及一种基于人工智能的文本处理方法、装置、设备、介质。
技术介绍
在一些应用场景中,可能无法直接得到数字化的文本内容,而需要从影像化的信息中提取文本信息的场景。例如,可以从医学检查报告这样的影像化信息中提取其中的有效信息,如检查结果。又例如,可以从宣传海报中提取其中的宣传对象和宣传内容等。由于从影像化的信息中识别的字符形成的文本可能包括无用的信息,因此,需要一种高效并准确地从根据影像化信息识别的字符中抽取有效信息的方法。
技术实现思路
根据本申请的一方面,提出了一种基于人工智能的文本处理方法,包括:对待处理图像进行字符识别以确定包括至少两行文本的待处理文本;针对所述至少两行文本中的每行文本,确定该行文本所属的文本类别;根据所述至少两行文本中每行文本所属的文本类别,从所述待处理文本中获取对应于所述文本类别的文本。在一些实施例中,针对所述至少两行文本中的每行文本,确定该行文本所属的文本类别包括:针对所述至少两行文本中每行文本,基于所述至少两行文本的上下文对该行文本中的每个字符进行标注,以得到该行文本的标注序列;以及基于该行文本的标注序列确定该行文本所属的文本类别。在一些实施例中,针对所述至少两行文本中的每行文本,确定该行文本所属的文本类别包括:针对所述至少两行文本中的每行文本,对该行文本进行文本分类,以确定该行文本所属的文本类别。在一些实施例中,针对所述至少两行文本中的每行文本,确定该行文本所属的文本类别还包括:对所述至少两行文本中相邻两行文本进行文本分类,以得到指示所述相邻两行文本是否属于同一文本段的检测结果;基于检测结果确定所述至少两行文本中的待调整文本行;以及基于所述待调整文本行的相邻文本行所属的文本类别,调整所述待调整文本行所属的文本类别。在一些实施例中,基于检测结果确定所述至少两行文本中的待调整文本行包括:当所述检测结果指示被检测的文本行与前一行文本和后一行文本中属于同一文本段,并且所述被检测的文本行所属的文本类别与所述前一行文本所属的文本类别和所述后一行文本所属的文本类别不同时,将所述被检测的文本行确定为待调整文本行。在一些实施例中,根据所述文本类别从所述待处理文本中获取对应于所述文本类别的文本包括:根据所述文本类别对所述待处理文本中的至少两行文本进行组合,以确定对应于所述文本类别的文本段;输出对应于所述文本类别的文本段。在一些实施例中,根据所述文本类别从所述待处理文本中获取对应于所述文本类别的文本还包括:对对应于所述文本类别的文本进行分句;在分句后的文本中查找包含预设关键词的文本句;基于所述预设关键词输出对应于所述文本类别的所述文本句。在一些实施例中,所述待处理图像是医学检查报告,所述待处理文本包括针对医学图像的医学描述文本和医学结论文本,所述文本类别包括描述类别和结论类别,基于所述预设关键词输出对应于所述文本类别的所述文本句包括:针对预设的多个关键词中的每个关键词,分别输出基于包含该关键词的对应于描述类别的文本句和对应于所述结论类别的文本句。在一些实施例中,对待处理图像进行字符识别以确定包括至少两行文本的待处理文本包括:对待处理图像进行光学字符识别,以确定所述待处理图像中的至少两个文本框;基于所述文本框的坐标和高度确定位于同一行的至少一个文本框;组合位于同一行的至少一个文本框中的字符,作为待处理文本中的一行文本。在一些实施例中,所述文本类别包括描述类别和结论类别。根据本申请的另一方面,还提供了一种基于人工智能的文本处理装置,包括:待处理文本确定单元,配置成对待处理图像进行字符识别以确定包括至少两行文本的待处理文本;文本类别确定单元,配置成针对所述至少两行文本中的每行文本,确定该行文本所属的文本类别;文本获取单元,配置成根据所述至少两行文本中每行文本所属的文本类别,从所述待处理文本中获取对应于所述文本类别的文本。在一些实施例中,所述文本类别确定单元配置成:针对所述至少两行文本中每行文本,基于所述至少两行文本的上下文对该行文本中的每个字符进行标注,以得到该行文本的标注序列;以及基于该行文本的标注序列确定该行文本所属的文本类别。在一些实施例中,所述文本类别确定单元配置成:针对所述至少两行文本中的每行文本,对该行文本进行文本分类,以确定该行文本所属的文本类别。在一些实施例中,所述文本类别确定单元还配置成:对所述至少两行文本中相邻两行文本进行文本分类,以得到指示所述相邻两行文本是否属于同一文本段的检测结果;基于检测结果确定所述至少两行文本中的待调整文本行;以及基于所述待调整文本行的相邻文本行所属的文本类别,调整所述待调整文本行所属的文本类别。在一些实施例中,,基于检测结果确定所述至少两行文本中的待调整文本行包括:当所述检测结果指示被检测的文本行与前一行文本和后一行文本中属于同一文本段,并且所述被检测的文本行所属的文本类别与所述前一行文本所属的文本类别和所述后一行文本所属的文本类别不同时,将所述被检测的文本行确定为待调整文本行。在一些实施例中,所述文本获取单元配置成:根据所述文本类别对所述待处理文本中的至少两行文本进行组合,以确定对应于所述文本类别的文本段;输出对应于所述文本类别的文本段。在一些实施例中,所述文本获取单元还配置成:对对应于所述文本类别的文本进行分句;在分句后的文本中查找包含预设关键词的文本句;基于所述预设关键词输出对应于所述文本类别的所述文本句。在一些实施例中,所述文本获取单元配置成:所述待处理图像是医学检查报告,所述待处理文本包括针对医学图像的医学描述文本和医学结论文本,所述文本类别包括描述类别和结论类别,基于所述预设关键词输出对应于所述文本类别的所述文本句包括:针对预设的多个关键词中的每个关键词,分别输出基于包含该关键词的对应于描述类别的文本句和对应于所述结论类别的文本句。在一些实施例中,所述待处理文本确定单元配置成:对待处理图像进行字符识别以确定包括至少两行文本的待处理文本包括:对待处理图像进行光学字符识别,以确定所述待处理图像中的至少两个文本框;基于所述文本框的坐标和高度确定位于同一行的至少一个文本框;组合位于同一行的至少一个文本框中的字符,作为待处理文本中的一行文本。在一些实施例中,所述文本类别包括描述类别和结论类别。根据本申请的又一方面,还提供了一种文本处理设备,包括:一个或多个处理器;和一个或多个存储器,其中,所述存储器中存储有计算机可读代码,所述计算机可读代码当由所述一个或多个处理器运行时,执行如前所述的文本处理方法。根据本申请的又一方面,还提供了一种计算机可读存储介质,其上存储有指令,所述指令在被处理器执行时,使得所述处理器执行如前所述的文本处理方法。利用本申请提供的基于人工智能的文本处理方法、装置、设备、介质,,可以应用基于人工智能的自然语言处理技术,基于待处理文本的上下文之间的语义信息筛选出属于不同类别的文本行,因此降低了文本提取过程对待处理本文档来自技高网...

【技术保护点】
1.一种基于人工智能的文本处理方法,其特征在于,包括:/n对待处理图像进行字符识别以确定待处理文本;/n针对所述待处理文本中的每行文本,确定该行文本所属的文本类别;/n根据至少两行文本中每行文本所属的文本类别,从所述待处理文本中获取对应于所述文本类别的文本。/n

【技术特征摘要】
1.一种基于人工智能的文本处理方法,其特征在于,包括:
对待处理图像进行字符识别以确定待处理文本;
针对所述待处理文本中的每行文本,确定该行文本所属的文本类别;
根据至少两行文本中每行文本所属的文本类别,从所述待处理文本中获取对应于所述文本类别的文本。


2.如权利要求1所述的文本处理方法,其特征在于,针对所述至少两行文本中的每行文本,确定该行文本所属的文本类别包括:
针对所述至少两行文本中每行文本,
基于所述至少两行文本的上下文对该行文本中的每个字符进行标注,以得到该行文本的标注序列;以及
基于该行文本的标注序列确定该行文本所属的文本类别。


3.如权利要求1所述的文本处理方法,其特征在于,针对所述至少两行文本中的每行文本,确定该行文本所属的文本类别包括:
针对所述至少两行文本中的每行文本,对该行文本进行文本分类,以确定该行文本所属的文本类别。


4.如权利要求2或3所述的文本处理方法,其特征在于,针对所述至少两行文本中的每行文本,确定该行文本所属的文本类别还包括:
对所述至少两行文本中相邻两行文本进行文本分类,以得到指示所述相邻两行文本是否属于同一文本段的检测结果;
基于检测结果确定所述至少两行文本中的待调整文本行;以及
基于所述待调整文本行的相邻文本行所属的文本类别,调整所述待调整文本行所属的文本类别。


5.如权利要求4所述的文本处理方法,其特征在于,基于检测结果确定所述至少两行文本中的待调整文本行包括:
当所述检测结果指示被检测的文本行与前一行文本和后一行文本中属于同一文本段,并且所述被检测的文本行所属的文本类别与所述前一行文本所属的文本类别和所述后一行文本所属的文本类别不同时,将所述被检测的文本行确定为待调整文本行。


6.如权利要求1所述的文本处理方法,其特征在于,根据所述文本类别从所述待处理文本中获取对应于所述文本类别的文本包括:
根据所述文本类别对所述待处理文本中的至少两行文本进行组合,以确定对应于所述文本类别的文本段;
输出对应于所述文本类别的文本段。


7.如权利要求1所述的文本处理方法,其特征在于,根据所述文本类别从所述待处理文本中获取对应于所述文本类别的文本还包括:
对对应于所述文本类别的文本进行分句;
在分句后的文本中查找包含预设关键词的文本句;
基于所述预设关键词输出对应于...

【专利技术属性】
技术研发人员:苏晨李斌洪科元
申请(专利权)人:腾讯云计算北京有限责任公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1