基于人工智能的文本处理方法、装置、设备、介质制造方法及图纸

技术编号：24411516 阅读：11 留言：0更新日期：2020-06-06 09:25

公开了一种基于人工智能的文本处理方法、装置、设备、介质。所述文本处理方法包括：对待处理图像进行字符识别以确定包括至少两行文本的待处理文本；针对所述至少两行文本中的每行文本，确定该行文本所属的文本类别；根据所述至少两行文本中每行文本所属的文本类别，从所述待处理文本中获取对应于所述文本类别的文本。

Text processing methods, devices, equipment and media based on Artificial Intelligence

全部详细技术资料下载

【技术实现步骤摘要】
基于人工智能的文本处理方法、装置、设备、介质
本申请涉及文本处理领域，更具体地涉及一种基于人工智能的文本处理方法、装置、设备、介质。
技术介绍
在一些应用场景中，可能无法直接得到数字化的文本内容，而需要从影像化的信息中提取文本信息的场景。例如，可以从医学检查报告这样的影像化信息中提取其中的有效信息，如检查结果。又例如，可以从宣传海报中提取其中的宣传对象和宣传内容等。由于从影像化的信息中识别的字符形成的文本可能包括无用的信息，因此，需要一种高效并准确地从根据影像化信息识别的字符中抽取有效信息的方法。
技术实现思路
根据本申请的一方面，提出了一种基于人工智能的文本处理方法，包括：对待处理图像进行字符识别以确定包括至少两行文本的待处理文本；针对所述至少两行文本中的每行文本，确定该行文本所属的文本类别；根据所述至少两行文本中每行文本所属的文本类别，从所述待处理文本中获取对应于所述文本类别的文本。在一些实施例中，针对所述至少两行文本中的每行文本，确定该行文本所属的文本类别包括：针对所述至少两行文本中每行文本，基于所述至少两行文本的上下文对该行文本中的每个字符进行标注，以得到该行文本的标注序列；以及基于该行文本的标注序列确定该行文本所属的文本类别。在一些实施例中，针对所述至少两行文本中的每行文本，确定该行文本所属的文本类别包括：针对所述至少两行文本中的每行文本，对该行文本进行文本分类，以确定该行文本所属的文本类别。在一些实施例中，针对所述至少两行文本中的每行文本，确定该行文本所属的文本...

【技术保护点】
1.一种基于人工智能的文本处理方法，其特征在于，包括：/n对待处理图像进行字符识别以确定待处理文本；/n针对所述待处理文本中的每行文本，确定该行文本所属的文本类别；/n根据至少两行文本中每行文本所属的文本类别，从所述待处理文本中获取对应于所述文本类别的文本。/n

【技术特征摘要】
1.一种基于人工智能的文本处理方法，其特征在于，包括：
对待处理图像进行字符识别以确定待处理文本；
针对所述待处理文本中的每行文本，确定该行文本所属的文本类别；
根据至少两行文本中每行文本所属的文本类别，从所述待处理文本中获取对应于所述文本类别的文本。

2.如权利要求1所述的文本处理方法，其特征在于，针对所述至少两行文本中的每行文本，确定该行文本所属的文本类别包括：
针对所述至少两行文本中每行文本，
基于所述至少两行文本的上下文对该行文本中的每个字符进行标注，以得到该行文本的标注序列；以及
基于该行文本的标注序列确定该行文本所属的文本类别。

3.如权利要求1所述的文本处理方法，其特征在于，针对所述至少两行文本中的每行文本，确定该行文本所属的文本类别包括：
针对所述至少两行文本中的每行文本，对该行文本进行文本分类，以确定该行文本所属的文本类别。

4.如权利要求2或3所述的文本处理方法，其特征在于，针对所述至少两行文本中的每行文本，确定该行文本所属的文本类别还包括：
对所述至少两行文本中相邻两行文本进行文本分类，以得到指示所述相邻两行文本是否属于同一文本段的检测结果；
基于检测结果确定所述至少两行文本中的待调整文本行；以及
基于所述待调整文本行的相邻文本行所属的文本类别，调整所述待调整文本行所属的文本类别。

5.如权利要求4所述的文本处理方法，其特征在于，基于检测结果确定所述至少两行文本中的待调整文本行包括：
当所述检测结果指示被检测的文本行与前一行文本和后一行文本中属于同一文本段，并且所述被检测的文本行所属的文本类别与所述前一行文本所属的文本类别和所述后一行文本所属的文本类别不同时，将所述被检测的文本行确定为待调整文本行。

6.如权利要求1所述的文本处理方法，其特征在于，根据所述文本类别从所述待处理文本中获取对应于所述文本类别的文本包括：
根据所述文本类别对所述待处理文本中的至少两行文本进行组合，以确定对应于所述文本类别的文本段；
输出对应于所述文本类别的文本段。

7.如权利要求1所述的文本处理方法，其特征在于，根据所述文本类别从所述待处理文本中获取对应于所述文本类别的文本还包括：
对对应于所述文本类别的文本进行分句；
在分句后的文本中查找包含预设关键词的文本句；
基于所述预设关键词输出对应于...

【专利技术属性】
技术研发人员：苏晨，李斌，洪科元，
申请(专利权)人：腾讯云计算北京有限责任公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人