基于图片的意图检测方法及装置制造方法及图纸

技术编号:36071769 阅读:16 留言:0更新日期:2022-12-24 10:41
本说明书实施例提供一种基于图片的意图检测方法及装置。针对智能客服场景下,用户问题中包含有页面截图的技术场景,一方面将其中的文本语义信息、文本布局信息经过文本编码得到文本的与位置相关的文本编码特征,另一方面,通过编码页面布局中的区域信息,得到图像编码特征和布局结构特征。然后,结合用户提供的页面截图,融合页面布局结构中的位置信息,并将融合后的信息与文本语义信息进行融合编码,得到页面表征。通过页面表征可以识别用户提供的页面截图所匹配的候选页面。如此,可以使用更加丰富的页面信息,提高识别用户意图的准确度。准确度。准确度。

【技术实现步骤摘要】
基于图片的意图检测方法及装置


[0001]本说明书一个或多个实施例涉及计算机
,尤其涉及基于图片的意图检测方法及装置。

技术介绍

[0002]图像处理在日常生产或生活中有着广泛的应用。例如:全景分割、目标识别、文本识别等等。其中,在人工客服领域,可能会遇到一些用户通过截图来辅助描述所遇到的问题的情形。这种情形下,智能客服需要判断该截图是什么业务场景下产生的、在什么问题中可能遇到这样的截图画面等等,从而更好地为用户服务,提升用户体验。

技术实现思路

[0003]本说明书一个或多个实施例描述了一种基于图片的意图检测方法及装置,用以解决
技术介绍
提到的一个或多个问题。
[0004]根据第一方面,提供一种基于图片的意图检测方法,用于基于用户发送的图片,检测用户问题中所针对的业务,所述方法包括:获取当前用户问题中的第一图片,以及针对所述第一图片识别的第一文本信息,所述第一文本信息包括第一文本语义信息和第一文本位置信息;基于文本编码模块对所述第一文本信息的编码,得到第一文本编码特征;利用图像编码模块对所述第一图片的页面布局进行编码,得到第一图像编码特征和第一布局结构特征;结合所述第一图片,经由位置融合模块针对所述第一布局结构特征中的位置信息向预定尺寸的映射,得到第一位置融合特征;经由融合编码模块对所述第一位置融合特征、第一文本编码特征、第一图像编码特征和第一布局结构特征进行融合编码,从而得到针对所述第一图片基于位置信息的第一页面表征;基于所述第一页面表征确定所述第一图片所对应的目标页面,进而确定用户意图。
[0005]在一个实施例中,所述第一文本语义信息包括至少一个文本语义单元,所述第一文本位置信息包括分别包围各个文本语义单元的各个文本框的坐标信息。
[0006]在一个实施例中,所述第一文本语义信息包括第一文本,所述第一文本对应第一文本框,所述基于文本编码模块对所述第一文本信息进行编码,得到第一文本编码特征包括:对所述第一文本框各个顶点分别通过预定维数的各个位置向量进行表示,其中所述第一文本中的字符共享所述第一文本框的位置向量;将各个位置向量与所述第一文本的文本语义向量嵌入到所述第一文本的文本特征向量,作为文本编码模块的输入数据;根据文本编码模块对相应输入数据的处理得到第一文本编码特征。
[0007]在一个实施例中,所述图像编码模块通过卷积神经网络实现,其输出为在多个通道上的多个预定大小的特征图,所述特征图的单个特征点对应所述第一图片上的若干像素构成的单个矩形展示区域,所述第一布局结构特征包括所述单个矩形展示区域在所述第一图片上对应的顶点坐标。
[0008]在一个实施例中,所述结合所述第一图片,经由位置融合模块针对所述第一布局
结构特征中的位置信息向预定尺寸的映射,得到第一位置融合特征包括:基于所述第一图片,经由位置融合模块将第一布局结构特征、第一文本特征中包含的位置信息各自映射到预定尺寸,其中,映射结果与所述第一图片和预定尺寸之间的比例相关;根据映射结果确定所述第一位置融合特征。
[0009]在一个实施例中,经由融合编码模块对所述第一位置融合特征、第一文本编码特征、第一图像编码特征和第一布局结构特征进行融合编码,从而得到针对所述第一图片基于位置信息的第一页面表征包括:将所述第一位置融合特征、第一图像编码特征和所述第一文本编码特征作为所述融合编码模块的输入数据;根据所述融合编码模块的输出确定所述第一页面表征。
[0010]在一个实施例中,所述目标页面从作为页面模板的多个候选页面中选择。
[0011]在一个实施例中,各个候选页面分别对应有预先经由所述文本识别模块、文本编码模块、图像编码模块、位置融合模块以及融合编码模块处理得到的各个候选表征;所述基于所述第一页面表征确定所述第一图片所对应的目标页面包括:分别检测所述第一页面表征与各个候选表征之间的相似性;按照相似性由高到低的顺序从各个候选页面中选择目标页面。
[0012]在一个实施例中,所述多个候选页面包括第一页面,所述第一页面对应于第一候选表征,所述第一页面表征与所述第一候选表征之间的相似性通过第一相似度描述,所述第一相似度基于所述第一页面表征与所述第一候选表征之间的余弦相似度、杰卡德系数、欧氏距离、KL散度、方差之一确定。
[0013]在一个实施例中,所述基于所述第一页面表征确定所述第一图片所对应的目标页面包括:将所述第一页面表征输入预先训练的分类模型或预测模型;根据分类模型或预测模型的输出结果从各个候选页面中选择所述目标页面。
[0014]在一个实施例中,所述文本编码模块、图像编码模块、位置融合模块以及融合编码模块通过针对问答任务的训练集中的训练样本进行页面匹配训练,其中,训练集中的各个训练样本图片各自对应有通过版面分析器提取的文本位置信息、页面布局信息,以及预先标注的所匹配的候选页面,所述训练样本图片包括第二图片,所述第二图片所匹配的候选页面为第二页面;所述页面匹配训练包括:利用所述文本编码模块、图像编码模块、位置融合模块以及融合编码模块对所述第二图片进行处理,得到第二页面表征;基于所述第二页面表征与所述第二页面的对应关系,确定第一损失;对第二图片的融合编码特征基于位置信息进行解码,得到文本位置信息和页面布局信息,与针对第二图片利用版面分析器提取的文本位置信息和页面布局信息进行对比,确定第二损失;基于所述第一损失、所述第二损失确定当前训练损失,并以当前训练损失减小为目标调整各个模块的待定参数。
[0015]在一个实施例中,所述第二页面对应有利用所述文本编码模块、图像编码模块、位置融合模块以及融合编码模块处理得到的第二候选表征;基于所述第二页面表征与所述第二页面的对应关系,确定第一损失包括:基于所述第二页面表征与所述第二候选表征之间的第一相似性,确定所述第一损失,其中,所述第一损失与所述第一相似性负相关。
[0016]在一个实施例中,所述基于所述第二页面表征与所述第二页面的对应关系,确定第一损失包括:将所述第二页面表征输入预先确定的分类模型或预测模型;根据所述分类模型或预测模型的输出结果与由所述第二页面确定的样本标签的比较,确定第一损失。
[0017]在一个实施例中,所述文本编码模块、图像编码模块、位置融合模块以及融合编码模块在经过训练集训练之前,还基于预训练集中的各个预训练样本图片进行预训练,其中,各个预训练样本图片各自对应有通过版面分析器提取的文本语义信息、文本位置信息、页面布局信息;所述预训练样本图片包括第三图片,所述预训练包括:获取所述第三图片;从文本语义信息中随机获取当前文本信息;检测当前文本信息是否所述第三图片中的文本信息;基于检测结果,利用所述第三图片进行预训练。
[0018]在一个实施例中,在当前文本信息不是所述第三图片中的文本信息的情况下,所述基于检测结果,利用当前图片进行预训练包括:利用所述文本编码模块、图像编码模块、位置融合模块以及融合编码模块对所述第三图片进行处理,得到第三页面表征;利用辅助分类器对所述第三页面表征进行分类,得到当前文本信本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图片的意图检测方法,用于基于用户发送的图片,检测用户问题中所针对的业务,所述方法包括:获取当前用户问题中的第一图片,以及针对所述第一图片识别的第一文本信息,所述第一文本信息包括第一文本语义信息和第一文本位置信息;基于文本编码模块对所述第一文本信息的编码,得到第一文本编码特征;利用图像编码模块对所述第一图片的页面布局进行编码,得到第一图像编码特征和第一布局结构特征;结合所述第一图片,经由位置融合模块针对所述第一布局结构特征中的位置信息向预定尺寸的映射,得到第一位置融合特征;经由融合编码模块对所述第一位置融合特征、第一文本编码特征、第一图像编码特征和第一布局结构特征进行融合编码,从而得到针对所述第一图片基于位置信息的第一页面表征;基于所述第一页面表征确定所述第一图片所对应的目标页面,进而确定用户意图。2.如权利要求1所述的方法,其中,所述第一文本语义信息包括至少一个文本语义单元,所述第一文本位置信息包括分别包围各个文本语义单元的各个文本框的坐标信息。3.如权利要求2所述的方法,其中,所述第一文本语义信息包括第一文本,所述第一文本对应第一文本框,所述基于文本编码模块对所述第一文本信息进行编码,得到第一文本编码特征包括:对所述第一文本框各个顶点分别通过预定维数的各个位置向量进行表示,其中所述第一文本中的字符共享所述第一文本框的位置向量;将各个位置向量与所述第一文本的文本语义向量嵌入到所述第一文本的文本特征向量,作为文本编码模块的输入数据;根据文本编码模块对相应输入数据的处理得到第一文本编码特征。4.如权利要求1所述的方法,其中,所述图像编码模块通过卷积神经网络实现,其输出为在多个通道上的多个预定大小的特征图,所述特征图的单个特征点对应所述第一图片上的若干像素构成的单个矩形展示区域,所述第一布局结构特征包括所述单个矩形展示区域在所述第一图片上对应的顶点坐标。5.如权利要求1所述的方法,其中,所述结合所述第一图片,经由位置融合模块针对所述第一布局结构特征中的位置信息向预定尺寸的映射,得到第一位置融合特征包括:基于所述第一图片,经由位置融合模块将第一布局结构特征、第一文本特征中包含的位置信息各自映射到预定尺寸,其中,映射结果与所述第一图片和预定尺寸之间的比例相关;根据映射结果确定所述第一位置融合特征。6.如权利要求1所述的方法,其中,经由融合编码模块对所述第一位置融合特征、第一文本编码特征、第一图像编码特征和第一布局结构特征进行融合编码,从而得到针对所述第一图片基于位置信息的第一页面表征包括:将所述第一位置融合特征、第一图像编码特征和所述第一文本编码特征作为所述融合编码模块的输入数据;根据所述融合编码模块的输出确定所述第一页面表征。
7.如权利要求1所述的方法,其中,所述目标页面为从作为页面模板的多个候选页面中选择的页面。8.如权利要求7所述的方法,其中,各个候选页面分别对应有预先经由所述文本识别模块、文本编码模块、图像编码模块、位置融合模块以及融合编码模块处理得到的各个候选表征;所述基于所述第一页面表征确定所述第一图片所对应的目标页面包括:分别检测所述第一页面表征与各个候选表征之间的相似性;按照相似性由高到低的顺序从各个候选页面中选择目标页面。9.如权利要求8所述的方法,其中,所述多个候选页面包括第一页面,所述第一页面对应于第一候选表征,所述第一页面表征与所述第一候选表征之间的相似性通过第一相似度描述,所述第一相似度基于所述第一页面表征与所述第一候选表征之间的余弦相似度、杰卡德系数、欧氏距离、KL散度、方差之一确定。10.如权利要求7所述的方法,其中,所述基于所述第一页面表征确定所述第一图片所对应的目标页面包括:将所述第一页面表征输入预先训练的分类模型或预测模型;根据分类模型或预测模型的输出结果从各个候选页面中选择所述目标页面。11.如权利要求1所述的方法,其中,所述文本编码模块、图像编码模块、位置融合模块以及融合编码模块通过针对问答任务的训练集中的训练样本进行页面匹配训练,其中,训练集中的各个训练样本图片各自对应有通过版面分析器提取的文本位置信息、页面布局信息,以及预先标注的所匹配的候选页面,所述训练样本图片包括第二图片,所述第二图片所匹配的候选页面为第二页面;所述页面匹配训练包括:利用所述文本编码模块、图像编码模块、位置融合模块以及融合编码模块对所述第二图片进行处理,得到第二页面表征;基于所述第二页面表征与所述第二页面的对应关系,确定第一损失;对第二图片的融合编码特征基于位置信息进行解码,得到文本位置信息和页面布局信息,与针对第二图片利用版面分析器提取的文本位置信息和页面布局信息进行对比,确定第二损失;基于所述第一损失、所述第二损失确定当前训练损失,并以当前训...

【专利技术属性】
技术研发人员:郭清沛褚崴
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1