文本描述的生成方法、装置、终端及存储介质制造方法及图纸

技术编号:35916717 阅读:16 留言:0更新日期:2022-12-10 10:59
本申请实施例公开了一种文本描述的生成方法、装置、终端及存储介质,属于人机交互领域。该方法包括:获取人机交互界面中界面控件的多模态信息;对所述多模态信息进行信息编码,得到不同模态信息各自对应的模态编码;对不同模态信息各自对应的所述模态编码进行模态融合,得到多模态编码;基于所述多模态编码生成所述界面控件的功能文本描述。采用本申请实施例提供的方案,终端能够在进行人机交互时基于人机交互界面中的控件,生成人机交互界面中控件的文本描述,有益于提高终端基于用户指令在显示界面进行操作的准确性。令在显示界面进行操作的准确性。令在显示界面进行操作的准确性。

【技术实现步骤摘要】
文本描述的生成方法、装置、终端及存储介质


[0001]本申请实施例涉及人机交互
,特别涉及一种文本描述的生成方法、装置、终端及存储介质。

技术介绍

[0002]智能设备的不断改进使得人机交互技术逐渐普及,用户对于使用人机交互准确度的需求也不断提升。
[0003]相关技术中,终端接收到用户指令后,通过系统提供的无障碍服务接口,读取人机交互界面控件的文本标注,与用户指令中所指示的控件进行匹配,从而执行用户指令中的操作,完成人机交互。
[0004]然而,当前大多数应用界面存在控件文本标注缺失或文本标注错误的问题,导致人机交互的准确度低,适用性差。

技术实现思路

[0005]本申请实施例提供了一种文本描述的生成方法、装置、终端及存储介质。所述技术方案如下:
[0006]一方面,本申请实施例提供了一种文本描述的生成方法、装置、终端及存储介质,所述方法包括:
[0007]获取人机交互界面中界面控件的多模态信息,所述多模态信息包括文本模态信息、图像模态信息和结构化模态信息中的至少两种,所述结构化模态信息用于表征所述界面控件在所述人机交互界面中的层次结构;
[0008]对所述多模态信息进行信息编码,得到不同模态信息各自对应的模态编码;
[0009]对不同模态信息各自对应的所述模态编码进行模态融合,得到多模态编码;
[0010]基于所述多模态编码生成所述界面控件的功能文本描述。
[0011]另一方面,本申请实施例提供了一种文本描述的生成装置,所述装置包括:
[0012]信息获取模块,用于获取人机交互界面中界面控件的多模态信息,所述多模态信息包括文本模态信息、图像模态信息和结构化模态信息中的至少两种,所述结构化模态信息用于表征所述界面控件在所述人机交互界面中的层次结构;
[0013]信息编码模块,用于对所述多模态信息进行信息编码,得到不同模态信息各自对应的模态编码;
[0014]模态融合模块,用于对不同模态信息各自对应的所述模态编码进行模态融合,得到多模态编码;
[0015]文本生成模块,用于基于所述多模态编码生成所述界面控件的功能文本描述。
[0016]另一方面,本申请实施例提供了一种终端,所述终端包括处理器和存储器;所述存储器存储有至少一条指令,所述至少一条指令用于被所述处理器执行以实现如上述方面所述的文本描述的生成方法。
[0017]另一方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条程序代码,所述程序代码由处理器加载并执行以实现如上述方面所述的文本描述的生成方法。
[0018]另一方面,本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方面的各种可选实现方式中提供的文本描述的生成方法。
[0019]本申请实施例中,在人机交互过程中,终端先获取界面控件的多模态信息,对多模态信息进行信息编码,终端通过结合人机交互界面中界面控件的多模态信息生成控件的文本描述,能够有效结合当前人机交互场景,实现人机交互,更加准确的执行用户指令所指示的内容。将不同多模态信息编码结果进行融合,再基于融合后的编码结果生成界面控件的功能文本描述,解决了人机交互界面中控件文本缺失或错误导致的人机交互失败或不流畅的问题。
附图说明
[0020]图1示出了人机交互界面控件文本描述缺失和错误的示意图;
[0021]图2示出了本申请一个示例性实施例提供的实施环境的示意图;
[0022]图3示出了本申请一示例性实施例提供的文本描述的生成方法的流程图;
[0023]图4示出了本申请一示例性实施例提供的文本模态信息处理及编码过程的流程图;
[0024]图5示出了本申请一示例性实施例提供的一种对界面控件的文本模态信息进行编码的示意图;
[0025]图6示出了本申请一示例性实施例提供的图像模态信息处理及编码过程的流程图;
[0026]图7示出了本申请一示例性实施例提供的一种对界面控件的图像模态信息进行编码的示意图;
[0027]图8示出了本申请一示例性实施例提供的结构化模态信息处理及编码过程的流程图;
[0028]图9示出了本申请一示例性实施例提供的一种对界面控件的结构化模态信息进行编码的示意图;
[0029]图10示出了本申请另一示例性实施例提供的文本描述的生成方法的流程图;
[0030]图11示出了本申请一示例性实施例提供的通过Transformer模型对多模态编码进行处理的示意图;
[0031]图12示出了本申请一示例性实施例提供的文本描述的生成系统的主要组成部分的方框图;
[0032]图13示出了本申请一个示例性实施例提供的文本描述的生成装置的结构框图;
[0033]图14示出了本申请一个示例性实施例提供的终端的结构方框图。
具体实施方式
[0034]为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
[0035]相关技术中,终端接收到用户指令并对其进行相应处理后,通过系统提供的无障碍服务接口,读取人机交互界面的控件树,并从控件树中提取控件的文本属性。然而,多数人机交互界面的控件在开发人员进行开发时未对其加入相应文本描述,或者,开发人员所加入的文本描述与控件不具有对应关系,与用户普遍理解含义具有一定偏差,导致人机交互系统出现异常,使得终端无法完成用户指令的相应操作。
[0036]图1示出了人机交互界面控件文本描述缺失和错误的示意图。图1所示的人机交互界面101中,第一图标控件102和第二图标控件103文本缺失,即终端所获取的控件信息中不包含该控件的文本描述。通常情况下,用户可以理解第五图标控件106的含义为“点赞”或“喜欢”,开发者在开发该人机交互界面时,也会为第五图标控件106标注文本“点赞”,然而,该人机交互界面101中,第三图标控件104和第四图标控件105均被标注文本为“点赞”。这就导致在用户发出指令“给文章

人生第一课

点赞”的情况下,终端无法准确定位到相应的控件,进而无法执行用户指令所指示的操作。同样的,人机交互界面101中的视频控件107和图片控件108也可能出现未被标注相应文本描述,或文本描述标记错误的情况。
[0037]使用本申请实施例中提供的人机交互方法,终端基于人机交互界面中界面控件的多模态信息,生成人机交互界面控件的文本描述,再进行人机交互,控制用户指令指示控件执行相应的步骤,提高了终端基于用户指令在人机交互界面进行操作的准确性,适用性更强。
[0038]图2示出了本申请一个示例性实施例提供的实施环境的示意图。该实施环境可以包括:终端210以及服务器220。
[0039]终端210本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本描述的生成方法,其特征在于,所述方法包括:获取人机交互界面中界面控件的多模态信息,所述多模态信息包括文本模态信息、图像模态信息和结构化模态信息中的至少两种,所述结构化模态信息用于表征所述界面控件在所述人机交互界面中的层次结构;对所述多模态信息进行信息编码,得到不同模态信息各自对应的模态编码;对不同模态信息各自对应的所述模态编码进行模态融合,得到多模态编码;基于所述多模态编码生成所述界面控件的功能文本描述。2.根据权利要求1所述的方法,其特征在于,所述获取人机交互界面中界面控件的多模态信息,包括:获取所述人机交互界面对应的控件树,所述控件树由所述人机交互界面中的所述界面控件构成;基于所述控件树获取所述界面控件的所述多模态信息。3.根据权利要求2所述的方法,其特征在于,所述多模态信息包括所述文本模态信息;所述基于所述控件树获取所述界面控件的所述多模态信息,包括:从所述控件树中所述界面控件对应的控件信息中提取文本属性,所述文本属性包括显性文本属性和隐性文本属性中的至少一种;将所述文本属性确定为所述界面控件的所述文本模态信息。4.根据权利要求3所述的方法,其特征在于,所述对所述多模态信息进行信息编码,得到不同模态信息各自对应的模态编码,包括:对所述文本属性进行分词处理,得到分词文本;对各个所述分词文本对应的词向量的进行滑动池化处理,得到所述文本模态信息对应的文本词向量。5.根据权利要求2所述的方法,其特征在于,所述多模态信息包括所述图像模态信息;所述基于所述控件树获取所述界面控件的所述多模态信息,包括:从所述控件树中所述界面控件对应的控件信息中提取控件坐标;基于所述控件坐标,从所述人机交互界面中截取所述界面控件的控件图像;将所述控件图像确定为所述界面控件的所述图像模态信息。6.根据权利要求5所述的方法,其特征在于,所述对所述多模态信息进行信息编码,得到不同模态信息各自对应的模态编码,包括:对所述控件图像进行缩放处理;通过图像特征提取网络对缩放处理后的所述控件图像进行特征提取,得到所述图像模态信息对应的图像特征向量,其中,缩放处理后的所述控件图像符合所述图像特征提取网络的输入要求。7.根据权利要求2所述的方法,其特征在于,所述多模态信息包括所述结构化模态信息;所述基于所述控件树获取所述界面控件的所述多模态信息,包括:从所述控件树中所述界面控件对应的控件信息中提取控件属性,所述控件属性包括类型属性、点击属性和状态属性中的至少一种,所述点击属性用于表征所述界面控件是否支持点击,所述状态属性用于表征所述界面控件是否被聚焦;
从所述控件树中所述界面控件对应的控件信息中提取控件坐标;基于所述控件树的拓扑结构,确定所述界面控件在所述控件树中的控件层级位置;将所述控件属性、所述控件坐标以及所述控件层级位置,确定为所述界面控件的所述结构化模态信息。8.根据权利要求7所述的方法,其特征在于,所述对所述多模态信息进行信息编码,得到不同模态信息各自对应的模态编码,包括:采用二值化或独热编码方式对所述控件属性进行编码,得到属性编码;基于所述控件坐标生成坐标位置编码,所述坐标位置编码包括绝对位置编码和相对位置编码中的至少一种;采用独热式编码方式对不同遍历方式对应的所述控件层级位置进行编码,得到不同遍历方式对应的拓扑位置编码,所述遍历方式包括先序遍历、中序遍历以及后序遍历;对不同遍历方式对应的所述拓扑位置编码进行编码融合,得到目标拓扑位置编码;对所述属性编码、所述坐标位置编码以及所述目标拓扑位置编码进行拼接,得到所述结构化模态信息对应的结构化编码。9.根据权利要求1所述的方法,其特征在于,所述基于所述多模态编码生成所述界面控件的功能文本描述,包括:将所述多模态编码输入Transformer模型,得到所述Transformer模型输出的所述功能文本描述,所述Transformer模型基于样本界面控件对应的样本多模态编码以及样本功能文本描述训练得到。10.根据权利要求1所述的方法,其特征在于,所述对所述多模态信息进行信息编码,得到不同模态信息各自对应的模态编码,包括:基于设备处理性能和/或人机交互场景确定目标多模态信息;对所述目标多模态信息进行信息编码,得到所述目标多模态信息中不同模态信息各自对应的所述模态编码。11.根据权利要求10所述的方法,其特征在于,所述目标多模态信息对应编码方式的处理性能需求与所述设备处理性能呈正相关关系;所述目标多模态信息的模态类型数量与所述人机交互场景的交互准确率需求呈正相关关系。12.一种文本描述的生成装置,其特征在于,所述装置包括:信息获取模块,用于获取人机交互界面中界面控件的多模态信息,所述多模态信息包括文本模态信息、图像模态信息和结构化模态信息中的至少两种,所述结构化模态信息用于表...

【专利技术属性】
技术研发人员:陈科鑫张晓帆
申请(专利权)人:OPPO广东移动通信有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1