文本描述的生成方法、装置、终端及存储介质制造方法及图纸

技术编号：35916717 阅读：16 留言：0更新日期：2022-12-10 10:59

本申请实施例公开了一种文本描述的生成方法、装置、终端及存储介质，属于人机交互领域。该方法包括：获取人机交互界面中界面控件的多模态信息；对所述多模态信息进行信息编码，得到不同模态信息各自对应的模态编码；对不同模态信息各自对应的所述模态编码进行模态融合，得到多模态编码；基于所述多模态编码生成所述界面控件的功能文本描述。采用本申请实施例提供的方案，终端能够在进行人机交互时基于人机交互界面中的控件，生成人机交互界面中控件的文本描述，有益于提高终端基于用户指令在显示界面进行操作的准确性。令在显示界面进行操作的准确性。令在显示界面进行操作的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
文本描述的生成方法、装置、终端及存储介质

[0001]本申请实施例涉及人机交互
，特别涉及一种文本描述的生成方法、装置、终端及存储介质。

技术介绍

[0002]智能设备的不断改进使得人机交互技术逐渐普及，用户对于使用人机交互准确度的需求也不断提升。
[0003]相关技术中，终端接收到用户指令后，通过系统提供的无障碍服务接口，读取人机交互界面控件的文本标注，与用户指令中所指示的控件进行匹配，从而执行用户指令中的操作，完成人机交互。
[0004]然而，当前大多数应用界面存在控件文本标注缺失或文本标注错误的问题，导致人机交互的准确度低，适用性差。

技术实现思路

[0005]本申请实施例提供了一种文本描述的生成方法、装置、终端及存储介质。所述技术方案如下：
[0006]一方面，本申请实施例提供了一种文本描述的生成方法、装置、终端及存储介质，所述方法包括：
[0007]获取人机交互界面中界面控件的多模态信息，所述多模态信息包括文本模态信息、图像模态信息和结构化模态信息中的至少两种，所述结构化模态信息用于表征所述界面控件在所述人机交互界面中的层次结构；
[0008]对所述多模态信息进行信息编码，得到不同模态信息各自对应的模态编码；
[0009]对不同模态信息各自对应的所述模态编码进行模态融合，得到多模态编码；
[0010]基于所述多模态编码生成所述界面控件的功能文本描述。
[0011]另一方面，本申请实施例提供了一种文本描述的生成装置，所述装置...

【技术保护点】

【技术特征摘要】
1.一种文本描述的生成方法，其特征在于，所述方法包括：获取人机交互界面中界面控件的多模态信息，所述多模态信息包括文本模态信息、图像模态信息和结构化模态信息中的至少两种，所述结构化模态信息用于表征所述界面控件在所述人机交互界面中的层次结构；对所述多模态信息进行信息编码，得到不同模态信息各自对应的模态编码；对不同模态信息各自对应的所述模态编码进行模态融合，得到多模态编码；基于所述多模态编码生成所述界面控件的功能文本描述。2.根据权利要求1所述的方法，其特征在于，所述获取人机交互界面中界面控件的多模态信息，包括：获取所述人机交互界面对应的控件树，所述控件树由所述人机交互界面中的所述界面控件构成；基于所述控件树获取所述界面控件的所述多模态信息。3.根据权利要求2所述的方法，其特征在于，所述多模态信息包括所述文本模态信息；所述基于所述控件树获取所述界面控件的所述多模态信息，包括：从所述控件树中所述界面控件对应的控件信息中提取文本属性，所述文本属性包括显性文本属性和隐性文本属性中的至少一种；将所述文本属性确定为所述界面控件的所述文本模态信息。4.根据权利要求3所述的方法，其特征在于，所述对所述多模态信息进行信息编码，得到不同模态信息各自对应的模态编码，包括：对所述文本属性进行分词处理，得到分词文本；对各个所述分词文本对应的词向量的进行滑动池化处理，得到所述文本模态信息对应的文本词向量。5.根据权利要求2所述的方法，其特征在于，所述多模态信息包括所述图像模态信息；所述基于所述控件树获取所述界面控件的所述多模态信息，包括：从所述控件树中所述界面控件对应的控件信息中提取控件坐标；基于所述控件坐标，从所述人机交互界面中截取所述界面控件的控件图像；将所述控件图像确定为所述界面控件的所述图像模态信息。6.根据权利要求5所述的方法，其特征在于，所述对所述多模态信息进行信息编码，得到不同模态信息各自对应的模态编码，包括：对所述控件图像进行缩放处理；通过图像特征提取网络对缩放处理后的所述控件图像进行特征提取，得到所述图像模态信息对应的图像特征向量，其中，缩放处理后的所述控件图像符合所述图像特征提取网络的输入要求。7.根据权利要求2所述的方法，其特征在于，所述多模态信息包括所述结构化模态信息；所述基于所述控件树获取所述界面控件的所述多模态信息，包括：从所述控件树中所述界面控件对应的控件信息中提取控件属性，所述控件属性包括类型属性、点击属性和状态属性中的至少一种，所述点击属性用于表征所述界面控件是否支持点击，所述状态属性用于表征所述界面控件是否被聚焦；
从所述控件树中所述界面控件对应的控件信息中提取控件坐标；基于所述控件树的拓扑结构，确定所述界面控件在所述控件树中的控件层级位置；将所述控件属性、所述控件坐标以及所述控件层级位置，确定为所述界面控件的所述结构化模态信息。8.根据权利要求7所述的方法，其特征在于，所述对所述多模态信息进行信息编码，得到不同模态信息各自对应的模态编码，包括：采用二值化或独热编码方式对所述控件属性进行编码，得到属性编码；基于所述控件坐标生成坐标位置编码，所述坐标位置编码包括绝对位置编码和相对位置编码中的至少一种；采用独热式编码方式对不同遍历方式对应的所述控件层级位置进行编码，得到不同遍历方式对应的拓扑位置编码，所述遍历方式包括先序遍历、中序遍历以及后序遍历；对不同遍历方式对应的所述拓扑位置编码进行编码融合，得到目标拓扑位置编码；对所述属性编码、所述坐标位置编码以及所述目标拓扑位置编码进行拼接，得到所述结构化模态信息对应的结构化编码。9.根据权利要求1所述的方法，其特征在于，所述基于所述多模态编码生成所述界面控件的功能文本描述，包括：将所述多模态编码输入Transformer模型，得到所述Transformer模型输出的所述功能文本描述，所述Transformer模型基于样本界面控件对应的样本多模态编码以及样本功能文本描述训练得到。10.根据权利要求1所述的方法，其特征在于，所述对所述多模态信息进行信息编码，得到不同模态信息各自对应的模态编码，包括：基于设备处理性能和/或人机交互场景确定目标多模态信息；对所述目标多模态信息进行信息编码，得到所述目标多模态信息中不同模态信息各自对应的所述模态编码。11.根据权利要求10所述的方法，其特征在于，所述目标多模态信息对应编码方式的处理性能需求与所述设备处理性能呈正相关关系；所述目标多模态信息的模态类型数量与所述人机交互场景的交互准确率需求呈正相关关系。12.一种文本描述的生成装置，其特征在于，所述装置包括：信息获取模块，用于获取人机交互界面中界面控件的多模态信息，所述多模态信息包括文本模态信息、图像模态信息和结构化模态信息中的至少两种，所述结构化模态信息用于表...

【专利技术属性】
技术研发人员：陈科鑫，张晓帆，
申请(专利权)人：OPPO广东移动通信有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人