一种用于机器解答的题目理解方法技术

技术编号：40600128 阅读：5 留言：0更新日期：2024-03-12 22:04

本发明专利技术属于机器解答技术领域，具体涉及一种用于机器解答的题目理解方法。本发明专利技术首先通过特征嵌入模块、编码器和对比学习模块实现单模态/多模态数据的特征提取和统一语义表达，然后定义了直陈关系和隐含关系，在题目理解过程中不仅抽取了题目中直观展现出的直陈关系，以实现数据的融合理解，还推理出为解答题目所需的隐含关系，为题目的自动求解打下基础。本发明专利技术建立了机器解答的基础理论，突破了机器解答的关键技术，对于扩大解题范围和提高解题质量十分关键，具有重要的理论研究意义、学术研究价值、以及广阔的应用前景，满足机器解答的应用服务。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于机器解答，具体涉及一种用于机器解答的题目理解方法。

技术介绍

1、近年来，在教育技术市场需求和自然语言理解、图形理解、自动推理等人工智能技术快速发展的合力推动下，机器解答成为一个新的研究热点。目前，多模态题目的机器解答方法研究仍然是一个比较新的领域，其研究还处于模型和应用的双探索阶段，主要存在的困难和挑战可归纳为以下三个方面：

2、1)机器解答的多模态题目之间存在异质性，各模态题目中的数据之间缺乏语义关联性。为了更加清晰、生动、切合实际的阐明题目中的问题，各学科题目往往使用文本、图形、图像等多模态形式进行呈现，这就使得各模态题目之间存在异质性，并为多模态题目的统一表示带来了挑战。多模态题目中又包含大量的文字、符号、公式和图形等多模态数据，各模态数据在统计特性中的差异化导致各模态数据之间缺乏语义关联性。在同一实体的不同模态表达中不仅包含共享信息，而且还包含独有的信息，如果不将这些信息进行语义关联，则会影响多模态数据理解的准确性，进而妨碍题目理解和自动求解的效果。因此，如何构建多模态数据的特征表达机制，同时解决多模态题目之间的异质性问题和各模态数据之间的语义关联性问题，实现多模态数据的特征提取和统一语义表达，是多模态题目机器解答需要解决的第一个挑战。

3、2)机器解答的多模态理解过程存在语义鸿沟。对多模态题目的理解并非建立在底层文本特征和图像特征的理解上，而是建立在对文本和图像所描述的对象或事件的语义理解上。多模态题目由文本、图形和图像等形式进行描述，对这些多模态题目进行特征表达是多模态理解的基

4、3)机器解答的多模态求解过程缺乏隐含信息的发掘和推理。为了正确求解出一道题目，不仅需要抽取其中直陈述的信息，还需要结合各学科的定理、定律和推理等发掘其中隐含的信息。这些隐含信息没有直接陈述在题目中，然而却是自动求解所必需的信息。从题目中发现和添加隐含信息是一个生成问题，所需的隐含信息应由隐含信息库来提供，因而建立包含定理、定律、推理和常识等的隐含信息库是一个基础任务。由于各学科题目机器解答所涉及的知识范围是确定的，所以与学科相关的隐含信息是一个确定集合。多模态题目的求解过程需要将题目中的直陈述信息与隐含信息融入到统一的多模态数据的推理求解模型，使其相互协同才能正确求解出问题的答案。因此，如何构建多模态数据的推理求解模型，使其能够有效地发掘多模态数据中的隐含信息，并对它们进行推理求解，从而实现多模态题目的自动求解，是多模态题目机器解答需要解决的第三个挑战。

5、机器解答的过程主要可以分为题目理解和自动求解两个方面，题目理解是自动求解的基础，也是探索机器解答方法的关键步骤。对于计算机来说，题目理解就是将题目中包含的所有解题信息提取出来，并应用于推理求解模型，从而得到题目的解答过程和结果。目前，一个好的题目理解方法不仅可以扩大题目理解的范围，而且可以提高推理求解的准确率。目前，机器解答领域中的题目理解方法主要可以分为三类：基于文本数据的题目理解方法、基于图形数据的题目理解方法和基于多模态数据的题目理解方法。

6、1)基于文本数据的题目理解方法。题目文本也是一种自然语言，通过自然语言处理领域的词法、句法、语义、依存关系等分析可以来理解题目文本。基于文本数据的题目理解方法大致可以归纳为三类，分别是基于语义角色的方法、结合词性变化抽取数学关系的方法、以及利用机器学习分类获取方程组的方法。①基于语义角色的方法：即通过语义角色标注和关键词来理解题目文本的含义，由此得到题目中的知识和关系。其方法包括句模双框、句模数学表达式、解析树数学式、语言分析树以及范式语言数学式等。这些方法的共性是通过定义语义句模、解析树、语言分析树、范式语言等工具来理解题目文本的语义角色。基于语义角色方法的优点是过程容易理解，然则普遍缺乏泛化能力。主要原因是这些方法均会遇到语义表达多变灾难的问题，即自然语言对于同样数学含义有多样性表达所造成的泛化困难，因而导致语义角色模板数量大而能理解的题目范围小的状况。同时这些方法都没有强调发掘隐含信息的能力。②结合词性变化抽取数学关系的方法：即用一组数学关系作为题目理解的目标形式，使用句法语义模型抽取直陈述的数学关系(简称：直陈关系)的启发式算法。同时，结合词袋和支持向量机构建发掘隐含的数学关系(简称：隐含关系)的方法。这两者结合起来就形成了既可以抽取直陈关系又可以发掘隐含关系的新方法，不过这一方法也有其局限性，即句法语义模型受限于自然语言词语的分类方法，缺乏优选直陈关系的过程，以及发掘隐含关系的能力有限。③利用机器学习分类提取方程组的方法：现有的基于机器学习的题目理解方法，其一般过程是：将题目文本作为输入，通过机器学习对文本进行分类和变量赋值，最后输出一个方程组。这类机器学习方法存在两方面的局限：一是现有方程组模板的表达能力有限，对于多种类型的题目仍然不能用这种方法得到满意的题目理解结果；二是这些深度网络中都没有嵌入解答领域知识来提高题目理解的能力。

7、2)基于图形数据的题目理解方法。在教育领域，图形是题目常用的一种表示形态，它可以直观地描述题目中陈述的对象以及对象之间的关系，这种可视化的表达形式可以很好地表达出题者的想法、意图和考察的问题。现阶段图形理解的题目主要集中于几何题目和电路题目，而基于图形理解的方法大致可分为基于图形绘制的理解方法和基于图形识别的理解方法。①基于图形绘制的理解方法：即通过使用绘图工具对题目中的图形进行绘制，在绘制过程中绘图工具会获取点、线、元件等符号的位置信息和关联关系，图形绘制完成即实现了图形的理解。这些方法缺乏对复合句型与结构的理解，并且自然语言理解模型是预先设计好的，不具备自学能力，需要手动添加对新词汇、新句型的扩展。②基于图形识别的理解方法：即通过使用图像处理技术对图形进行识别，然后通过对图形中的实体、结构、关系等进行分析提取出有用的解题信息。该方法的难点在于如何设计图形理解方案对已识别的图形进行分析和数据挖掘，以获取有效的解题信息。基于图形识别的理解方法通常使用霍夫变换相关技术识别图形中的基本实体，再分析实体之间的关系得到图形中的解题信息，传统方法包括使用梯度霍夫变换识别圆的方法、使用改进的渐进概率霍夫变换识别线的方法、以及结合霍夫变换与随机检测算法提高圆的识别精度的方法等。这些方法可以有效地识别绘图工具生成的标准图形，然而对手绘图形的识别能力有限，因为难于识别线和圆的不精确实例。利用霍夫变换识别和分析图形方法的优点是可以使用成熟的图像识别技术对图形进行理解，然而这些方法存在两方面的局限：一是使用单一的图形数据来理解图形效果不够理想，缺乏融合图形和文本数据来提高图形理解能力的新方法；二是仅限于处理二维的平面图形，对于本文档来自技高网...

【技术保护点】

1.一种用于机器解答的题目理解方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的用于机器解答的题目理解方法，其特征在于，所述多层自注意力转换器采用多模态多任务UniT模型。

3.根据权利要求2所述的用于机器解答的题目理解方法，其特征在于，所述编码器包括对特征嵌入处理后的文本数据进行编码处理的文本编码器和/或对特征嵌入处理后的图像数据进行编码处理的图像编码器，文本编码器采用双向预测和序列到序列生成两种方式进行交替训练，图像编码器采用特征回归或区域分类的方式进行训练。

4.根据权利要求1所述的用于机器解答的题目理解方法，其特征在于，所述对比学习模块包括增强函数、神经网络编码器以及神经网络投射头；所述增强函数用于使用两个独立的增强函数为每个上下文标记表示/上下文区域表示生成两个相互关联的增强数据；所述神经网络编码器用于从增强数据中提取表示向量；所述神经网络投射头用于将表示向量映射到对比损失空间，从而得到文本特征序列/图像特征序列。

5.根据权利要求4所述的用于机器解答的题目理解方法，其特征在于，在训练对比学习模块时，需使得相关的上

6.根据权利要求4所述的用于机器解答的题目理解方法，其特征在于，在训练对比学习模块时，若为同模态数据的对比学习，则利用文本重写方法对单模态数据进行语义重写，以生成超过一定数量要求的负样本，并利用正样本和负样本进行训练；若为跨模态数据的对比学习，则利用文本重写方法对多模态数据进行语义重写，以生成超过一定数量要求的正样本和负样本。

7.根据权利要求1所述的用于机器解答的题目理解方法，其特征在于，在训练解码器时，需将直陈关系的高层语义进行关联，且采用如下两种关联方法中的任一种关联方法进行关联：

8.根据权利要求1所述的用于机器解答的题目理解方法，其特征在于，若输入的题目数据包括文本数据，则所述特征嵌入模块进行特征嵌入处理时，需针对文本数据进行位置嵌入、标记嵌入和学习任务嵌入，从而得到的文本标记特征嵌入序列W表示为：其中，E表示文本嵌入标记符，t表示学习任务嵌入标记，[CLS]表示序列开始的分类标记，[SEP]表示序列之间或序列结尾的分隔符标记；w1,…,wn表示文本数据中各分词标记；

9.根据权利要求8所述的用于机器解答的题目理解方法，其特征在于，若输入的题目数据包括图像数据，则所述特征嵌入模块进行特征嵌入处理前，需对图像的各个区域的位置特征进行编码，编码时使用一个5维向量进行编码，其中，(x1,y1)和(x2,y2)分别表示区域的左下角和右上角的坐标，W和H分别表示输入图片的宽度和高度。

...

【技术特征摘要】

1.一种用于机器解答的题目理解方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的用于机器解答的题目理解方法，其特征在于，所述多层自注意力转换器采用多模态多任务unit模型。

5.根据权利要求4所述的用于机器解答的题目理解方法，其特征在于，在训练对比学习模块时，需使得相关的上下文标记表示和/或上下文区域之间相吸引，使得不相关的上下文标记表示和/或上下文区域之间相排斥。

6.根据权利要求4所述的用于机器解答的题目理解方法，其特征在于，在训...

【专利技术属性】
技术研发人员：菅朋朋，
申请(专利权)人：华北水利水电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人