基于多模态表示学习的文档质量评估方法、系统及设备技术方案

技术编号：40762125 阅读：3 留言：0更新日期：2024-03-25 20:13

本发明专利技术公开了一种基于多模态表示学习的文档质量评估方法、系统及设备。其步骤如下：1)分别利用文本和图像的大规模预训练模型，提取文档的文本模态和视觉模态的语义特征；2)利用专家知识选取高质量的文档作为种子文档；3)采用余弦相似度计算种子文档与待评估的文档的语义距离，获得文档的文本质量和视觉质量的指标。本发明专利技术借助深度预训练模型的先验知识，能够全面地识别文档内容的质量，并且实现自动化识别。本发明专利技术在文档智能乃至投资场景下具有重要应用价值。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于文档智能领域，具体涉及一种基于多模态表示学习的文档质量评估方法、系统及设备。

技术介绍

1、文档的质量评估是评价某个领域的专业文档的内容、语言、结构、格式和布局等方面的质量水平，来评估一个文档是否达到行业专业水平和标准。文档质量评估可以广泛的运用于各类场景，例如商业文件的投递和竞标、投资场景中计划书的评估、学术论文的质量评估、互联网中网页的搜索引擎优化等。

2、有效评估文档质量具有重大的实践价值。国内外针对文档质量评估的方法较少，通常有两种做法，往往只是通过人工设计质量指标的方式评估文档质量，例如通过阅读文档，为文档的结构性、完整性、语言流畅等文本质量打分，或是统计文档出现的颜色、图片数量等判断商业计划书的视觉质量。第二种是通过人工设计的指标，采用全自动化的方式采用计算机程序自动为文档质量生成打分。然而，这两种方式有严重不足，(1)由于需要人工阅读，往往浪费时间、低效并且难以扩展到大规模数据集，(2)人工设计的指标存在代表性不足、无法避免忽略某些质量因素的缺点，且容易出现漏判误判的情况，且没有充分利用领域专家的意见。

技术实现思路

1、本专利技术的目的是克服现有的低效、代表性不足的问题，提供一种基于多模态表示学习的文档质量评估方法。

2、为实现本专利技术目的，提供的技术方案如下：

3、第一方面，本专利技术提供了一种基于多模态表示学习的文档质量评估方法，它的步骤如下：

4、s1：分别对待评估文档中的文本和图像两种模态数据进

5、s2：将待评估文档的文本特征和视觉特征分别输入各自对应的大规模预训练模型中进行深度语义表示和聚合，得到待评估文档的文本模态向量表示和视觉模态向量表示；

6、s3：获取与待评估文档属于相同行业且经过领域专家筛选的种子文档集合，将集合中的每个种子文档按照与待评估文档相同的方法得到对应的文本模态向量表示和视觉模态向量表示，并作为评估候选文档质量的基准；

7、s4：计算待评估文档与种子文档集合中每一份种子文档之间文本模态向量表示的平均余弦相似度，用于表征待评估文档的文本质量；计算待评估文档与种子文档集合中每一份种子文档之间视觉模态向量表示的平均余弦相似度，用于表征待评估文档的视觉质量。

8、作为上述第一方面的优选，所述步骤s1的具体实现方法如下：

9、s11：获取待评估文档的pdf文件，然后遍历所述pdf文件每一页的页面对象并按照自然阅读顺序提取当前页面的文本信息，并将每一页的文本信息作为字符串进行存储，形成文本模态数据；

10、s12：遍历所述pdf文件中每一页的页面对象并提取当前页面的视觉信息形成视觉模态数据，所述视觉信息为一个记录当前页面的多通道图像数据的三维矩阵；

11、s13：针对待评估文档的不同模态数据分别进行预处理，使其形成符合所需输入编码器的特征；其中对于文本模态数据，通过对文本序列进行分词和标准化，根据词表将字词编码映射为数值，从而将文本序列处理为数值向量，形成文本特征；对于视觉模态数据，将图像按照编码器输入要求进行尺寸变换和归一化操作，从而得到视觉模态的数值向量，形成视觉特征。

12、作为上述第一方面的优选，遍历所述pdf文件每一页的页面对象时，通过page.get_text()函数来提取当前页面的文本信息，通过page.get_pixmap()函数提取当前页面的视觉信息。

13、作为上述第一方面的优选，所述步骤s2的具体方法如下：

14、s21：以经过待评估文档所在领域数据微调后的中文文本预训练模型作为文本模态编码器，将待评估文档每一页的文本特征输入文本模态编码器，将文本模态编码器最后一层隐藏层输出的向量进行平均池化操作，得到每一页的文本模态向量表示，再对待评估文档中所有页的文本模态向量表示表示进行平均池化操作，得到待评估文档的文本模态向量表示；

15、s23：选取通用文档图像预训练模型dit作为视觉模态编码器，将待评估文档每一页的视觉特征输入视觉模态编码器，将视觉模态编码器最后一层隐藏层输出的向量进行平均池化操作，得到每一页的视觉模态向量表示，再对每一页的视觉模态向量表示进行平均池化操作，得到待评估文档的视觉模态向量表示。

16、作为上述第一方面的优选，所述步骤s3中，种子文档集合的获取方法为：针对与待评估文档属于相同行业的每一份文档，由领域专家意见确定其质量分，然后选择质量分最高的部分文档作为种子文档。

17、作为上述第一方面的优选，所述步骤s4的具体方法如下：

18、s41：针对种子文档集合中的每一份种子文档，将其分别与待评估文档计算两个文档之间文本模态向量表示的第一余弦相似度，然后将所有种子文档对应的第一余弦相似度取平均，作为待评估文档的文本质量指标；

19、s42：针对种子文档集合中的每一份种子文档，将其分别与待评估文档计算两个文档之间视觉模态向量表示的第二余弦相似度，然后将所有种子文档对应的第二余弦相似度取平均，作为待评估文档的视觉质量指标。

20、作为上述第一方面的优选，所述待评估文档为一批多个，所有待评估文档在s1中批量提取文本特征和视觉特征，并按照文档的唯一标识符存储于字典中。

21、第二方面，本专利技术提供了一种基于多模态表示学习的文档质量评估系统，其包括：

22、模态特征抽取模块，用于分别对待评估文档中的文本和图像两种模态数据进行抽取，再对每一种模态数据进行预处理形成对应的模态特征，使其满足各自对应的预训练模型的编码器输入要求；

23、特征表示模块，用于将待评估文档的文本特征和视觉特征分别输入各自对应的大规模预训练模型中进行深度语义表示和聚合，得到待评估文档的文本模态向量表示和视觉模态向量表示；

24、基准获取模块，用于获取与待评估文档属于相同行业且经过领域专家筛选的种子文档集合，将集合中的每个种子文档按照与待评估文档相同的方法得到对应的文本模态向量表示和视觉模态向量表示，并作为评估候选文档质量的基准；

25、质量评估模块，用于计算待评估文档与种子文档集合中每一份种子文档之间文本模态向量表示的平均余弦相似度，用于表征待评估文档的文本质量；计算待评估文档与种子文档集合中每一份种子文档之间视觉模态向量表示的平均余弦相似度，用于表征待评估文档的视觉质量。

26、第三方面，本专利技术提供了一种计算机可读存储介质，所述存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，实现如第一方面任一方案所述的基于多模态表示学习的文档质量评估方法。

27、第四方面，本专利技术提供了一种计算机电子设备，其包括存储器和处理器；

28、所述存储器，用于存储计算机程序；

29、所述处理器，用于当执行所述计算机程序时，实现如第一方面任一方案所述的基于本文档来自技高网...

【技术保护点】

1.一种基于多模态表示学习的文档质量评估方法，其特征在于，它的步骤如下：

2.根据权利要求1所述的基于多模态表示学习的文档质量评估方法，其特征在于，所述步骤S1的具体实现方法如下：

3.根据权利要求1所述的基于多模态表示学习的文档质量评估方法，其特征在于：遍历所述PDF文件每一页的页面对象时，通过page.get_text()函数来提取当前页面的文本信息，通过page.get_pixmap()函数提取当前页面的视觉信息。

4.根据权利要求1所述的基于多模态表示学习的文档质量评估方法，其特征在于：所述步骤S2的具体方法如下：

5.根据权利要求1所述的基于多模态表示学习的文档质量评估方法，其特征在于：所述步骤S3中，种子文档集合的获取方法为：针对与待评估文档属于相同行业的每一份文档，由领域专家意见确定其质量分，然后选择质量分最高的部分文档作为种子文档。

6.根据权利要求1所述的基于多模态表示学习的文档质量评估方法，其特征在于：所述步骤S4的具体方法如下：

7.根据权利要求1所述的基于多模态表示学习的文档质量评估方

8.一种基于多模态表示学习的文档质量评估系统，其特征在于，包括：

9.一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，实现如权利要求1～8任一所述的基于多模态表示学习的文档质量评估方法。

10.一种计算机电子设备，其特征在于，包括存储器和处理器；

...

【技术特征摘要】

1.一种基于多模态表示学习的文档质量评估方法，其特征在于，它的步骤如下：

2.根据权利要求1所述的基于多模态表示学习的文档质量评估方法，其特征在于，所述步骤s1的具体实现方法如下：

3.根据权利要求1所述的基于多模态表示学习的文档质量评估方法，其特征在于：遍历所述pdf文件每一页的页面对象时，通过page.get_text()函数来提取当前页面的文本信息，通过page.get_pixmap()函数提取当前页面的视觉信息。

4.根据权利要求1所述的基于多模态表示学习的文档质量评估方法，其特征在于：所述步骤s2的具体方法如下：

5.根据权利要求1所述的基于多模态表示学习的文档质量评估方法，其特征在于：所述步骤s3中，种子文档集合的获取方法为：针对与待评估文档属于相同行业的每一份...

【专利技术属性】
技术研发人员：蒋卓人，袁伟康，林田谦谨，王颂，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人