多模态自适应融合的主题识别方法及系统技术方案

技术编号：39647883 阅读：12 留言：0更新日期：2023-12-09 11:15

本发明专利技术提供一种多模态自适应融合的主题识别方法及系统，涉及自然语言处理技术领域，包括：步骤

全部详细技术资料下载

【技术实现步骤摘要】
多模态自适应融合的主题识别方法及系统

[0001]本专利技术涉及自然语言处理
，具体地，涉及一种多模态自适应融合的主题识别方法及系统
。

技术介绍

[0002]上市公司年报
、
公告
、
新闻稿等文本数据具有重要的商业价值和社会意义，是媒体
、
投资者
、
监管机构进行信息分析和决策的主要依据
。
然而，这些文本数据常常以
PDF
等格式存在，难以有效地进行文本分析和数据挖掘
。
[0003]传统的方法主要依靠规则信息或者语义信息，然后利用
LSTM
等序列模型进行句子级别的序列标注
。
但是，首先这类方法的局限性在于没有有效地综合利用
PDF
的视觉特征，往往同一个主题的事件分布在同一个位置
。
其次，传统算法仅靠精度指标往往无法充分评估模型的好坏，导致模型的输出结果可能会被过度解读或误导
。
具体地说，如果模型没有置信度概念，当用户得到模型的结果时，无法判断这个结果是否可信，是否与数据完全匹配
。
因此，用户可能会盲目信任模型，即使模型的预测结果是错误的，也可能会采取相应的行动
。
同时在实际应用中，模型无法自适应预测结果，并无法识别问题所在
。
这可能会导致预测错误
、
不正确的决策，也会降低模型的鲁棒性和应用价值
。
专利技术内...

【技术保护点】

【技术特征摘要】
1.
一种多模态自适应融合的主题识别方法，其特征在于，包括：步骤
S1
：针对主题识别任务构建主题识别数据集；步骤
S2
：利用不同的预训练模型分别提取文本信息的语义特征向量和视觉特征向量；步骤
S3
：获取规则信息的规则特征向量；步骤
S4
：自适应融合所述语义特征向量
、
视觉特征向量与规则特征向量，得到全局特征向量；步骤
S5
：利用融合后的全局特征向量进行主题识别
。2.
根据权利要求1所述的多模态自适应融合的主题识别方法，其特征在于，所述步骤
S1
包括：随机提取
、
构建主题识别样本集，其中为第篇
PDF
文件，共个；步骤
S1.1
：构建主题识别数据的文本和图像信息集合，记为，表示第
i
个
PDF
样本的详细信息，共个；其中，，表示第个样本的第页，记为，表示第个
PDF
样本的第页的总字数；表示所述第个样本的第页的第个字及其位置信息，记为，，表示第个
PDF
样本的第页渲染为的图片；步骤
S1.2
：构建主题识别数据的规则信息集合，共计有个，记为，其中，表示第个规则；步骤
S1.3
：构建段落识别数据的标签信息集合，记为，设置个主题，其中，，表示对每一个字的标签，；步骤
S1.4
：由所述文本和图像信息集合
、
规则信息集合以及标签信息集合组成完整的主题识别数据集
。3.
根据权利要求2所述的多模态自适应融合的主题识别方法，其特征在于，所述步骤
S2
包括：步骤
S2.1
：把第个
PDF
样本中的文本信息所包含的文本全部进行拼接为一句话，得到文本序列，然后用预训练语言模型提取的文本信息，得到语义特征向量；步骤
S2.2
：采用视觉预训练模型提取每一个图片的视觉特征，得到视觉特征表示，然后把同一个
PDF
的向量，利用类似于步骤
S2.1
的滑窗机制，按照特征维度拼接起来，得到每一个
PDF
对应的视觉特征向量
。4.
根据权利要求3所述的多模态自适应融合的主题识别方法，其特征在于，所述步骤
S3
包括：步骤
S3.1
：获取初级规则特征向量：构建规则信息集合，然后构建函数把
PDF
中的每个字都映射到
Q
维的向量空间，得到规则特征表示，其中，表示第个
PDF
样本的第页的第个字，是否满足第个规则，其值为0或1，0表示不满足，1表示满足；每个字之间不是相互独立的，函数的输入参数中包含和；步骤
S3.2
：深度融合规则特征，获取高级规则特征向量：将同一个
PDF
内的所有规则特征向量按照第0位拼接，使用步骤
S2.1
的滑窗机制，每一个滑窗内的规则特征向量拼接后，采用下式
1)
和式
2)
，即模型，使不同的特征之间，进行深度的特征融合，并由此获取每一个
PDF
对应的规则特征向量；
1)2)
本步骤下，式
1)
中，均为每一个滑窗内，拼接后的规则特征向量矩阵，式
2)
为归一化指数函数，是调节因子，使得矩阵的内积不至于太大，和向量的最后一个维度一致
。5.
根据权利要求4所述的多模态自适应融合的主题识别方法，其特征在于，所述步骤
S4
包括：
3)4)
利用式
1)
‑
4)
所示的多头注意力模型，取为三者公用的滑窗长度，，函数拼接时，取，从而得到自适应融合的全局特征向量
。6.
根据权利要求5所述的多模态自适应融合的主题识别方法，其特征在于，所述步骤
S5
包括：步骤
S5.1
：将全局特征向量输入如式
5)
和式
6)
所示的分类器，从而得到每一个字对应的主题的概率分布；
5)6)
式
6)
中，为分类器的权重矩阵，表示偏差；步骤
S5.2
：采用式
7)
所示的多分类交叉熵损失函数作为目标函数：
7)
式
7)
中，表示所述样本集中作为训练集的数据条数，表示给定的主题一共有个，表示样本的真实类别是否等于预测的类别，是的话取1，否则取0，表示样本中，每一个字属于主题的概率；步骤
S5.3
：采用算法，每一步迭代都在原始输入样本上加一个扰动得到对抗样本，取扰动参数如式
8)、
式
9)
所示，其中取高斯分布下的随机初始化结果，指常规定义下的范数，指常规定义下矩阵的2范数；
8)9)
步骤
S5.4
：训练过程中，设置最大迭代次数，利用反向传播和梯度下降法对所述目标函数进行训练；步骤
S5.5
：基于每一个字的主题类别，提取出
PDF
文本中完整的主题片段并及时其置信区间；在进行主题识别时，将所有文本和图片按照顺序输入已训练好的模型，对所有内容进行主题判断，在得到完整的主题内容之后，从步骤
S4
中得到的全局特征向量截取主题对应的特征向量；若第个样本的完整主题内容有个，记全部主题内容为，对其中的每一个主题，截取其对应的全局特征，通过式
10)
计算每个字的置信度：
10)
然后利用标准化...

【专利技术属性】
技术研发人员：冯卫强，张友豪，闫文杰，
申请(专利权)人：上海大智慧财汇数据科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人