一种图文关键信息提取方法、装置、设备及存储介质制造方法及图纸

技术编号:38651774 阅读:8 留言:0更新日期:2023-09-02 22:40
本发明专利技术提出一种图文关键信息提取方法、装置、设备及存储介质,涉及图文信息提取的技术领域,解决了当前关键信息提取方法提取关键信息的准确率低和提取关键信息不完整的问题,首先对获取的文档进行预处理,获得由图片和词语组成的图文信息,然后获取已预训练的词向量提取模型和图向量提取模型,利用词向量提取模型和图向量提取模型接收图文信息,提取词语和图片的特征向量,并以图文信息作为节点,以图文信息关系作为边,构建图网络模型,再基于词语和图片的特征向量,计算并排序节点的权重分数,将权重分数top

【技术实现步骤摘要】
一种图文关键信息提取方法、装置、设备及存储介质


[0001]本专利技术实施例涉及图文信息提取的
,具体涉及一种图文关键信息提取方法、装置、设备及存储介质。

技术介绍

[0002]图文关键信息作为文章文档中具有代表性的信息,在文本的分类、关键词匹配、文档、语句相似度匹配、智能搜索、推荐、智能对话等方面有着广泛的应用。随着信息的爆炸式增长,通过图文关键信息的提取能够从海量信息中快速了解篇文档,大大提高了信息的获取速度,因此,研究图文关键信息的提取方法具有重要意义。
[0003]图文关键信息包括文档的关键词和关键图片,关键词是代表文档中包含信息量最多的词语,能够让人们快速了解文档的中心思想,关键图片是代表与文档关键词密切相关的图片,能够让人们快速的了解文档的基本思路。传统图文关键信息提取方法大多采用提取文档的关键词或关键图片,关键词的提取又依赖于TextRank算法,TextRank算法是利用反映局部词语之间关系的共现窗口,对后续关键词进行排序,直接从文档本身抽取出关键词,但TextRank算法重点只关注词语之间的共现窗口,忽略了词语之间语法和语序对文本意思的影响,对语句的语义表现并不敏感,导致关键词提取准确率不高。现有专利文献公开了一种关键词提取方法,该方法先获取待处理文本,并对待处理文本进行分词,得到待处理文本对应的候选关键词,然后在词向量模型中查找候选关键词对应的词向量,词向量模型包括候选关键词的词向量,再根据词向量构建候选关键词的词相似度矩阵,最后根据候选关键词的词相似度矩阵对候选关键词进行排序,提取待处理文本的关键词,但现有的图文关键信息提取方法仅对文档的关键词或关键图片进行提取,忽略了文档中的图片和文本的关系,无法同时提取文档的关键词和关键图片,导致提取到文档的关键信息不完整。

技术实现思路

[0004]鉴于上述问题,本专利技术实施例提供了一种图文关键信息提取方法、装置、设备及存储介质,用于解决现有技术中存在的提取关键信息的准确率低和提取关键信息不完整的问题。
[0005]所述方法包括:根据本专利技术实施例的一个方面,提供了一种图文关键信息提取方法,所述方法包括:
[0006]获取文档,对所述文档进行预处理,获得由图片和词语组成的图文信息;
[0007]调用已预训练的词向量提取模型和图向量提取模型,分别提取图文信息中的词语的特征向量和图文信息中的图片的特征向量;
[0008]以文档中的图文信息作为节点,以图文信息关系作为边,构建图网络模型;
[0009]基于词语的特征向量和图片的特征向量,计算图网络模型中节点的权重分数;
[0010]对节点的权重分数进行排序,将权重分数top

n的节点对应的图文信息作为所述文档的图文关键信息,其中n为正整数。
[0011]在一种可选的方式中,所述对所述文档进行预处理,获得由图片和词语组成的图文信息,包括:
[0012]对文档进行划分,得到文档中的原始文本和原始图片;
[0013]将所述原始文本按整句分割成若干个句子,对每一个句子进行分词,以及去除每一个句子的停用词,获得所述文档的所述词语;
[0014]将所述原始图片的尺寸调整为预设尺寸,得到所述文档的所述图片。
[0015]在一种可选的方式中,所述图文信息关系包括词语关系和词图关系,所述以文档中的图文信息作为节点,以图文信息关系作为边,构建图网络模型,包括:
[0016]将词语和图片作为图网络模型的节点;
[0017]为具备词语关系的节点,或者具备词图关系的节点设置边,以构建图网络模型。
[0018]在一种可选的方式中,所述基于词语的特征向量和图片的特征向量,计算图网络模型中节点的权重分数,包括:
[0019]以图网络模型中节点之间的词语的特征向量内积、词语和图片的特征向量内积作为所述图网络模型的边的权重;
[0020]设置节点之间边的权重和节点的权重分数初始值;
[0021]利用节点之间边的权重和节点的权重分数初始值,迭代计算节点的权重分数;
[0022]判断每次迭代计算得到的权重分数是否收敛至预设阈值,若是,停止节点的权重分数的下一次迭代计算,输出最终的节点的权重分数;否则,执行节点的权重分数的下一次迭代计算,直至迭代计算得到的权重分数收敛至预设阈值。
[0023]在一种可选的方式中,所述图文关键信息包括关键图片和关键词;所述将权重分数top

n的节点对应的图文信息作为所述文档的图文关键信息,包括:
[0024]将权重分数top

n的节点对应的词语作为所述关键词,将权重分数top

n的节点对应的图片作为所述关键图。
[0025]在一种可选的方式中,所述词向量提取模型为ELMO模型,ELMO模型由双向的LSTM网络结构组成。
[0026]在一种可选的方式中,所述图向量提取模型为卷积神经网络模型,所述卷积神经网络模型由依次相连的卷积层、池化层和全连接层组成。
[0027]根据本专利技术实施例的另一方面,提供了一种图文关键信息提取装置,包括:文档处理模块、特征向量提取模块、图网络模型构建模块、权重计算单元模块和图文关键信息提取模块;
[0028]所述文档处理模块用于获取文档,对所述文档进行预处理,获得由图片和词语组成的图文信息;
[0029]所述特征向量提取模块用于调用已预训练的词向量提取模型和图向量提取模型,分别提取图文信息中的词语的特征向量和图文信息中的图片的特征向量;
[0030]所述图网络模型构建模块用于以文档中的图文信息作为节点,以图文信息关系作为边,构建图网络模型;
[0031]所述权重计算单元模块用于根据词语的特征向量和图片的特征向量,计算图网络模型中节点的权重分数;
[0032]所述图文关键信息提取模块用于对节点的权重分数进行排序,将权重分数top

n
的节点对应的图文信息作为所述文档的图文关键信息,其中n为正整数。
[0033]根据本专利技术实施例的另一方面,提供了一种图文关键信息提取设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
[0034]所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行图文关键信息提取方法的操作。
[0035]本专利技术还提出了一种计算机可读存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令在图文关键信息提取设备上运行时,使得图文关键信息提取设备执行图文关键信息提取方法的操作。
[0036]本专利技术实施例首先对文档进行预处理,获得由图片和词语组成的图文信息,达到了同时获得图片和词语的目的,避免了单一对文档的词语或图片提取导致提取到的信息缺失的弊端;然后调用已训练的词向量提取模型和图向量提取模型接收图文信息,便于提取图文信息中的词语的特征向量和图文信息中的图片的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图文关键信息提取方法,其特征在于,所述方法包括:获取文档,对所述文档进行预处理,获得由图片和词语组成的图文信息;调用已预训练的词向量提取模型和图向量提取模型,分别提取图文信息中的词语的特征向量和图文信息中的图片的特征向量;以文档中的图文信息作为节点,以图文信息关系作为边,构建图网络模型;基于词语的特征向量和图片的特征向量,计算图网络模型中节点的权重分数;对节点的权重分数进行排序,将权重分数top

n的节点对应的图文信息作为所述文档的图文关键信息,其中n为正整数。2.根据权利要求1所述的方法,其特征在于,所述对所述文档进行预处理,获得由图片和词语组成的图文信息,包括:对文档进行划分,得到文档中的原始文本和原始图片;将所述原始文本按整句分割成若干个句子,对每一个句子进行分词,以及去除每一个句子的停用词,获得所述文档的所述词语;将所述原始图片的尺寸调整为预设尺寸,得到所述文档的所述图片。3.根据权利要求2所述的方法,其特征在于,所述图文信息关系包括词语关系和词图关系,所述以文档中的图文信息作为节点,以图文信息关系作为边,构建图网络模型,包括:将词语和图片作为图网络模型的节点;为具备词语关系的节点,或者具备词图关系的节点设置边,以构建图网络模型。4.根据权利要求2所述的方法,其特征在于,所述基于词语的特征向量和图片的特征向量,计算图网络模型中节点的权重分数,包括:以图网络模型中节点之间的词语的特征向量内积、词语和图片的特征向量内积作为所述图网络模型的边的权重;设置节点之间边的权重和节点的权重分数初始值;利用节点之间边的权重和节点的权重分数初始值,迭代计算节点的权重分数;判断每次迭代计算得到的权重分数是否收敛至预设阈值,若是,停止节点的权重分数的下一次迭代计算,输出最终的节点的权重分数;否则,执行节点的权重分数的下一次迭代计算,直至迭代计算得到的权重分数收敛至预设阈值。5.根据权利要求2所述的方法,其特征在于,所述图文关键信息包括关键图片和关键词;所述将权重分数top

n的节点对应的图文...

【专利技术属性】
技术研发人员:李准陈子骁庄光庭
申请(专利权)人:阿维塔科技重庆有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1