一种基于知识图谱的档案多模态智能编纂方法及系统技术方案

技术编号:39741898 阅读:11 留言:0更新日期:2023-12-17 23:42


【技术实现步骤摘要】
一种基于知识图谱的档案多模态智能编纂方法及系统


[0001]本专利技术属于人工智能
,具体涉及自然语言处理

计算机视觉

机器学习等相关技术,与信息科学

图像处理

文本挖掘

数据挖掘

大数据分析等领域密切相关,尤其涉及一种基于知识图谱的档案多模态智能编纂方法


技术介绍

[0002]随着技术的不断发展,业务的类型及其数量的不断增加,档案的来源

类型及其数量也不断增加

目前企业档案数据的多样化

海量化,造成了档案数据的难以利用:档案数据利用成本高,需要付出大量的人力成本,耗时耗力,成本难以支撑;档案数据结构复杂

类型多样

来源广泛,通过文本

图像

视频

语音等多种不同类型的形式来进行存储和展示,难以从海量的档案数据中得到关键的档案知识,知识获取难且不全

同时,现存的档案数据中档案大部分为孤本,在开展利用服务时,容易丢失

失控

影响档案的寿命

档案编研工作海量档案数据关键信息人工提取方式落后,且效率低下,档案各主题编纂缺乏数字化

智能化手段支撑,档案作为企业的有价资料,无法得到更好的开发利用,且人工编纂素材收集整理难,过程中存在档案信息缺失

泄露等风险

[0003]为了有效解决以上的这些问题,本研究提出了一种基于知识图谱的档案多模态智能编纂方法

通过结合人脸识别
、OCR
及其语音识别

视频关键帧抽取等相关技术来进行档案多模态关键信息抽取并对知识进行结构化,在此基础上实现档案智能编纂

档案智能编纂根据实际的档案业务主要划分为:关键信息抽取及其智能编纂两大阶段

在关键信息抽取阶段中,考虑到档案数据中数据类型多样,基于预先定义好的关键信息分别针对不同的数据类型采用了不同的关键信息抽取技术

在编纂阶段,基于档案业务需求,设计了多种档案主题模板及其档案抽取规则,并结合生成式模型,实现了档案多模态内容编纂


技术实现思路

[0004]本部分的目的在于概述本专利技术的实施例的一些方面以及简要介绍一些较佳实施例

在本部分以及本申请的说明书摘要和专利技术名称中可能会做些简化或省略以避免使本部分

说明书摘要和专利技术名称的目的模糊,而这种简化或省略不能用于限制本专利技术的范围

[0005]鉴于上述现有存在的问题,提出了本专利技术

[0006]因此,提供一种基于知识图谱的档案多模态智能编纂方法,旨在借助信息化技术,推动数智赋能档案事业转型升级,加强人工智能技术

大数据技术等新一代信息技术在档案智能化信息建设中的应用,注重档案非结构化资源的整合

数据挖掘

知识关联和知识服务,深化理论实践研究

[0007]为解决上述技术问题,本专利技术提供如下技术方案,一种基于知识图谱的档案多模态智能编纂方法,包括:
[0008]档案数据预处理

分类

标注后进行档案的电子文本

图像

音频

视频数据结构化;通过
ner
相关技术构建知识图谱生成三元组的数据形式,创建主题模板;实现语音生成

翻译

文本摘要

视频

图像的档案多模态内容生成,继续对稿件进行审核并输出

[0009]作为本专利技术所述的基于知识图谱的档案多模态智能编纂方法的一种优选方案,其中:所述档案结构化包括档案电子文本数据结构化

档案图像数据结构化

档案音频数据结构化以及档案视频数据结构化;
[0010]所述档案电子文本数据结构化包括文本关键信息模型抽取阶段和实体关系联合抽取阶段;
[0011]所述文本关键信息模型抽取阶段表示为:
[0012][0013][0014][0015]其中,
Precision
为准确率
、Recall
为召回率,
F1
为评价指标,
TP
表示正类被判断为正类的数量,
FP
表示负类被判断为正类的数量,
FN
表示正类被判断为负类的数量,
TN
表示负类被判断为负类的数量;
[0016]所述实体关系联合抽取阶段具体步骤如下:进行文本多特征获取,使用
Bert
动态获取每个词语的上下文语义特征,采用
CNN
来获取文本中的词特征嵌入并提取到字符特征
、POS
进行词性标记,使用
word2vec
实现向量化得到文本词性特征拼接得到多粒度文本特征,使用
BIGCN
获取区域特征表示,上一阶段的语义特征需要输入到注意力机制层,学习句子间的语义关系得到每个词语在某种特定关系下的权重值,并重新计算新的句子表示,通过
LSTM
机制来实现冗余特征过滤,只保留下关键的特征,最后进行实体关系特征分类,多头注意力机制
、BIGCN
特征获取和
CRF
实体关系预测三个部分,将多头注意力机制获得的语义特征输入到
BIGCN
中进行句间深层语义特征学习,在利用
CRF
实现在某个关系下的头尾实体预测

[0017]作为本专利技术所述的基于知识图谱的档案多模态智能编纂方法的一种优选方案,其中:所述档案图像数据结构化包括利用
OCR
模型进行文本检测和文本识别;
[0018]所述文本检测为
DBnet
文本检测表示为:将图像输入带有特征金字塔的
ResNet
主干网络,通过自上而下地进行上采样,将采样的特征与具有相同尺寸的特征进行级联得到特征图
F
,特征图
F
用于预测概率图
P
和阈值图
T
,通过
P

F
计算出近似二值图,概率图
P
表示像素点为文本的概率,阈值图
T
表示每个像素点是否为文本,对每一个像素点进行自适应二值化由网络学习得到的,将二值化这一步骤加入网络一起进行训练;
[0019]所述文本识别为
CRNN
文本识别表示为:输入图片经过卷积层本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于知识图谱的档案多模态智能编纂方法,其特征在于:包括,档案数据预处理

分类

标注后进行电子文本

图像

音频

视频数据的档案结构化;通过
ner
相关技术构建知识图谱生成三元组的数据形式,创建主题模板;实现语音生成

翻译

文本摘要

视频

图像的档案多模态内容生成,继续对稿件进行审核并输出
。2.
如权利要求1所述的一种基于知识图谱的档案多模态智能编纂方法,其特征在于:所述档案结构化包括档案电子文本数据结构化

档案图像数据结构化

档案音频数据结构化以及档案视频数据结构化;所述档案电子文本数据结构化包括文本关键信息模型抽取阶段和实体关系联合抽取阶段;所述文本关键信息模型抽取阶段表示为:所述文本关键信息模型抽取阶段表示为:所述文本关键信息模型抽取阶段表示为:其中,
Precision
为准确率
、Recall
为召回率,
F1
为评价指标,
TP
表示正类被判断为正类的数量,
FP
表示负类被判断为正类的数量,
FN
表示正类被判断为负类的数量,
TN
表示负类被判断为负类的数量;所述实体关系联合抽取阶段具体步骤如下:进行文本多特征获取,使用
Bert
动态获取每个词语的上下文语义特征,采用
CNN
来获取文本中的词特征嵌入并提取到字符特征
、POS
进行词性标记,使用
word2vec
实现向量化得到文本词性特征拼接得到多粒度文本特征,使用
BIGCN
获取区域特征表示,上一阶段的语义特征需要输入到注意力机制层,学习句子间的语义关系得到每个词语在某种特定关系下的权重值,并重新计算新的句子表示,通过
LSTM
机制来实现冗余特征过滤,只保留下关键的特征,最后进行实体关系特征分类,多头注意力机制
、BIGCN
特征获取和
CRF
实体关系预测三个部分,将多头注意力机制获得的语义特征输入到
BIGCN
中进行句间深层语义特征学习,在利用
CRF
实现在某个关系下的头尾实体预测
。3.
如权利要求2所述的一种基于知识图谱的档案多模态智能编纂方法,其特征在于:所述档案图像数据结构化包括利用
OCR
模型进行文本检测和文本识别;所述文本检测为
DBnet
文本检测表示为:将图像输入带有特征金字塔的
ResNet
主干网络,通过自上而下地进行上采样,将采样的特征与具有相同尺寸的特征进行级联得到特征图
F
,特征图
F
用于预测概率图
P
和阈值图
T
,通过
P

F
计算出近似二值图,概率图
P
表示像素点为文本的概率,阈值图
T
表示每个像素点是否为文本,对每一个像素点进行自适应二值化由网络学习得到的,将二值化这一步骤加入网络一起进行训练;所述文本识别为
CRNN
文本识别表示为:输入图片经过卷积层提取得到一个特征序列,利用
RNN
对特征序列的每一帧进行预测,最后在输出层对
RNN
的每帧预测结果进行转录,得到最终的一个标签的序列,将
RNN
预测的每个字符组合得到一个完整的单词

4.
如权利要求3所述的一种基于知识图谱的档案多模态智能编纂方法,其特征在于:所述档案音频数据结构化包括进行语音识别,在语音识别的基础上对语音识别的结果进一步进行语音数据结构化处理,对内容进行概括,抽取出摘要式的一段文本作为音频数据的关键信息,其中,语音识别采用
WER
来作为评价指标表示为:其中,

【专利技术属性】
技术研发人员:刘伊玲沈汝冰杨本富王胡燕王聪杰白扬
申请(专利权)人:云南电网有限责任公司信息中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1