一种基于知识图谱的档案多模态智能编纂方法及系统技术方案

技术编号：39741898 阅读：11 留言：0更新日期：2023-12-17 23:42

、

全部详细技术资料下载

【技术实现步骤摘要】
一种基于知识图谱的档案多模态智能编纂方法及系统

[0001]本专利技术属于人工智能
，具体涉及自然语言处理
、
计算机视觉
、
机器学习等相关技术，与信息科学
、
图像处理
、
文本挖掘
、
数据挖掘
、
大数据分析等领域密切相关，尤其涉及一种基于知识图谱的档案多模态智能编纂方法
。

技术介绍

[0002]随着技术的不断发展，业务的类型及其数量的不断增加，档案的来源
、
类型及其数量也不断增加
。
目前企业档案数据的多样化
、
海量化，造成了档案数据的难以利用：档案数据利用成本高，需要付出大量的人力成本，耗时耗力，成本难以支撑；档案数据结构复杂
、
类型多样
、
来源广泛，通过文本
、
图像
、
视频
、
语音等多种不同类型的形式来进行存储和展示，难以从海量的档案数据中得到关键的档案知识，知识获取难且不全
。
同时，现存的档案数据中档案大部分为孤本，在开展利用服务时，容易丢失
、
失控
、
影响档案的寿命
。
档案编研工作海量档案数据关键信息人工提取方式落后，且效率低下，档案各主题编纂缺乏数字化
、
智能化手段支撑，档案作为企业的有价资料，无法得到更好的开发利用，且人工编纂素材收集整理难，过程中存在档案信...

【技术保护点】

【技术特征摘要】
1.
一种基于知识图谱的档案多模态智能编纂方法，其特征在于：包括，档案数据预处理
、
分类
、
标注后进行电子文本
、
图像
、
音频
、
视频数据的档案结构化；通过
ner
相关技术构建知识图谱生成三元组的数据形式，创建主题模板；实现语音生成
、
翻译
、
文本摘要
、
视频
、
图像的档案多模态内容生成，继续对稿件进行审核并输出
。2.
如权利要求1所述的一种基于知识图谱的档案多模态智能编纂方法，其特征在于：所述档案结构化包括档案电子文本数据结构化
、
档案图像数据结构化
、
档案音频数据结构化以及档案视频数据结构化；所述档案电子文本数据结构化包括文本关键信息模型抽取阶段和实体关系联合抽取阶段；所述文本关键信息模型抽取阶段表示为：所述文本关键信息模型抽取阶段表示为：所述文本关键信息模型抽取阶段表示为：其中，
Precision
为准确率
、Recall
为召回率，
F1
为评价指标，
TP
表示正类被判断为正类的数量，
FP
表示负类被判断为正类的数量，
FN
表示正类被判断为负类的数量，
TN
表示负类被判断为负类的数量；所述实体关系联合抽取阶段具体步骤如下：进行文本多特征获取，使用
Bert
动态获取每个词语的上下文语义特征，采用
CNN
来获取文本中的词特征嵌入并提取到字符特征
、POS
进行词性标记，使用
word2vec
实现向量化得到文本词性特征拼接得到多粒度文本特征，使用
BIGCN
获取区域特征表示，上一阶段的语义特征需要输入到注意力机制层，学习句子间的语义关系得到每个词语在某种特定关系下的权重值，并重新计算新的句子表示，通过
LSTM
机制来实现冗余特征过滤，只保留下关键的特征，最后进行实体关系特征分类，多头注意力机制
、BIGCN
特征获取和
CRF
实体关系预测三个部分，将多头注意力机制获得的语义特征输入到
BIGCN
中进行句间深层语义特征学习，在利用
CRF
实现在某个关系下的头尾实体预测
。3.
如权利要求2所述的一种基于知识图谱的档案多模态智能编纂方法，其特征在于：所述档案图像数据结构化包括利用
OCR
模型进行文本检测和文本识别；所述文本检测为
DBnet
文本检测表示为：将图像输入带有特征金字塔的
ResNet
主干网络，通过自上而下地进行上采样，将采样的特征与具有相同尺寸的特征进行级联得到特征图
F
，特征图
F
用于预测概率图
P
和阈值图
T
，通过
P
和
F
计算出近似二值图，概率图
P
表示像素点为文本的概率，阈值图
T
表示每个像素点是否为文本，对每一个像素点进行自适应二值化由网络学习得到的，将二值化这一步骤加入网络一起进行训练；所述文本识别为
CRNN
文本识别表示为：输入图片经过卷积层提取得到一个特征序列，利用
RNN
对特征序列的每一帧进行预测，最后在输出层对
RNN
的每帧预测结果进行转录，得到最终的一个标签的序列，将
RNN
预测的每个字符组合得到一个完整的单词
。
4.
如权利要求3所述的一种基于知识图谱的档案多模态智能编纂方法，其特征在于：所述档案音频数据结构化包括进行语音识别，在语音识别的基础上对语音识别的结果进一步进行语音数据结构化处理，对内容进行概括，抽取出摘要式的一段文本作为音频数据的关键信息，其中，语音识别采用
WER
来作为评价指标表示为：其中，

【专利技术属性】
技术研发人员：刘伊玲，沈汝冰，杨本富，王胡燕，王聪杰，白扬，
申请(专利权)人：云南电网有限责任公司信息中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人