一种融合人工智能和知识图谱技术的智慧档案构建方法技术

技术编号:37344534 阅读:34 留言:0更新日期:2023-04-22 21:36
本发明专利技术公开了一种融合人工智能及知识图谱技术的智慧档案构建方法,涉及计算机技术领域,包含数据存储、AI学习引擎、基础AI模型、业务模型、知识图谱和前端功能界面6个模块,用于接收并处理文档、图像和视频3种类型的数字档案格式文件;依托多种AI学习引擎提供的深度学习模型构建能力,构建了多种基础AI模型,分别为文档、图像和视频不同类型数据中关键信息的识别与解析提供支撑,以多种基础AI模型为基础,结合智慧档案领域的具体需求,构建了多种适用于该领域的业务模型,以实现对多源异构档案数据的充分解析能力,然后基于知识图谱技术从解析结果中构建出多种图谱能力,并作为可交互的知识服务提供给档案馆用户。互的知识服务提供给档案馆用户。互的知识服务提供给档案馆用户。

【技术实现步骤摘要】
一种融合人工智能和知识图谱技术的智慧档案构建方法


[0001]本专利技术涉及本专利技术涉及计算机
,尤其涉及一种融合人工智能和知识图谱技术的智慧档案构建方法。

技术介绍

[0002]随着数字经济的深化发展,档案数据愈发呈现海量、多源、异构的特点,这对现有档案馆建设模式提出了巨大挑战,但同时也为发展新的档案信息管理和服务方法提供了机遇。智慧档案馆由此从传统档案馆、数字档案馆的基础上逐步演化而来。当前人工智能可划分为感知智能和认知智能两大领域,前者主要集中在对图像、文本、语音和视频数据的内容解析上,而后者则涉及知识推理、因果分析等认知能力,知识图谱即被认为是认知智能的重要组成技术。因此,构建基于人工智能和知识图谱技术的智慧档案馆,为海量多源异构数据的解析和归档整理以及从档案数据中发掘知识服务提供了新的思路。

技术实现思路

[0003]本专利技术所要解决的技术问题是针对现有档案馆发展模式中数智化发展程度不足,难以应对档案数据愈发呈现海量多源异构特点的问题,本专利提出一种融合人工智能和知识图谱技术的智慧档案构建方法,该方法首先以深度学习技术为支撑,构建多源异构档案数据结构化解析服务,然后基于知识图谱技术从解析结果中构建出多种图谱能力,并作为可交互的知识服务提供给档案馆用户。
[0004]本专利技术为解决上述技术问题采用以下技术方案:
[0005]一种融合人工智能及知识图谱技术的智慧档案构建方法,包含数据存储、AI学习引擎、基础AI模型、业务模型、知识图谱和前端功能界面6个模块,用于接收并处理文档、图像和视频3种类型的数字档案格式文件;
[0006]具体地,依托多种AI学习引擎提供的深度学习模型构建能力,构建了多种基础AI模型,分别为文档、图像和视频不同类型数据中关键信息的识别与解析提供支撑,以多种基础AI模型为基础,结合智慧档案领域的具体需求,构建了多种适用于该领域的业务模型,以实现对多源异构档案数据的充分解析能力;
[0007]步骤1,基于深度学习技术对文档、图像、音视频多源异构数据构建关键信息解析模型,实现对多源异构档案数据的结构化解析;
[0008]步骤2,经过解析得到的结果数据以一种轻量级数据交换格式JSON和数据表的格式呈现;
[0009]步骤3,基于知识图谱及其可视化技术将解析结果进行进一步的整合,形成多种图谱知识服务能力提供给用户,进而有效提高用户发掘利用档案馆资源的效率。
[0010]作为本专利技术一种融合人工智能及知识图谱技术的智慧档案构建方法的进一步优选方案,文档数据的结构化解析流程,具体如下:
[0011]步骤A1,文档数据在经过预处理后首先进行印章检测与行文本检测,对印章图形
进行分离以及对红头、标题、正文段落等区域进行定位,随后对检测存在行文本的目标区域进行文本识别;
[0012]步骤A2,将文本识别结果进行汇总整理成段落后,即形成了文档的具体正文内容;
[0013]步骤A3,从识别结果中提取该文档的一系列关键字段,包含全宗号、文号、收文单位、落款,形成结构化文档信息,完成后续检索与信息挖掘。
[0014]作为本专利技术一种融合人工智能及知识图谱技术的智慧档案构建方法的进一步优选方案,视频数据的结构化解析流程,具体如下:
[0015]步骤B1,关键帧抽取:
[0016]步骤B11,对视频进行关键帧的检测和抽取;
[0017]步骤B12,基于哈希感知算法实现了镜头切分算法,将视频流切分为了图像数据;
[0018]步骤B13,将关键帧抽取模块更具体地划分为字幕检测、知名人物人脸检测和语音活动检测等3种子模块,分别用于从视频流中抽取字幕帧、人脸帧或语音活动时间段;
[0019]步骤B14,对于提取出的关键帧,分别送入后续相应的处理模块进行下一步的分析;
[0020]步骤B2,人脸识别:通过串联若干人脸图像处理子模块实现了对领导人出席活动照片中相关领导人的识别,以及对证件、票据、风景、建筑等图像进行分类的能力;基于目标检测算法YOLO模型对图像进行人脸检测,并使用一种将人脸图像变换为特征向量的算法FaceNet工具对检测存在人脸的目标区域提取人脸编码,接着将其与领导人人脸库中的预存数据进行相似度对比,即可确定图像中是否存在用户关注的领导人;
[0021]步骤B3,字幕OCR:包含场景文本检测CTPN、文本识别Densenet,用于实现对视频画面中字幕区域的定位、排序、识别以及整理,从视频中提取出具体的新闻事件或会议报道信息;利用基于一种基于卷积神经网络的文本分类算法TextCNN实现的文本分类模型识别该视频内容的主题,形成热点话题标签;
[0022]步骤B4,语音识别:
[0023]步骤B41,将视频流转换为音频流,通过语音活动检测VAD算法提取音频流中的语音段;
[0024]步骤B42,通过基于链式时延神经网络ChainTDNN网络模型的语音识别模型将音频识别为对应的音素序列,
[0025]步骤B43,基于三元文法模型3

gram的语言模型对音素序列进行解码,获得可供用户阅读的文本结果。
[0026]作为本专利技术一种融合人工智能及知识图谱技术的智慧档案构建方法的进一步优选方案,图像档案数据的结构化解析流程,具体如下:
[0027]步骤C1,对用户上传的图片资料进行一系列预处理措施之后,对其进行人脸检测;其中,一系列预处理措施包含对文件格式、图像尺寸、颜色编码进行统一;
[0028]步骤C2,若检测到人脸则基于Facenet技术对目标区域进行向量化处理,得到人脸编码,并将得到的人脸编码与领导人数据库中事先存储好的领导人人脸标准编码数据进行相似度对比,以判断该图片中是否出现了用户关注的领导人;
[0029]步骤C3,若成功识别出领导人,则输出领导人列表;而若未成功识别领导人,则转至进行图像物体分类模块,进行如下5种档案馆常见图片标签:证件、票据、建筑、风景和其
他,以方便对图片进行归档。
[0030]作为本专利技术一种融合人工智能及知识图谱技术的智慧档案构建方法的进一步优选方案,文档数据的预处理包含倾角检测与修正、印章检测与去除、灰度化、二值化以及噪点去除;
[0031]其中,(1)倾角检测与修正:
[0032]采用Hough变换对档案馆图片数据进行校正;Hough变换主要采用了极坐标转换的方式,将常规的笛卡尔坐标系中的点(x,y)映射到Hough空间中的点(ρ,θ),其中:
[0033]ρ=x
·
cosθ+y
·
sinθ
[0034]Hough变换会对图像上的每个边缘点计算其所有可能的(ρ,θ)值,将这些极坐标点连成一条曲线,当足够多的曲线在Hough空间中相交于某一点(ρ,θ)时,可认为(ρ,θ)对应于图像空间位置中一条直线,对其进行位置映射后,即可得到原始图像中直线的位置和倾斜角度,由此得到校正之后的坐标点(x
...

【技术保护点】

【技术特征摘要】
1.一种融合人工智能及知识图谱技术的智慧档案构建方法,其特征在于:包含数据存储、AI学习引擎、基础AI模型、业务模型、知识图谱和前端功能界面6个模块,用于接收并处理文档、图像和视频3种类型的数字档案格式文件;具体地,依托多种AI学习引擎提供的深度学习模型构建能力,构建了多种基础AI模型,分别为文档、图像和视频不同类型数据中关键信息的识别与解析提供支撑,以多种基础AI模型为基础,结合智慧档案领域的具体需求,构建了多种适用于该领域的业务模型,以实现对多源异构档案数据的充分解析能力;步骤1,基于深度学习技术对文档、图像、音视频多源异构数据构建关键信息解析模型,实现对多源异构档案数据的结构化解析;步骤2,经过解析得到的结果数据以数据交换格式JSON和数据表的格式呈现;步骤3,基于知识图谱及其可视化技术将解析结果进行进一步的整合,形成多种图谱知识服务能力提供给用户,进而有效提高用户发掘利用档案馆资源的效率。2.根据权利要求1所述的一种融合人工智能及知识图谱技术的智慧档案构建方法,其特征在于:文档数据的结构化解析流程,具体如下:步骤A1,文档数据在经过预处理后首先进行印章检测与行文本检测,对印章图形进行分离以及对红头、标题、正文段落等区域进行定位,随后对检测存在行文本的目标区域进行文本识别;步骤A2,将文本识别结果进行汇总整理成段落后,即形成了文档的具体正文内容;步骤A3,从识别结果中提取该文档的一系列关键字段,包含全宗号、文号、收文单位、落款,形成结构化文档信息,完成后续检索与信息挖掘。3.根据权利要求1所述的一种融合人工智能及知识图谱技术的智慧档案构建方法,其特征在于:视频数据的结构化解析流程,具体如下:步骤B1,关键帧抽取:步骤B11,对视频进行关键帧的检测和抽取;步骤B12,基于哈希感知算法实现了镜头切分算法,将视频流切分为了图像数据;步骤B13,将关键帧抽取模块更具体地划分为字幕检测、知名人物人脸检测和语音活动检测等3种子模块,分别用于从视频流中抽取字幕帧、人脸帧或语音活动时间段;步骤B14,对于提取出的关键帧,分别送入后续相应的处理模块进行下一步的分析;步骤B2,人脸识别:通过串联若干人脸图像处理子模块实现了对领导人出席活动照片中相关领导人的识别,以及对证件、票据、风景、建筑等图像进行分类的能力;基于目标检测算法YOLO模型对图像进行人脸检测,并使用一种将人脸图像变换为特征向量的算法FaceNet工具对检测存在人脸的目标区域提取人脸编码,接着将其与领导人人脸库中的预存数据进行相似度对比,即可确定图像中是否存在用户关注的领导人;步骤B3,字幕OCR:包含场景文本检测CTPN、文本识别Densenet,用于实现对视频画面中字幕区域的定位、排序、识别以及整理,从视频中提取出具体的新闻事件或会议报道信息;利用基于卷积神经网络的文本分类算法TextCNN实现的文本分类模型识别该视频内容的主题,形成热点话题标签;步骤B4,语音识别:步骤B41,将视频流转换为音频流,通过语音活动检测VAD算法提取音频流中的语音段;
步骤B42,通过基于链式时延神经网络Chain TDNN网络模型的语音识别模型将音频识别为对应的音素序列,步骤B43,基于三元文法模型3

gram语言模型对音素序列进行解码,获得可供用户阅读的文本结果。4.根据权利要求1所述的一种融合人工智能及知识图谱技术的智慧档案构建方法,其特征在于:图像档案数据的结构化解析流程,具体如下:步骤C1,对用户上传的图片资料进行一系列预处理措施之后,对其进行人脸检测;其中,一系列预处理措施包含对文件格式、图像尺寸、颜色编码进行统一;步骤C2,若检测到人脸则基于Facenet技术对目标区域进行向量化处理,得到人脸编码,并将得到的人脸编码与领导人数据库中事先存储好的领导人人脸标准编码数据进行相似度对比,以判断该图片中是否出现了用户关注的领导人;步骤C3,若成功识别出领导人,则输出领导人列表;而若未成功识别领导人,则转至进行图像物体分类模块,进行如下5种档案馆常见图片标签的识别:证件、票据、建筑、风景和其他,以方便对图片进行归档。5.根据权利要求2所述的一种融合人工智能及知识图谱技术的智慧档案构建方法,其特征在于:文档数据的预处理包含倾角检测与修正、印章检测与去除、灰度化、二值化以及噪点去除;其中,(1)倾角检测与修正:采用Hough变换对档案馆图片数据进行校正;Hough变换主要采用了极坐标转换的方式,将常规的笛卡尔坐标系中的点(x,y)映射到Hough空间中的点(ρ,θ),其中:ρ=x
·
cosθ+y
·
sinθHough变换会对图像上的每个边缘点计算其所有可能的(ρ,θ)值,将这些极坐标点连成一条曲线,当足够多的曲线在Hough空间中相交于某一点(ρ,θ)时,可认为(ρ,θ)对应于图像空间位置中一条直线,对其进行位置映射后,即可得到原始图像中直线的位置和倾斜角度,由此得到校正之后的坐标点(x

,y
’...

【专利技术属性】
技术研发人员:易黎宋南王涛卓奕炜苏俊亮沈梦强于立佳
申请(专利权)人:南京烽火星空通信发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1