一种基于语义本体的档案数据智能推理方法技术

技术编号:20221756 阅读:41 留言:0更新日期:2019-01-28 20:16
本发明专利技术公开了一种基于语义本体的档案数据智能推理方法,本方法将语义本体推理运用到档案的智能关联中,运用HMM分词算法和LDA主题模型分类算法,对档案数据语料库进行主题分类处理,作为语义管理的底层构建。之后构建档案语义本体,运用本体中定义的关联特性,实现档案数据语料库中档案的智能关联。与现有的档案查询管理系统相比,语义本体驱动的智能关联系统能提高查询的效率并且支持新加入的关联类别,可扩展行优于基于数据库的档案管理系统。

【技术实现步骤摘要】
一种基于语义本体的档案数据智能推理方法
本专利技术属于档案管理的
,尤其涉及一种基于语义本体的档案数据智能推理方法。
技术介绍
在数据量不断激增的今天,如果仅仅依靠着数据说话,将会发生偏颇,因此还是应该重点实施大数据关联分析,明确大数据的分析方向。面对大数据的驱动影响,当下的大数据分析并不是技术类的问题,更多的则是方向性问题和组织问题。正确的大数据分析结果能为决策者提供可靠的支持。如今还有许多大数据资源还未被利用起来,所以本文将重点解决呈现档案大数据的内在关联关系。本方法将引入语义本体模型,重点运用本体模型来构建档案大数据的知识图谱。语义网的基本思想是提供基于机器可处理的语义数据,并应用这些元数据的启发式进行自动化的信息访问。数据语义的显性表示和领域理论(本体)将使得Web提供一种全新质量的服务。其最终目标是将人类知识编织成一个巨大的网络,并以机器处理的方式来实现它。各种自动化服务将帮助用户以机器可理解格式访问和提供信息,并使得计算机自动化处理过程和Web信息集成更为方便。基于语义的数据挖掘多学科交叉融合的特点决定其发展的多元性和复杂性,虽然目前语义网技术在应用中取得了一定的效本文档来自技高网...

【技术保护点】
1.一种基于语义本体的档案数据智能推理方法,其特征在于:该方法包括以下步骤:(1)构造档案领域语义本体;(2)运用HMM即隐马尔可夫模型算法对相关档案文本进行分词处理,以便分析档案文本内容提取主题;(3)运用LDA方法应用到档案数据聚类、分类中,实现档案的主题关联;(4)运用本体技术实现档案数据的关联可视化推理。

【技术特征摘要】
1.一种基于语义本体的档案数据智能推理方法,其特征在于:该方法包括以下步骤:(1)构造档案领域语义本体;(2)运用HMM即隐马尔可夫模型算法对相关档案文本进行分词处理,以便分析档案文本内容提取主题;(3)运用LDA方法应用到档案数据聚类、分类中,实现档案的主题关联;(4)运用本体技术实现档案数据的关联可视化推理。2.根据权利要求1所述的一种基于语义本体的档案数据智能推理方法,其特征在于:S1构建档案本体采用OWL来进行形式化表示;通过OWLAPI来使用本体知识;根据现有档案中的概念、属性、关系,运用七步法实现档案本体的构建;构建本体的方法包括以下步骤或阶段:规范阶段,以便定义为什么构建本体,它的预期用途是什么,最终用户是谁;概念化阶段,以概念化领域知识,总结概念的,提出本体中的概念后,通过循环策略,对提出的概念进行意义的合并,剔除主观情感部分;实现阶段,以便将概念模型转换为正式的可计算模型;这些阶段按照上面给出的顺序按时间顺序应用,并且通常,前一阶段的输出是下一阶段的输入;S2使用HMM模型算法分词HMM模型分词的特点就是带有对陌生词汇分词的特点,且分词准确性高,故运用它作为分词的主要手段;把HMM模型看作五元组,状态值集合为(B,M,E,S):{B:begin,M:middle,E:end,S:single};分别代表每个状态代表的是该字在词语中的位置,B代表该字是词语中的起始字,M代表是词语中的中间字,E代表是词语中的结束字,S则代表是单字成词;运用部分档案数据作为训练集,求出学习状态转移矩阵A,观测概率分布B,初始参数π,最后对整个档案语料库运用训练完成的HMM模型进行分词操作;HMM算法求解过程采用Viterbi算法,对文档的二维数组进行遍历确定文档文件中个词语的状态集(B,M,E,S),来完成文档文件的分词工作;经过HMM算法处理的档案文本输出为完成分词的档案文本,以此作为LDA主体模型的输入,寻找关键词;S3基于LDA模型的档案主题提取为了匹配档案本体的结构,运用LDA主题模型实现各档案的主题提取;潜在狄利克雷分配主题模型是初级的主题模型,其描述的是一篇文档是如何产生的,LDA模型中词语的无需集合构成文档,可以理解为词语的顺序与主题没有关系,...

【专利技术属性】
技术研发人员:孙艳丰霍光煜张勇孔德慧梁宇辰
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1