当前位置: 首页 > 专利查询>金德龙专利>正文

基于知识内在涵义的知识信息检索方法及其系统技术方案

技术编号:2859518 阅读:267 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了在知识信息数据库中信息检索方法及其系统,旨在提供一种把知识信息数据库的建立与拥有多样化和个体化强大功能的知识体系联系起来的,以知识内在涵义为基础的信息检索方法及其系统。该方法包括:对基本知识要素系统进行引用;过滤科学符号表达式中非本质的文字符号信息;产生被检索知识信息的内核;进行内核距离计算,判断不同知识信息的相似性和相关性,活性化知识信息系统。该系统包括基本知识要素系统、知识信息内核与活性化知识信息系统。本发明专利技术的检索方法及其系统,能使知识信息更具有个体性的能力,在看似毫无联系的知识信息中找到相似规律使得人们可以更加精确地学习和掌握这些规律所具有的本质。

【技术实现步骤摘要】

本专利技术涉及在知识信息数据库中信息检索方法及其系统。更具体地说,本专利技术涉及一种把知识信息数据库的建立与拥有多样化和个体化强大功能的知识体系联系起来的,以知识内在涵义为基础的信息检索方法及其系统。
技术介绍
随着信息数字化的快速发展,信息大都以数字化的形式储存于计算机中,并以各种应用软件对大量的数据信息进行处理,以用来提高本专利技术的生活水平和发展生产力。正由于数据库的广泛应用可以说在满足本专利技术各方面需求上面是十分成功的,但是尚有一个领域仍然非常不成熟。那就是对不以文字表达为基础的知识信息的管理和运用(如存档和搜索)。例如在许多科学领域(比如数学),同种观点或知识的涵义可以有多种不同的文字表达形式。再以数学作为例子,以下两个表达式代表相同的内在涵义(二维空间上的圆)(x-a)2+(y-b)2=r2(x-x0)2+(y-y0)2=k2虽然这两个方程式在形式上仍然相当相似,但是本专利技术可以做非常简单的变形就可以使它们变得在表达形式上非常不同从而使软件程序很难发现它们的相似之处。以往的技术系统对知识内容相似性的判断没有智能去理解同种内涵可以有多种表现形式。事实上,这种技术系统是通过对文字表现上有相似之处的以文字表现为基础进行内在涵义是否相似的尺度。所以以往的技术系统不能够辨别“文字表达上不同”但是的知识信息内涵意义相似的知识的相似性。这种技术系统本专利技术称之为内容不敏感系统。这种以往的技术系统存在的另一个普遍问题就是它们把知识信息以大块的形式储存。因此,这种技术系统只能给出几种固定形式知识展现。例如,虽然一本书拥有巨大的信息量,但是其具体信息载体却以连续不变不可变的方式存在。如果一读者只想知道这本书是否是他或她真正需要的,他或她一般必须阅读书的主要部分(甚或读完整本书)。而此时才发现书对他或她毫无用处为时已晚。一本编辑良好的书(特别是教科书)一般都包含一个完整的索引,内容目录表,每一章都有摘要,脚注等等。所有这些编辑内容都使读者获得有用的信息变的更容易。但不管该书的编辑经过如何的深思熟虑,编辑地如何富有技巧性和专业化,在印刷时就已经决定了书的内容只有一种展示方式。这往往与读者使用该书的出发点和目的无法适应。以往的技术系统的另一个缺点是知识信息的外在(或者说表现)形式对个人对知识的使用很不敏感。造成这种现象的原因主要是在于知识信息的创建过程和方法将信息变得死板而很难是知识内容个体化。随着计算机技术的发展,这种传统的信息具体化逐渐被使用按严格的设计规划而创建的数据库系统所取代。然而在现代的系统中此类设计的存储单位仍然很大很粗糙,使得在此类存储单位之间的重要联系尚难以得到发现。例如在以往的知识数据库技术系统(包括数字形式)中,一个定理的论证通常以单个个体形式储存起来。对于一个定理的论证通常需要丰富的技巧,概念,方法,模型,实例以及适用于解决其他问题的技巧,但此类信息仍然用自身属性(元数据)的形式直接记录在该证明中。使用这些元数据的方法的缺点是显而易见的。首先,元数据与信息个体本身相联系。尽管元数据的内涵意义完全相同,由于人的操作或程序的偏差,这些相同点就会可能包含非本质性的变异或出现遗漏,从而使得判断分析这些元数据的相似性耗费巨大且颇有难度。当对这些元数据进行修改时,如果相同的元数据有多个拷贝, 就只有其中一个副本被改动,而这就会与理想的元数据使用形式相去甚远。由于每一个知识信息的元数据都分别记录,而这些元数据都会有细微的偏差,利用计算机程序来找出知识信息的相似性是极其困难的以往的技术系统没有建立一个判断不同信息个体之间相同之处的理论,因而使用了很多的随便设计的对知识信息的分析方法。所以,本专利技术所需要的是知识库的设计和计算机处理过程,这种设计和处理过程通过运用了一系列众所周知的基本知识信息要素(比如概念,实例,技巧,模型等)以及建立在相关衡量尺度的正确原理基础上的内容敏感识别程序(与内容不敏感相对立),把储存于此类数据库中的所有知识信息单位与基本知识信息要素联系起来。通过从表面上不同的(但实际内容上相同或相似)知识信息单位中建立此类相关联系,本专利技术就可以克服元数据方法的缺点并创建出自动程序来确定关键的信息相似性
技术实现思路
本专利技术的首要目的在于克服现有技术中的不足,提供一种基于知识内在涵义的知识信息检索方法,包括以下步骤a、对基本知识要素系统进行引用;b、对被检索知识信息进行文字性和非文字性内容的分类,过滤科学符号表达式中非本质的文字符号信息;c、以字符串为基础的相似对比和编译结果的同构和同态判断准则与基本知识要素系统进行对比,产生被检索知识信息的内核;d、对所获得的内核与其它内核进行内核距离计算,判断不同知识信息的相似性和相关性,对所要输入知识库的被检索知识信息内容从传统的单一板块形式存在的知识信息进行活性化,使之成为活性化知识信息系统。本专利技术所述对基本知识要素系统进行引用,是通过以下步骤实现的a、按设计特性对基本知识要素系统进行分类的对应参照;b、对非文字性的科学符号表达方式进行特征分析与记录;c、利用特征对混合的科学知识内容进行分析并将文字性的知识描述和非文字性的科学表达方式区分。本专利技术所述过滤科学符号表达式中非本质的文字符号信息,是通过以下步骤实现的a、设立多个有不同编译规则细节的编译种类;b、对科学符号表达式进行编译,以此决定科学符号表达式中的非本质文字符号内容的去留;c、生成编译结果,并在知识库中予以记录。本专利技术所述对科学符号表达式进行编译,是通过K-映射,利用字符串和字符串的拼接运算来实现的,其中满足以下条件为K-映射令O表示所有组合符号的集合,E表示所有使用组合符号O中的符号所生成的的表达式的集合,D表示编译细节的集合,R表示在拼接运算#下闭合的所有所有对象的集合。则映射k为{O∪E}D→R,表示笛卡儿乘积;给出任意d∈D任意两个独特运算符p,q∈O,k(p,d)与k(q,d)不同;给出任意d∈D和表达式e∈E,如果存在其他两个表达式u∈E和v∈E并且运算符号o∈O,且e=o(u,v),那么k(e,d)=k(o,d)#k(u,d)#k(v,d)。本专利技术所述进行内核距离计算,判断不同知识信息的相似性和相关性,是通过以下步骤实现的a、设定两个知识信息内核的α-距离参数;b、提供内核权函数的可扩展性接口;c、计算两内核之间的α-距离。本专利技术所述两个知识信息内核的α-距离参数为|Kx-Ky|=(|Kx|+|Ky|-2·|Kx∩Ky||Kx|+|Ky|)·(1-|Kx∩Ky|2·|Kx|-|Kx∩Ky|2·|Ky|)]]>其中,x和y是两个知识信息,Kx和Ky是两个知识信息x和y各自的内核。,实数α>0,Kx∩Ky表示这两个内核的共同部分所组成的内核。本专利技术所述对所要输入知识库的被检索知识信息内容从传统的单一板块形式存在的知识信息进行活性化,还包括a、利用可设定的内核相似阈值建立相似的内核集合;b、对本知识信息内核以及相似内核集合按进行分类;c、记录本知识内核以及与本内核相似的其他内核的α-距离数据。本专利技术所述的检索方法还进一步包括a本文档来自技高网
...

【技术保护点】
一种基于知识内在涵义的知识信息检索方法,其特征在于,包括以下步骤:a、对基本知识要素系统进行引用;b、对被检索知识信息进行文字性和非文字性内容的分类,过滤科学符号表达式中非本质的文字符号信息;c、以字符串为基础的相似 对比和编译结果的同构和同态判断准则与基本知识要素系统进行对比,产生被检索知识信息的内核;d、对所获得的内核与其它内核进行内核距离计算,判断不同知识信息的相似性和相关性,对所要输入知识库的被检索知识信息内容从传统的单一板块形式存在的知 识信息进行活性化,使之成为活性化知识信息系统。

【技术特征摘要】
1.一种基于知识内在涵义的知识信息检索方法,其特征在于,包括以下步骤a、对基本知识要素系统进行引用;b、对被检索知识信息进行文字性和非文字性内容的分类,过滤科学符号表达式中非本质的文字符号信息;c、以字符串为基础的相似对比和编译结果的同构和同态判断准则与基本知识要素系统进行对比,产生被检索知识信息的内核;d、对所获得的内核与其它内核进行内核距离计算,判断不同知识信息的相似性和相关性,对所要输入知识库的被检索知识信息内容从传统的单一板块形式存在的知识信息进行活性化,使之成为活性化知识信息系统。2.如权利要求1所述的检索方法,其特征在于,所述对基本知识要素系统进行引用,是通过以下步骤实现的a、按设计特性对基本知识要素系统进行分类的对应参照;b、对非文字性的科学符号表达方式进行特征分析与记录;c、利用特征对混合的科学知识内容进行分析并将文字性的知识描述和非文字性的科学表达方式区分。3.如权利要求1所述的检索方法,其特征在于,所述过滤科学符号表达式中非本质的文字符号信息,是通过以下步骤实现的a、设立多个有不同编译规则细节的编译种类;b、对科学符号表达式进行编译,以此决定科学符号表达式中的非本质文字符号内容的去留;c、生成编译结果,并在知识库中予以记录。4.如权利要求3所述的检索方法,其特征在于,所述对科学符号表达式进行编译,是通过K-映射,利用字符串和字符串的拼接运算来实现的,其中满足以下条件为K-映射令O表示所有组合符号的集合,E表示所有使用组合符号O中的符号所生成的表达式的集合,D表示编译细节的集合,R表示在拼接运算#下闭合的所有对象的集合,则映射k为{OUE}D→R,表示笛卡儿乘积;给出任意d∈D任意两个独特运算符p,q∈O,k(p,d)与k(q,d)不同;给出任意d∈D和表达式e∈E,如果存在其他两个表达式u∈E和v∈E并且运算符号o∈O,且e=o(u,v),那么k(e,d)=k(o,d)#k(u,d)#k(v,d)。5.如权利要求1所述的检索方法,其特征在于,所述进行内核距离计算,判断不同知识信息的相似性和相...

【专利技术属性】
技术研发人员:吴晓红蒋志萍祝传忠王俊平
申请(专利权)人:金德龙
类型:发明
国别省市:33[中国|浙江]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1