当前位置: 首页 > 专利查询>复旦大学专利>正文

基于本体的工程数据关键字检索方法技术

技术编号:30765138 阅读:36 留言:0更新日期:2021-11-10 12:22
本发明专利技术提供一种基于本体的工程数据关键字检索方法,其特征在于,包括以下步骤:步骤S1,引入工程数据的领域本体和工程数据术语表,对工程数据术语表进行倒排索引生成倒排索引表;步骤S2,将工程数据中的若干类文档处理为XML快照并进行倒排索引构建快照统计表;步骤S3,基于关键字和本体概念的匹配规则,对用户查询的关键字,通过执行引擎采用倒排索引表将关键字匹配到本体中合适的概念上,基于本体搜索关联概念得到概念拓展集;步骤S4,基于倒排索引表获得与概念拓展集相关的XML快照,构建排序模型,由排序模型基于快照统计表的数据计算相关度得分;步骤S5,对相关度得分进行排序,找到每个XML快照对应的若干类文档,作为查询结果集返回给用户。询结果集返回给用户。询结果集返回给用户。

【技术实现步骤摘要】
基于本体的工程数据关键字检索方法


[0001]本专利技术属于数据检索
,涉及一种基于本体的工程数据关键字检索方法。

技术介绍

[0002]企业工程数据广泛存在于当今的各种生产制造行业。它的种类很多,例如对于飞行制造领域,工程数据包含了航材零部件参数、几何造型数据、飞行训练数据、维修检查数据、各种图文档及表格等。据统计,仅仅一个飞机引擎,就有近万份设计文档[1]。对这些大量而复杂异构的数据的管理和控制是亟待解决的重要问题,因而衍生出了产品数据管理(PDM)等相关的产品和技术。
[0003]在工程数据的管理中,因为海量文档的存在,查询成为最重要的一个环节。传统的工程数据查询处理,用户的查询请求通常以关键词的形式出现。然而,传统的信息检索领域的关键字处理技术通常利用简单的基于词根的匹配法则,计算关键词和文档索引词集合之间的相似度。对于工程数据,这会带来几个问题:(1)大量的工程数据并非形如网页的纯文本文档,存在很多由计算机辅助设计(CAD)、辅助制造(CAM)带来的pdf、office表格等类型的文档;(2)工程数据领域具有自己独特的专业术语,这些术语和日常用词区别较大,传统的信息检索方法完全忽略这些关键字术语间蕴含的语义。例如,关键字“springpivotshaft”在工程数据领域表达的是完整的“弹簧回转轴”这一物件,传统检索方法对每个词单独处理,且极可能造成单词的语义混淆。(3)经验表明,传统的工程数据检索方法效果差,给工程设计人员造成的时间损失非常巨大。
[0004]具体来说,传统的工程数据检索领域存在的一些检索方法概括起来,主要可以分为两类:一类是沿用传统的网页关键字检索技术[3][4],这种技术本质上是一种基于统计学的算法。这种方法无法理解用户的查询意图,经常出现与用户查询请求相关的文档由于语义混淆或用词不同而无法被检索出来的情况;另一类是采用自然语言分析工具[5][6],构建字串样板,运用机器学习的方法,从工程数据中分析各个句子的组成成分,从而将各个语言成分归纳到各个领域知识上。这种做法的弊端在于,目前自然语言分析工具只能处理很有限主题的句子分析,而工程数据覆盖的数据主题非常多,因此机器学习不足以应对该领域下大量文档的句法解析。
[0005]上述参考文献为:
[0006][1]Marsh,J.R.,1997,"TheCaptureandUtilizationofExperienceinEngineeringDesign,"PhDThesis,CambridgeUniversity,UK.
[0007][2]McMahonC.A.,Lowe,A.,Culley,S.J.,Corderoy,M.,Crossland,R.,Shah,T.,andStewart,D.,2004,"Waypoint:AnIntegratedSearchandRetrievalSystemforEngineeringDocuments,"J.Comput.andInfo.Sci.inEng.,4(4),pp.329

338.
[0008][3]SaltonG,1991,"Developmentsinautomatictextretrieval",Science,vol.253,pp.974
‑‑
980.
[0009][4]Lin,J.andDemner

Fushman,D.,2006,"TheRoleofKnowledgein
ConceptualRetrieval:AStudyintheDomainofClinicalMedicine,"ACMSIGIR2006.
[0010][5]Carlson,AndrewandBetteridge,JustinandWang,2010,"Coupledsemi

supervisedlearningforinformationextraction,"Proc.ofthethirdACMinternationalconferenceonWebsearchanddatamining,pp.101

110.
[0011][6]Hobbs,J.R.,Appelt,D.E.,Bear,J.,Israel,D.,Kameyama,M.,Stickel,M.,andTyson,M.,1996,"FASTUS:ACascadedFinite

stateTransducerforExtractingInformationfromNatural

LanguageText,"Finite

StatDevicesforNaturalLanguageProcessing,Cambridge,MA:MITPress.

技术实现思路

[0012]为解决上述问题,提供一种以工程数据本体为基础的能够检索各种异构的工程数据文档,并且较大程度上消除了语义模糊和歧义,本专利技术采用了如下技术方案:
[0013]本专利技术提供了一种基于本体的工程数据关键字检索方法,其特征在于,包括以下步骤:步骤S1,引入工程数据的领域本体和工程数据术语表,并对工程数据术语表进行倒排索引生成倒排索引表,领域本体包括多个概念;步骤S2,对工程数据中的若干类文档进行工具处理,提取文本信息并建立XML快照,对XML快照进行倒排索引并构建快照统计表;步骤S3,基于关键字和本体概念的匹配规则,对用户提出的关键字查询命令,通过执行引擎采用倒排索引表将关键字匹配到本体中合适的概念上,基于本体搜索关联概念得到概念拓展集;步骤S4,基于倒排索引表获得与概念拓展集相关的XML快照,构建排序模型,并由排序模型基于快照统计表的数据计算与概念拓展集相关的XML快照的相关度得分;步骤S5,对相关度得分进行排序,找到每个XML快照对应的若干类文档,作为查询结果集返回给用户,其中,排序模型基于语义匹配的基础以及匹配规则构建,领域本体为相关领域中公认的概念集,工程数据术语表为领域本体的每一个概念所包含的行业术语的集合。
[0014]本专利技术提供的基于本体的工程数据关键字检索方法,还可以具有这样的技术特征,其中,领域本体基于RDFSchema图以及扩展RDF的OWL本体描述语言来完成,领域本体包括相关领域词汇的基本术语、关系以及就与基本术语和关系构成的规则定义,领域本体基于概念、属性以及值描述。
[0015]本专利技术提供的基于本体的工程数据关键字检索方法,还可以具有这样的技术特征,其中,XML快照为对若干类文档处理后得到一个标注了语义的XML文件,XML快照的建立过程为:将若干类文档转化为文本流,并对文本流进行分词,去除掉停用词;将分词与倒排索引表中的术语词进行匹配,若匹配成功,则标注为对应概念的XML标签。
[0016]本专利技术提供的基于本体的工程数据关键字检索方法,还可以具有这样的技术特征,其中,查询的关键字与本体概念的匹配程度为:
[001本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于本体的工程数据关键字检索方法,用于检索工程,数据文档,其特征在于,包括以下步骤:步骤S1,引入工程数据的领域本体和工程数据术语表,并对所述工程数据术语表进行倒排索引生成倒排索引表,所述领域本体包括多个概念;步骤S2,对所述工程数据中的若干类文档进行工具处理,提取文本信息并建立XML快照,对所述XML快照进行所述倒排索引并构建快照统计表;步骤S3,基于关键字和本体概念的匹配规则,对用户提出的关键字查询命令,通过执行引擎采用所述倒排索引表将所述关键字匹配到本体中合适的概念上,基于本体搜索关联概念得到概念拓展集;步骤S4,基于倒排索引表获得与所述概念拓展集相关的所述XML快照,构建排序模型,并由所述排序模型基于所述快照统计表的数据计算与所述概念拓展集相关的所述XML快照的相关度得分;步骤S5,对所述相关度得分进行排序,找到每个所述XML快照对应的所述若干类文档,作为查询结果集返回给用户,其中,所述排序模型基于语义匹配的基础以及所述匹配规则构建,所述领域本体为相关领域中公认的概念集,所述工程数据术语表为所述领域本体的每一个概念所包含的行业术语的集合。2.根据权利要求1所述的基于本体的工程数据关键字检索方法,其特征在于:其中,所述领域本体基于RDF Schema图以及扩展RDF的OWL本体描述语言来完成,所述领域本体包括相关领域词汇的基本术语、关系以及就与所述基本术语和关系构成的规则定义,所述领域本体基于概念、属性以及值描述。3.根据权利要求1所述的基于本体的工程数据关键字检索方法,其特征在于:其中,所述XML快照为对所述若干类文档处理后得到一个标注了语义的XML文件,所述XML快照的建立过程为:将所述若干类文档转化为文本流,并对所述文本流进行分词,去除掉停用词;将所述分词与所述倒排索引表中的术语词进行匹配,若匹配成功,则标注为对应概念的XML标签。4.根据权利要求1所述的基于本体的工程数据关键字检索方法,其特征在于:其中,查询的关键字与所述本体概念的匹配程度为:式中,Q={k1,...,k
n
}为所述关键字查询,所述领域本体中所有的概念集合为C={c1,...,c
m
},c
i
为所述概念集合中的一个概念,cscore为一个所述关键字查询Q的全体关键字与一个概念c
i
的匹配程度。5.根据权利要求4所述的基于本体的工程数据关键字检索方法,其特征在于:其中,所述匹配规则为计算一个关键字同一个概念之间的匹配程度,包括单关键字的概念匹配规则以及多关键字的概念匹配规则,所述单关键字的概念匹配规则为:
基于词干分析器将所述单关键字过滤为原形词,选择c
...

【专利技术属性】
技术研发人员:刘木强张徵杨卫东
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1