基于规则模板的语料分析方法及语料分析装置制造方法及图纸

技术编号:19098599 阅读:22 留言:0更新日期:2018-10-03 02:40
本发明专利技术提出了一种基于规则模板的语料分析方法及装置,基于规则模板的语料分析方法包括:获取语料;根据模型映射,记录语料的语料归属模型,并将语料存储至子语料库;在语料归属模型中建立知识元;根据属性映射,确定知识元的属性;根据知识元的属性,获取目标知识元;建立知识元与目标知识元的关联关系,采用本发明专利技术的方法能够大大减少语料分析过程的人力,将分析过程中的分类、建立知识元、属性填充和关系建立全部变为程序自动完成,提高了对语料分析的效率,节约了时间,保证了准确性。

【技术实现步骤摘要】
基于规则模板的语料分析方法及语料分析装置
本专利技术涉及数字资源知识体系管理
,具体而言,涉及一种基于规则模板的语料分析方法及基于规则模板的语料分析装置。
技术介绍
知识服务是出版单位追捧的热点应用,国家在这方面的大量的资金投入也加快了知识服务在出版单位落地的时间,而知识服务的一个重要依赖内容就是知识体系的构建,只有建立了完善而专业的知识体系,才能更好地提供知识服务。对于专业出版社来说,专业优质的知识是其核心资源,也是其与互联网内容的最大区别,建立起专业知识体系来提供知识服务是其将核心资源进行应用的一种有效的渠道,但出版社的资源却又比较分散,传统的资源管理方式都是将资源作为一条条语料存储在数据库或数据文件中进行利用和管理,如何将这些语料高效的构建为专业全面的知识体系就是一个亟待解决又十分有价值的研究课题。目前,在利用语料建立知识体系的过程中,对语料的处理主要是人工分析,需要人工阅读语料的词头、描述等各项内容,根据这些内容来判断语料应该属于哪个分类,对应哪个模型,然后在找到的模型下手动建立与词头同名的知识元,之后还要人工分析语料中的内容,根据模型指定好的属性一一提取出来本词条对应知识元所拥有的具体属性值,最后也是最耗费人力的就是知识元关系的建立,需要根据已知的模型间关系,去到关系起点和终点两个模型中寻找哪两个具体的知识元应该建立一个关系,整个过程人工参与的程度高,造成容易出错、耗时长、效率低等缺点。
技术实现思路
本专利技术旨在至少解决现有技术或相关技术中存在的技术问题之一。为此,本专利技术的一个目的在于提出了一种基于规则模板的语料分析方法。本专利技术的另一个目的在于提出了一种基于规则模板的语料分析装置。有鉴于此,根据本专利技术的一个目的,提出了一种基于规则模板的语料分析方法,包括:获取语料;根据模型映射,记录语料的语料归属模型,并将语料存储至子语料库;在语料归属模型中建立知识元;根据属性映射,确定知识元的属性;根据知识元的属性,获取目标知识元;建立知识元与目标知识元的关联关系。本专利技术提供的基于规则模板的语料分析方法,获取语料,通过模型映射,记录语料的语料归属模型,同时将语料复制到与语料归属模型同名的子语料库中,在语料归属模型中建立知识元,根据属性映射,自动确定知识元的属性,根据知识元的属性,获取目标知识元,建立知识元与目标知识元的关联关系,采用本专利技术的方法能够大大减少语料分析过程的人力,将分析过程中的分类、建立知识元、属性填充和关系建立全部变为程序自动完成,使用者的工作仅仅是在最开始拿小部分语料数据进行规律的分析和总结,后续全程都是自动进行,不需要用户手动参与,提高了对语料分析的效率,节约了时间,保证了准确性。根据本专利技术的上述基于规则模板的语料分析方法,还可以具有以下技术特征:在上述技术方案中,优选地,获取语料之前,还包括:建立至少一个语料归属模型;为每个至少一个语料归属模型设置模型属性;建立至少一个语料归属模型与其它语料归属模型之间的模型关系;将模型关系与模型属性进行绑定;建立规则模板;将规则模板与至少一个语料归属模型的模型关系进行绑定,进而建立至少一个语料归属模型的模型映射,其中模型映射包括模型映射规则;将规则模板与至少一个语料归属模型的模型属性进行绑定,进而建立至少一个语料归属模型的属性映射,其中属性映射包括属性映射规则。在该技术方案中,建立至少一个语料归属模型,并为每个至少一个语料归属模型设置模型属性,为至少一个语料归属模型与其它语料归属模型之间建立模型关系,并将每个模型关系与语料归属模型的模型属性进行绑定,建立规则模板,将规则模板与至少一个语料归属模型的模型关系进行绑定,建立至少一个语料归属模型的模型映射,其中模型映射包括模型映射规则,将规则模板与至少一个语料归属模型的模型属性进行绑定,建立至少一个语料归属模型的属性映射,其中属性映射包括属性映射规则,通过建立模型、模型属性、模型关系、规则模板以及建立所需规则为语料的分析打下基础。在上述技术方案中,优选地,根据模型映射,记录语料的语料归属模型的步骤包括:判断语料归属模型的模型映射规则与语料是否匹配;当语料归属模型的模型映射规则与语料匹配时,记录语料归属模型;当语料归属模型的模型映射规则与语料不匹配时,判断下一个语料归属模型的模型映射规则与语料是否匹配。在该技术方案中,根据模型映射,记录语料的语料归属模型的步骤包括:判断语料归属模型的模型映射规则与语料是否匹配,当语料归属模型的模型映射规则与语料匹配时,记录语料归属模型,当语料归属模型的模型映射规则与语料不匹配时,判断下一个语料归属模型的模型映射规则与语料是否匹配,通过模型映射将模型映射规则用于对语料进行分类,甄别出语料应该归属哪个模型。在上述技术方案中,优选地,根据属性映射,确定知识元的属性的步骤包括:判断语料归属模型的属性映射规则与语料是否匹配;当语料归属模型的属性映射规则与语料匹配时,将属性映射规则对应的模型属性作为知识元的属性;当语料归属模型的属性映射规则与语料不匹配时,判断下一个语料归属模型的属性映射规则与语料是否匹配。在该技术方案中,根据属性映射,确定知识元的属性的步骤包括:判断语料归属模型的属性映射规则与语料是否匹配,当语料归属模型的属性映射规则与语料匹配时,将属性映射规则对应的模型属性作为知识元的属性,当语料归属模型的属性映射规则与语料不匹配时,判断下一个语料归属模型的属性映射规则与语料是否匹配,通过属性映射将属性映射规则用于对语料进行属性提取,然后将属性指填充到映射指定的知识元中,为了避免应该匹配上却没有匹配的情况,系统支持同一规则名下有多条规则,此时如果某个属性映射的规则名下有多个规则,在提取这个属性的属性值时就会依次使用这多条规则,直到匹配上为止,这样可以大大提高匹配的成功度。在上述技术方案中,优选地,根据知识元的属性,获取目标知识元具体包括:当与知识元的属性绑定的模型关系存在的情况下,查找与语料归属模型建立模型关系的目标语料归属模型;在目标语料归属模型中查找与知识元的属性相同的目标知识元。在该技术方案中,根据知识元的属性,获取目标知识元具体包括:当与知识元的属性绑定的模型关系存在的情况下,查找与语料归属模型建立模型关系的目标语料归属模型,在目标语料归属模型中查找与知识元的属性相同的目标知识元,从而建立关联关系,建立知识体系。在上述技术方案中,优选地,根据知识元的属性,获取目标知识元具体还包括:当与知识元的属性绑定的模型关系不存在的情况下,查找与知识元的语料归属模型建立模型关系的所有语料归属模型;在所有语料归属模型中查找与知识元的属性相同的目标知识元。在该技术方案中,根据知识元的属性,获取目标知识元具体还包括:当与知识元的属性绑定的模型关系不存在的情况下,查找与知识元的语料归属模型建立模型关系的所有语料归属模型,在所有语料归属模型中查找与知识元的属性相同的目标知识元,使整个语料分析过程具有更高的准确性和高效性。根据本专利技术的另一个目的,提出了一种基于规则模板的语料分析装置,包括:语料获取单元,用于获取语料;语料分类模块,用于根据模型映射,记录语料的语料归属模型,并将语料存储至子语料库;知识元建立和填充模块,用于在语料归属模型中建立知识元;以及根据属性映射,确定知识元的属性;知识元本文档来自技高网...

【技术保护点】
1.一种基于规则模板的语料分析方法,其特征在于,包括:获取语料;根据模型映射,记录所述语料的语料归属模型,并将所述语料存储至子语料库;在所述语料归属模型中建立知识元;根据属性映射,确定所述知识元的属性;根据所述知识元的属性,获取目标知识元;建立所述知识元与所述目标知识元的关联关系。

【技术特征摘要】
1.一种基于规则模板的语料分析方法,其特征在于,包括:获取语料;根据模型映射,记录所述语料的语料归属模型,并将所述语料存储至子语料库;在所述语料归属模型中建立知识元;根据属性映射,确定所述知识元的属性;根据所述知识元的属性,获取目标知识元;建立所述知识元与所述目标知识元的关联关系。2.根据权利要求1所述的基于规则模板的语料分析方法,其特征在于,获取所述语料之前,还包括:建立至少一个语料归属模型;为每个所述至少一个语料归属模型设置模型属性;建立所述至少一个语料归属模型与其它语料归属模型之间的模型关系;将所述模型关系与所述模型属性进行绑定;建立规则模板;将所述规则模板与至少一个所述语料归属模型的所述模型关系进行绑定,进而建立至少一个所述语料归属模型的模型映射,其中所述模型映射包括模型映射规则;将所述规则模板与至少一个所述语料归属模型的所述模型属性进行绑定,进而建立至少一个所述语料归属模型的属性映射,其中所述属性映射包括属性映射规则。3.根据权利要求1所述的基于规则模板的语料分析方法,其特征在于,根据所述模型映射,记录所述语料的所述语料归属模型的步骤包括:判断所述语料归属模型的所述模型映射规则与所述语料是否匹配;当所述语料归属模型的所述模型映射规则与所述语料匹配时,记录所述语料归属模型;当所述语料归属模型的所述模型映射规则与所述语料不匹配时,判断下一个语料归属模型的所述模型映射规则与所述语料是否匹配。4.根据权利要求1所述的基于规则模板的语料分析方法,其特征在于,根据属性映射,确定所述知识元的属性的步骤包括:判断所述语料归属模型的所述属性映射规则与所述语料是否匹配;当所述语料归属模型的所述属性映射规则与所述语料匹配时,将所述属性映射规则对应的模型属性作为所述知识元的属性;当所述语料归属模型的所述属性映射规则与所述语料不匹配时,判断下一个语料归属模型的所述属性映射规则与所述语料是否匹配。5.根据权利要求1所述的基于规则模板的语料分析方法,其特征在于,根据所述知识元的属性,获取所述目标知识元具体包括:当与所述知识元的属性绑定的模型关系存在的情况下,查找与所述语料归属模型建立所述模型关系的目标语料归属模型;在所述目标语料归属模型中查找与所述知识元的属性相同的所述目标知识元。6.根据权利要求5所述的基于规则模板的语料分析方法,其特征在于,根据所述知识元的属性,获取所述目标知识元具体还包括:当与所述知识元的属性绑定的模型关系不存在的情况下,查找与所述知识元的所述语料归属模型建立所述模型关系的所有语料归属模型;在所述所有语料归属模型中查找与所述知识元的属性相同的所述目标知识元。7....

【专利技术属性】
技术研发人员:辛雨非
申请(专利权)人:北大方正集团有限公司北京北大方正电子有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1