知识提取过程生成设备和知识提取过程调整设备及其方法技术

技术编号:4315299 阅读:171 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种知识提取过程生成设备及其方法。其中,所述知识提取过程生成设备,包括:引擎选择装置,用于根据知识提取任务选择引擎序列;以及参数值调整装置,用于对选择的引擎序列中的引擎的参数的参数值进行调整,以获得调整参数值的引擎序列,作为知识提取过程。以及本发明专利技术提供一种知识提取过程调整设备及其方法。通过采用本发明专利技术的知识提取过程生成设备和方法可以自动生成知识提取精度较高的知识提取过程,以及通过采用知识提取过程调整设备和方法可以对知识提取过程的参数进行调整,以获得质量提升的知识提取过程。

【技术实现步骤摘要】

本专利技术涉及知识提取过程的领域,具体地,涉及一种知识提取过程 生成设备及其方法以及一种知识提取过程调整设备及其方法。
技术介绍
知识提取过程是一种根据知识提取任务来提取所需的知识的过 程。知识提取过程可以处理非结构化的信息,从中提取出结构化的信息。例如从一个HTML文件中提取出其中的公司信息。知识提取过程 的构建是非常重要的,当构建的知识提取过程提取功能较优时,可以 提取出有用的知识。此外,知识提取过程的质量提升是非常有用的, 它可以让用户得到的知识的数量更多,知识的内容更精确。例如,一 个知识提取过程可以得到50个产品,经过质量提升后,该知识提取过 程可以得到80个更为精确的产品。目前已经存在一些与知识提取相关的专利申请文件。US20020165839描述了一种分词的质量提升方法。它可以自动选 择分词特征(TF-IDF,词性标注等)和分类器(贝叶斯分类器,SVM 分类器等),来使分词结果变得更好(获得更高的准确率和召回率)。JP2005-316904描述了一个打印控制设备。它预先定义了一个工 作流生成规则库,其手工定义了构成一个打印任务的各步骤之间的次 序,然后根据工作流生成规则库来发现各打印任务之间的次序。JP8006970描述了一个信息检索设备。当根据初始的搜索条件找 到的搜索结果数目较少时,它可以扩展初始的搜索条件以得到预期数 量的搜索结果。综合上述现有的方法,都不能根据以往的知识提取结果来自动选 择相应的知识提取步骤,决定各步骤的次序,以及调整各步骤的参 数。
技术实现思路
为了解决上述问题,本专利技术提出了一种知识提取过程生成设备及 其方法, 一种知识提取过程调整设备及其方法。根据本专利技术第一方面,提出了一种知识提取过程生成设备,包括: 引擎选择装置,用于根据知识提取任务选择引擎序列;以及参数值调整装置,用于对选择的引擎序列中的引擎的参数的参数值进行调整, 以获得调整参数值的引擎序列,作为知识提取过程。根据本专利技术第二方面,提出了一种知识提取过程生成方法,包括引擎选择步骤,根据知识提取任务选择引擎序列;以及参数值调整步骤,对选择的引擎序列中的引擎的参数的参数值进行调整,以获得调 整参数值的引擎序列,作为知识提取过程。根据本专利技术第三方面,提出了一种知识提取过程调整设备,包括 知识提取结果分析装置,用于分析作为知识提取过程的引擎序列的知识提取结果的质量是否满足目标质量;引擎选择装置,用于在知识提 取结果不满足目标质量时根据知识提取任务选择引擎序列;以及参数 值调整装置,用于对选择出的引擎序列的引擎的参数的参数值进行调 整,以获得调整参数值的引擎序列,作为调整的知识提取过程。根据本专利技术第四方面,提出了一种知识提取过程调整方法,包括知识提取结果分析步骤,分析作为知识提取过程的引擎序列的知识提取结果的质量是否满足目标质量;引擎选择步骤,在知识提取结果不 满足目标质量时根据知识提取任务选择引擎序列;以及参数值调整步 骤,对选择出的引擎序列的引擎的参数的参数值进行调整,以获得调 整参数值的引擎序列,作为调整的知识提取过程。根据本专利技术第五方面,提出了一种知识提取过程调整设备,包括知识提取结果分析装置,用于分析作为知识提取过程的引擎序列的知识提取结果的质量是否满足目标质量;以及参数值调整装置,用于在 知识提取结果不满足目标质量时对引擎序列的引擎的参数的参数值进 行调整,以获得调整参数值的引擎序列,作为调整的知识提取过程。根据本专利技术第六方面,提出了一种知识提取过程调整方法,包括知识提取结果分析步骤,分析作为知识提取过程的引擎序列的知识提取结果的质量是否满足目标质量;以及参数值调整步骤,在知识提取 结果不满足目标质量时对引擎序列的引擎的参数的参数值进行调整, 以获得调整参数值的引擎序列,作为调整的知识提取过程。由于采用本专利技术的知识提取过程生成设备和方法可以自动生成知 识提取精度较高的知识提取过程,以及通过采用知识提取过程调整设 备和方法可以对知识提取过程的参数进行调整,从而参数调整后的知 识提取过程的质量得到了较大提高,以向用户提供更多数目和更精确 的知识。附图说明图la是示出了根据本专利技术的知识提取过程生成设备的示意图lb是示出了根据本专利技术的知识提取过程生成方法的流程图2a是示出了根据本专利技术的知识提取过程调整设备的示意图2b是示出了根据本专利技术的知识提取过程调整方法的示意图3a是示出了根据本专利技术的引擎选择装置的结构图3b是示出了根据本专利技术的参数值调整装置的结构图4是示出了根据本专利技术的知识提取过程调整设备执行引擎选择和参数调整方法的流程图5示出了一个引擎库的示例;图6示出了一个引擎管理界面;图7示出了知识提取过程的一个示例;图8示出了网站内容提取模板的一个示例,-图9示出了利用网站内容提取模板构建产品提取过程的一个示例; 图10示出了知识提取过程开发界面的一个示例; 图ll示出了自动选择引擎序列的一个示例; 图12示出了调整知识提取过程的一个示例。具体实施例方式下面,将参考附图描述本专利技术的优选实施例。在附图中,相同的10元件将由相同的参考符号或数字表示。此外,在本专利技术的下列描述中, 将省略对已知功能和配置的具体描述,以避免使本专利技术的主题不清楚。图la示出了根据本专利技术的知识提取过程生成设备的示意图。该知 识提取过程生成设备包括输入装置(未示出),用于输入知识提取任务; 生成部分l,包括引擎选择装置IO和参数值调整装置12;存储部分 2,存储有知识提取过程历史库14和模板库16;输出装置(未示出), 用于输出生成的知识提取过程。一个知识提取过程就是一个引擎序列。 其中知识提取过程历史库14存储的是历史生成的知识提取过程,模板 库16存储了多个模板,每个模板定义了一种经常使用的引擎序列,引 擎序列是由一序列引擎构成的,每个引擎可以执行某个特定的知识提 取任务,且引擎可以包括基本描述部分,功能部分以及参数定义部分。 引擎选择装置IO用于根据输入的知识提取任务选择引擎序列,其中, 引擎选择装置IO可以利用模板库16来选择引擎序列,或者可以根据 知识提取过程历史库14中存储的知识提取过程来选择引擎序列。参数 值调整装置12,用于对选择的引擎序列的引擎的参数定义部分中的参 数的参数值进行调整,作为生成的知识提取过程。图lb示出了根据本专利技术的知识提取过程生成方法的流程图。如图 lb所示,在S201,输入装置输入知识提取任务。在S202,引擎选择 装置10根据知识提取任务选择相应的引擎序列,用于提取知识。在 S203,参数值调整装置12对选择的引擎序列的引擎的参数的参数值 进行调整,以获得知识提取质量较高的知识提取过程,最后,在S204, 输出装置输出生成的知识提取过程。通过本专利技术的知识提取过程生成设备生成的知识提取过程可以获 得数量较多且精度较高的提取的知识。此外,本专利技术还提供一种知识提取过程调整设备,用于灵活地、 持续不断地调整知识提取过程,从而获得高质量的提取的知识。下面将对根据本专利技术的知识提取过程调整设备进行描述。其中, 将对上述引擎选择装置IO,参数值调整装置12,知识提取过程历史库 14以及模板库16进行详细的描述。图2a示出了根据本专利技术的知识提取过程调整设备的示意图。该知识提取过程调整设备包括调整部分3和存储部分4。本文档来自技高网...

【技术保护点】
一种知识提取过程生成设备,包括: 引擎选择装置,用于根据知识提取任务选择引擎序列;以及 参数值调整装置,用于对选择的引擎序列中的引擎的参数的参数值进行调整,以获得调整参数值的引擎序列,作为知识提取过程。

【技术特征摘要】

【专利技术属性】
技术研发人员:梁邦勇齐红威丰强泽
申请(专利权)人:日电中国有限公司
类型:发明
国别省市:11[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1