当前位置: 首页 > 专利查询>苏州大学专利>正文

一种知识精炼的方法以及装置制造方法及图纸

技术编号:15823276 阅读:89 留言:0更新日期:2017-07-15 05:18
本发明专利技术公开了一种知识精炼的方法以及装置,通过获取自动抽取的知识库内的候选知识子集;根据众包任务选择算法,从候选知识子集中选取出第一预设数量的最优知识子集,其中,众包任务选择算法为以语义约束规则为基础的算法,第一预设数量小于或等于预设众包任务数量;基于最优知识子集,发布众包任务,得到任务反馈结果;根据任务反馈结果,对知识库进行去噪操作。即基于众包平台,对自动抽取的知识库内的知识进行精炼,也即利用人工标注去除自动抽取的知识库的噪声,使得知识库内的知识质量较高。且选取出预设数量的候选知识子集实施众包任务,使得在有限的资源下最大化知识质量的提升。可见,本申请有利于提高自动抽取的知识库内的知识质量。

【技术实现步骤摘要】
一种知识精炼的方法以及装置
本专利技术涉及机器学习领域,特别是涉及一种知识精炼的方法以及装置。
技术介绍
近年来,机器学习技术以及自然语言处理技术已经应用于许多信息抽取系统上。信息抽取系统可以从海量的Web数据中自动抽取知识,构建知识库。自动抽取形成的知识库内包含了大量的实体以及实体关系,但是由于数据源以及抽取系统所使用的抽取算法的局限性,知识库内往往有大量的噪声以及不可靠的事实。为了提高知识库的知识质量,即去除知识库内的噪声,可以使用知识算法来减少噪声。然而,由于知识库的规模较大,信息抽取系统一般是使用简单的启发式规则对知识的不确定性以及矛盾性进行推理判断,以减少知识库内的噪声。且知识库内存在有知识算法难以判断其正确性的事实,更进一步地,知识算法的处理能力以及精度都十分有限,从而导致知识库内的噪声较多,知识库的可信度和可依赖性较低,知识库的知识质量较低。综上所述,如何提高自动抽取的知识库内的知识质量是本领域亟待解决的问题。
技术实现思路
本专利技术的目的是提供一种知识精炼的方法以及装置,目的在于解决现有技术中自动抽取的知识库内的知识质量较低的问题。为解决上述技术问题,本专利技术提供一种本文档来自技高网...
一种知识精炼的方法以及装置

【技术保护点】
一种知识精炼的方法,其特征在于,包括:获取自动抽取的知识库内的候选知识子集;根据众包任务选择算法,从所述候选知识子集中选取出第一预设数量的最优知识子集,其中,所述众包任务选择算法为以语义约束规则为基础的算法,所述第一预设数量小于或等于预设众包任务数量;基于所述最优知识子集,发布众包任务,得到任务反馈结果;根据所述任务反馈结果,对所述知识库进行去噪操作。

【技术特征摘要】
1.一种知识精炼的方法,其特征在于,包括:获取自动抽取的知识库内的候选知识子集;根据众包任务选择算法,从所述候选知识子集中选取出第一预设数量的最优知识子集,其中,所述众包任务选择算法为以语义约束规则为基础的算法,所述第一预设数量小于或等于预设众包任务数量;基于所述最优知识子集,发布众包任务,得到任务反馈结果;根据所述任务反馈结果,对所述知识库进行去噪操作。2.如权利要求1所述的方法,其特征在于,所述根据众包任务选择算法,从所述候选知识子集中选取出第一预设数量的最优知识子集包括:根据预设阈值以及所使用的知识抽取算法的置信度,计算得出表征所述候选知识子集的不确定性高低的第一数值;根据所述语义约束规则内的矛盾关系语义约束规则,计算得出表征所述候选知识子集的矛盾性高低的第二数值;基于预设评估函数,对所述第一数值以及所述第二数值进行计算,得出每个所述候选知识子集的评估分值;根据所述评估分值的高低,从所述候选知识子集中选取出所述第一预设数量的知识子集,将所述知识子集作为所述最优知识子集;其中,所述不确定性为度量所述抽取算法确定所述候选知识子集为正确知识子集的难易程度的性质。3.如权利要求2所述的方法,其特征在于,在所述根据所述评估分值的高低,从所述候选知识子集中选取出所述第一预设数量的知识子集之后还包括:根据所述语义约束规则以及所述知识子集,生成第一闭合语义约束规则;将每一个所述知识子集作为一个顶点,并根据所述第一闭合语义约束规则连接各个所述顶点,得出第一有向图;根据预设顶点选择算法,从所述顶点中选取出第二预设数量的第一最优顶点,将所述第一最优顶点对应的所述知识子集作为所述最优知识子集;其中,所述第一最优顶点为顶点颜色无法由其它顶点的颜色推断得到的顶点,所述第二预设数量小于所述第一预设数量,所述预设顶点选择算法为基于路径的顶点选择算法以及基于拓扑排序的顶点选择算法中的任意一种。4.如权利要求3所述的方法,其特征在于,所述根据所述任务反馈结果,对所述知识库进行去噪操作包括:当所述任务反馈结果为正确时,将所述任务反馈结果对应的所述第一最优顶点着为第一种颜色;当所述任务反馈结果为错误时,将所述任务反馈结果对应的所述第一最优顶点着为第二种颜色;根据所述语义约束规则的一致关系语义约束规则以及所述矛盾关系语义约束规则,将其它顶点着为所述第一种颜色或所述第二种颜色;去除所述第一有向图上颜色为所述第二种颜色的顶点对应的所述知识子集。5.如权利要求1所述的方法,其特征在于,所述根据众包任务选择算法,从所述知识子集中挑选出第一预设数量的最优知识子集包括:根据所述语义约束规则以及所述候选知识子集,生成第二闭合语义约束规则;将每一个所述候选知识子集作为一个顶点,并根据所述第二闭合语义约束规则连接各个所述顶点,得出第二有向图;根据预设顶点选择算法,从所述顶点中选取出所述第一预设数量的第二最优顶点,将所述第二最优顶点对应的所述知识子集作为所述最优知识子集;其中,所述第二最优顶点为顶点颜色无法由其它顶点的颜色推断得到的顶点,所述预设顶点选择算法为基于路径的顶点选择算法以及基于拓扑排序的顶点选择算...

【专利技术属性】
技术研发人员:赵朋朋李春华许佳捷崔志明
申请(专利权)人:苏州大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1