一种基于二元关系的知识学习方法和系统技术方案

技术编号:18444831 阅读:3 留言:0更新日期:2018-07-14 10:20
本发明专利技术公开了一种基于二元关系的知识学习方法和系统,该方法通过将训练数据库、材料数据库中的短语和/或句子通过自然语言处理方法解析,得到词树;获取训练数据的词树中词节点的标注信息和二元词关系的标注信息,并将词树以及对应的标注信息作为模板存储到模板库;通过少量训练数据基于二元关系建立模板库,通过机器学习从模板库中得到学习技巧,并对待学习的材料数据应用学习技巧,应用成功则对学到的知识进行存储,否则得到新的模板并增加至模板库,随时可扩充模板库,因此不需要对相同的或类似的学习材料进行大量重复标注,极大减轻了人工工作量,提高复用性。本发明专利技术作为一种基于二元关系的知识学习方法和系统可广泛应用于人工智能领域。

A knowledge learning method and system based on two element relationship

The present invention discloses a knowledge learning method and system based on the two element relationship. By analyzing the phrases and / or sentences in the database, the material database and / or sentences through the Natural Language Processing method, the word tree is obtained; the tagging information of the word node in the word tree of the training data and the tagging information of the two element word relation are obtained. The word tree and the corresponding annotation information are stored as template library, and a template library is built based on a small amount of training data based on the two element relationship. Learning skills are obtained from the template library by machine learning, and the learning skills are applied to the material data of the learning. The template is added to the template library, and the template library can be expanded at any time, so it does not need to repeat the same or similar learning materials in large numbers, greatly alleviating the manual workload and improving the reusability. The invention is a knowledge learning method and system based on two element relationship and can be widely applied to the field of artificial intelligence.

【技术实现步骤摘要】
一种基于二元关系的知识学习方法和系统
本专利技术涉及人工智能领域,尤其是一种基于二元关系的知识学习方法和系统。
技术介绍
人工智能的一个领域是让机器直接学习人学习的材料,即用自然语言表达的材料,并用学到的知识指导其进行工作。学习的其中一种做法是对大量的材料进行标注,让机器从标注中学习这些材料的格式,从而机器可以从相同或者相似格式的其他材料中学到知识。上述做法的局限性在于,需要对大量的材料进行标注,所以一般只能针对特定领域,例如在某论文中,为了实现机器医疗辅助诊断,需要对几千乃至上万份病例进行标注,这样机器才能看懂相似格式的病例,从中学到知识,而如果换了另一种类型的材料,例如B超结果,或者换了一种全新格式,如另外一家医院的病例,又需要重新进行大量材料的标注,工作重复性高、效率低。
技术实现思路
为了解决上述技术问题,本专利技术的目的是:提供一种基于二元关系实现减少人工成本、提高复用性的知识学习方法。为了解决上述技术问题,本专利技术的另一目的是:提供一种基于二元关系实现减少人工成本、提高复用性的知识学习系统。本专利技术所采用的技术方案是:一种基于二元关系的知识学习方法,包括有以下步骤:A、将训练数据库中的短语和/或句子通过自然语言处理方法解析,得到训练数据的词树;B、获取训练数据的词树中词节点的标注信息,并根据词节点的标注信息对词树进行标注形成一元模板;C、获取训练数据的词树中二元词关系的标注信息,根据二元词关系的标注信息对一元模板进行标注形成模板并存储到模板库;D、将材料数据库中的短语和/或句子通过自然语言处理方法解析,得到材料数据的词树;E、采用机器学习处理模板库中的模板,得到基于模板的学习方法;F、对材料数据的词树逐个应用基于模板的学习方法,若应用成功,则将学习到的知识进行存储;若应用失败,则重新执行步骤B、C和E。进一步,所述自然语言处理方法包括有依存句法分析和/或语义依存分析。进一步,所述步骤E中采用机器学习处理的具体步骤为:将模板库中的模板输入人工神经网络进行训练,所述基于模板的学习方法以人工神经网络的形式存储。进一步,所述词节点的标注信息和二元词关系的标注信息包括有词树转化为知识的规则。进一步,所述词树转化为知识的规则包括有知识体系的定义。本专利技术所采用的技术方案是:一种基于二元关系的知识学习系统,包括有训练数据库,用于存储典型短语和句子;材料数据库,用于存储待学习的材料数据;模板库,用于存储用于知识学习的模板;知识库,用于存储学习到的知识;自然语言处理模块,用于将训练数据库和材料数据库中的短语或句子解析为词树;标注模块,用于获取词树中词节点的标注信息和二元词关系的标注信息;模板生成模块,用于根据标注模块获取的词节点的标注信息对词树进行标注形成一元模板,然后根据标注模块获取的二元词关系的标注信息对一元模板进行标注形成模板并存储至模板库;机器学习模块,用于处理模板库中的模板得到基于模板的学习方法,并对材料数据的词树逐个应用基于模板的学习方法,若符合则应用成功,将学习到的知识存储到知识库;若不符合则应用失败,则调用模板生成模块进行处理。进一步,所述自然语言处理模块包括有依存句法分析模块和/或语义依存分析模块。进一步,所述机器学习模块处理得到基于模板的学习方法的具体步骤为:将模板库中的模板输入人工神经网络进行训练,所述基于模板的学习方法以人工神经网络的形式存储。进一步,所述词节点的标注信息和二元词关系的标注信息包括有词树转化为知识的规则。进一步,所述词树转化为知识的规则包括有知识体系的定义。本专利技术的有益效果是:通过少量训练数据基于二元关系建立模板库,通过机器学习从模板库中得到学习技巧,并对待学习的材料数据应用学习技巧,应用成功则对学到的知识进行存储,否则得到新的模板并增加至模板库,随时可扩充模板库,因此不需要对相同的或类似的学习材料进行大量重复标注,极大减轻了人工工作量,提高复用性。附图说明图1为本专利技术方法的步骤流程图;图2为本专利技术一具体实施例中第一训练数据词树结构示意图;图3为本专利技术一具体实施例的第一模板结构示意图;图4为本专利技术一具体实施例的第二训练数据词树结构示意图;图5为本专利技术一具体实施例的第二模板结构示意图;图6为本专利技术一具体实施例的材料数据词树结构示意图;图7为本专利技术一具体实施例应用知识学习方法得到的词树结构示意图。具体实施方式下面结合附图对本专利技术的具体实施方式作进一步说明:参照图1,一种基于二元关系的知识学习方法,包括有以下步骤:A、将训练数据库中的短语和/或句子通过自然语言处理方法解析,得到训练数据的词树;训练数据库中通常为选取的一些有代表性的短语或句子。B、获取训练数据的词树中词节点的标注信息,并根据词节点的标注信息对词树进行标注形成一元模板;C、获取训练数据的词树中二元词关系的标注信息,根据二元词关系的标注信息对一元模板进行标注形成模板并存储到模板库;D、将材料数据库中的短语和/或句子通过自然语言处理方法解析,得到材料数据的词树;E、采用机器学习处理模板库中的模板,得到基于模板的学习方法;F、对材料数据的词树逐个应用基于模板的学习方法,若应用成功,则将学习到的知识进行存储;若应用失败,则重新执行步骤B、C和E。进一步作为优选的实施方式,所述自然语言处理方法包括有依存句法分析和/或语义依存分析。进一步作为优选的实施方式,所述步骤E中采用机器学习处理的具体步骤为:将模板库中的模板输入人工神经网络进行训练,所述基于模板的学习方法以人工神经网络的形式存储。进一步作为优选的实施方式,所述词节点的标注信息和二元词关系的标注信息包括有词树转化为知识的规则。进一步作为优选的实施方式,所述词树转化为知识的规则包括有知识体系的定义。作为本专利技术的一具体实施例,以句子“洋地黄用于治疗心力衰竭。”作为一个训练数据,采用依存句法分析之后得到词树如图2所示。然后可人工对词树中的词节点和二元关系进行标注,标注结果如图3所示,标注完成后的词树作为模板,其中标注信息包括有词树转化为知识的规则,例如“实体”标注表示该节点作为知识实体,“陈述”标注表示该节点作为知识陈述对象,“作用”和“症状”标注的类型均为属性,表示该节点是一个属性值,“无意义”表示该节点舍弃。上述“实体”、“陈述”、“作用”、“症状”、“无意义”即为知识体系的部分定义,对于不同的模板,还可采用其他相应的知识体系的定义,例如图5中的“并列”标注。上述图3中所有标注信息集合表示这个具体应该被学习为一个知识,这个知识相当于以下代码:同样地,以句子“你不能吃鸡肉和鸭肉”作为一个训练数据,采用依存句法分析之后得到词树如图4所示,然后可人工对词树中的词节点和二元关系进行标注,标注结果如图5所示。通过机器学习处理模板可以获得学习技巧,例如通过人工神经网络,把标注后的词树形成的模板输入人工神经网络进行训练,可一次性输入,也可以分开各个局部输入,例如图3中所示虚线框分开的两个局部。学习技巧以训练好的神经网络的方式记录和存储。得到上面的模板中的学习技巧之后,学习系统可以读懂“大豆,茄子,洋葱,胡萝卜等可以用于预防冠心病。”这句话的意思,首先将或句子通过依存句法分析之后得到词树,如图6所示,实线框中的词树结构与图2类似,即使句子的格式有所差异,只要经过自然语言处理的句法解析之后结本文档来自技高网...

【技术保护点】
1.一种基于二元关系的知识学习方法,其特征在于,包括有以下步骤:A、将训练数据库中的短语和/或句子通过自然语言处理方法解析,得到训练数据的词树;B、获取训练数据的词树中词节点的标注信息,并根据词节点的标注信息对词树进行标注形成一元模板;C、获取训练数据的词树中二元词关系的标注信息,根据二元词关系的标注信息对一元模板进行标注形成模板并存储到模板库;D、将材料数据库中的短语和/或句子通过自然语言处理方法解析,得到材料数据的词树;E、采用机器学习处理模板库中的模板,得到基于模板的学习方法;F、对材料数据的词树逐个应用基于模板的学习方法,若应用成功,则将学习到的知识进行存储;若应用失败,则重新执行步骤B、C和E。

【技术特征摘要】
1.一种基于二元关系的知识学习方法,其特征在于,包括有以下步骤:A、将训练数据库中的短语和/或句子通过自然语言处理方法解析,得到训练数据的词树;B、获取训练数据的词树中词节点的标注信息,并根据词节点的标注信息对词树进行标注形成一元模板;C、获取训练数据的词树中二元词关系的标注信息,根据二元词关系的标注信息对一元模板进行标注形成模板并存储到模板库;D、将材料数据库中的短语和/或句子通过自然语言处理方法解析,得到材料数据的词树;E、采用机器学习处理模板库中的模板,得到基于模板的学习方法;F、对材料数据的词树逐个应用基于模板的学习方法,若应用成功,则将学习到的知识进行存储;若应用失败,则重新执行步骤B、C和E。2.根据权利要求1所述的一种基于二元关系的知识学习方法,其特征在于:所述自然语言处理方法包括有依存句法分析和/或语义依存分析。3.根据权利要求1所述的一种基于二元关系的知识学习方法,其特征在于:所述步骤E中采用机器学习处理的具体步骤为:将模板库中的模板输入人工神经网络进行训练,所述基于模板的学习方法以人工神经网络的形式存储。4.根据权利要求1所述的一种基于二元关系的知识学习方法,其特征在于:所述词节点的标注信息和二元词关系的标注信息包括有词树转化为知识的规则。5.根据权利要求4所述的一种基于二元关系的知识学习方法,其特征在于:所述词树转化为知识的规则包括有知识体系的定义。6.一种基于二元关系的知识学习系统,其特征在于:包括...

【专利技术属性】
技术研发人员:黄劲林载辉
申请(专利权)人:盈盛资讯科技有限公司
类型:发明
国别省市:中国香港,81

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1