领域本体生成方法、装置、设备及介质制造方法及图纸

技术编号:21892194 阅读:13 留言:0更新日期:2019-08-17 14:37
本发明专利技术公开了一种领域本体生成方法、装置、计算机设备及存储介质,该方法包括:获取领域信息,采用自然语言处理算法准确地提取领域关键字,根据动词领域关键字与名词领域关键字之间的搭配关系,获取名词领域关键字对应的目标物体的物体类型,在预设的词向量数据库中,获取名词领域关键字对应的属于物体类型下的目标词向量,因此可以根据不同的语境精准地确定出关键字的准确含义,获取到词向量,提高了获取词向量的准确性,采用预设的层次聚类算法生成领域词向量对应的层次聚类树作为领域本体,相似类别或相同类别的词向量得到了聚类,方便查询领域词向量,采用了计算机自动化处理机制,避免了人为主观因素的干扰,提高了领域本体的生成效率。

Domain Ontology Generation Method, Device, Equipment and Media

【技术实现步骤摘要】
领域本体生成方法、装置、设备及介质
本专利技术涉及数据处理领域,尤其涉及一种领域本体生成方法、装置、计算机设备及存储介质。背景
本体,是指某个领域之中概念词及其相互之间关系的形式化表达的集合体。因为领域本体是用于构建很多应用系统的基础,随着应用系统的构建需求不断增大,领域本体的生成也越来越重要,尤其是,对于用户画像领域而言,领域本体是构建用户画像的重要基础。在传统方法中,通常在专业的领域专家团队及数据系统经过复杂的分析之后,才能创建领域本体,因此创建领域本体的过程耗时久及成本高,导致领域本体的生成效率低下,其中,词向量是用于生成领域本体的重要元素,但是在现有技术中,往往不能为一个词准确地获取对应的词向量,从而导致词向量的获取准确率低下,进而导致采用词向量来构建的领域本体的生成准确率低下。因此,寻找一种高效和准确的领域本体生成方法成为本领域技术人员亟需解决的问题。
技术实现思路
本专利技术实施例提供一种领域本体生成方法、装置、计算机设备及存储介质,以解决由于创建领域本体耗时久及成本高而导致领域本体的生成效率低下的问题,及由于词向量的获取准确率低而导致的领域本体的生成准确率低下的问题。一种领域本体生成方法,包括:在预设的信息数据库中,获取预设的领域对应的领域信息;采用预设的自然语言处理算法,对所述领域信息进行提取处理,得到领域关键字,其中,所述领域关键字包括动词领域关键字和名词领域关键字;根据所述动词领域关键字与所述名词领域关键字之间的预设的动宾搭配关系,确定出所述名词领域关键字对应的目标物体的物体类型;根据所述名词领域关键字和所述物体类型,在预设的词向量数据库中,获取所述名词领域关键字对应的属于所述物体类型下的目标词向量,并将所述目标词向量确定为领域词向量;采用预设的层次聚类算法生成所述领域词向量对应的层次聚类树,并将所述层级聚类树确定为所述预设的领域的领域本体。一种领域本体生成装置,包括:信息获取模块,用于在预设的信息数据库中,获取预设的领域对应的领域信息;关键字提取模块,用于采用预设的自然语言处理算法,对所述领域信息进行提取处理,得到领域关键字,其中,所述领域关键字包括动词领域关键字和名词领域关键字;类型确定模块,用户根据所述动词领域关键字与所述名词领域关键字之间的预设的动宾搭配关系,确定出所述名词领域关键字对应的目标物体的物体类型;词向量获取模块,用于根据所述名词领域关键字和所述物体类型,在预设的词向量数据库中,获取所述名词领域关键字对应的属于所述物体类型下的目标词向量,并将所述目标词向量确定为领域词向量;层次聚类树生成模块,用于采用预设的层次聚类算法生成所述领域词向量对应的层次聚类树,并将所述层级聚类树确定为所述预设的领域的领域本体。一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述领域本体生成方法的步骤。一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述领域本体生成方法的步骤。上述领域本体生成方法、装置、计算机设备及存储介质中,服务端首先在预设的信息数据库中,自动地获取领域信息,然后采用自然语言处理算法准确地提取领域关键字,从而确保了领域关键字的准确性,同时根据动词领域关键字与名词领域关键字之间的搭配关系,快速地获取名词领域关键字对应的目标物体的物体类型,从而可以根据名词领域关键字和物体类型,在预设的词向量数据库中,快速地获取名词领域关键字对应的属于物体类型下的目标词向量,因此可以根据不同的语境精准地确定出关键字的准确含义,并在确保名词领域关键字准确性的前提下,准确地获取到词向量,提高了获取词向量的准确性,在确保词向量的准确性的前提下,采用预设的层次聚类算法生成法人领域词向量对应的领域本体的准确性也得到了保证,因此提高了领域本体的生成准确性,同时因为相似类别或相同类别的词向量得到了聚类,从而可以方便查询领域词向量,得到方便查询的领域本体,以及采用了计算机高效的自动化处理机制,避免了人为主观因素的干扰,降低了人力成本,因此提高了领域本体的生成效率和准确性。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一实施例中领域本体生成方法的一应用环境示意图;图2是本专利技术一实施例中领域本体生成方法的一流程图;图3是本专利技术一实施例中领域本体生成方法中步骤S50的一流程图;图4是本专利技术一实施例中领域本体生成方法中步骤S20的一流程图;图5是本专利技术一实施例中领域本体生成方法中步骤S203的一流程图;图6是本专利技术一实施例中领域本体生成装置的一示意图;图7是本专利技术一实施例中计算机设备的一示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本申请提供的领域本体生成方法,可应用如图1的应用环境中,该应用环境包括服务端和客户端,其中,客户端通过有线网络或无线网络与服务端进行通信。其中,客户端可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务端或者是多个服务端组成的服务端集群来实现。服务端用于获取领域信息和分析该领域信息,以及根据该领域信息生成领域本体。在一实施例中,如图2所示,提供一种领域本体生成方法,以该方法应用在图1中的服务端为例进行说明,包括如下步骤:S10、在预设的信息数据库中,获取预设的领域对应的领域信息。具体地,服务端预先设置信息数据库和领域,在设置好的信息数据库中,获取设置好的领域对应的领域信息的存储路径,然后根据该存储路径提取该领域信息。其中,领域是指专门活动或事业的范围、部类或部门,比如该领域可以为艺术领域等。领域信息为在该领域范围内的信息,比如该领域信息可以为音乐家的个人信息或一首音乐的属性信息等。信息数据库可以为SQL数据库或oracle数据库等。为了更好地理解步骤S10,下面通过一个例子进行说明,具体表述如下:例如,假设信息数据库为MySQL数据库,领域为音乐领域,音乐领域对应的领域信息为“这次的演出,我弹钢琴,张三是和弦大地管弦乐团演奏交响乐的拉手”,“这次的演出,我弹钢琴,张三是和弦大地管弦乐团演奏交响乐的拉手”的存储路径为“C:\ProgramFiles\MySQL\MySQLServer5.0\data\”,首先在MySQL数据库中获取“C:\ProgramFiles\MySQL\MySQLServer5.0\data\”,然后根据“C:\ProgramFiles\MySQL\MySQLServer5.0\data\”提取“这次的演出,我弹钢琴,张三是和弦大地管弦乐团演奏交响乐的拉手”。S20、采用预设的自然语言处理算法,对领域信息进行提取处理,得到领域关键字,其中,领域本文档来自技高网...

【技术保护点】
1.一种领域本体生成方法,其特征在于,所述领域本体生成方法包括:在预设的信息数据库中,获取预设的领域对应的领域信息;采用预设的自然语言处理算法,对所述领域信息进行提取处理,得到领域关键字,其中,所述领域关键字包括动词领域关键字和名词领域关键字;根据所述动词领域关键字与所述名词领域关键字之间的预设的动宾搭配关系,确定出所述名词领域关键字对应的目标物体的物体类型;根据所述名词领域关键字和所述物体类型,在预设的词向量数据库中,获取所述名词领域关键字对应的属于所述物体类型下的目标词向量,并将所述目标词向量确定为领域词向量;采用预设的层次聚类算法生成所述领域词向量对应的层次聚类树,并将所述层级聚类树确定为所述预设的领域的领域本体。

【技术特征摘要】
1.一种领域本体生成方法,其特征在于,所述领域本体生成方法包括:在预设的信息数据库中,获取预设的领域对应的领域信息;采用预设的自然语言处理算法,对所述领域信息进行提取处理,得到领域关键字,其中,所述领域关键字包括动词领域关键字和名词领域关键字;根据所述动词领域关键字与所述名词领域关键字之间的预设的动宾搭配关系,确定出所述名词领域关键字对应的目标物体的物体类型;根据所述名词领域关键字和所述物体类型,在预设的词向量数据库中,获取所述名词领域关键字对应的属于所述物体类型下的目标词向量,并将所述目标词向量确定为领域词向量;采用预设的层次聚类算法生成所述领域词向量对应的层次聚类树,并将所述层级聚类树确定为所述预设的领域的领域本体。2.如权利要求1所述的领域本体生成方法,其特征在于,所述采用预设的层次聚类算法生成所述领域词向量对应的层次聚类树包括:生成每个所述领域词向量对应的子节点,得到包含N个子节点的节点集合,其中,N为正整数;采用预设的相似度算法,计算所述节点集合中每两个所述子节点之间的节点相似度;根据所述节点相似度筛选出所述节点集合中最相似的两个子节点,并为筛选出的最相似的两个子节点生成对应的父节点;将筛选出的值最大的所述节点相似度对应的两个所述子节点从所述节点集合中删除,将所述父节点作为新的子节点加入所述节点集合中,并返回所述采用预设的相似度算法,计算每两个所述子节点之间的节点相似度的步骤继续执行,直到所述节点集合中的节点数量为1;按照二叉树的形式,采用预设的连接线将所述子节点与对应的所述父节点之间进行连接处理,得到所述领域词向量对应的所述层次聚类树。3.如权利要求2所述的领域本体生成方法,其特征在于,所述采用预设的相似度算法,计算所述节点集合中每两个所述子节点之间的节点相似度包括:将所述节点集合中每两个所述子节点输入至如下欧氏距离计算公式中,得到所述节点相似度:其中,D为所述节点集合中每两个所述子节点之间的所述节点相似度,m为每个所述子节点对应的所述领域词向量的分量的数量,xi为每两个所述子节点中的一个所述子结点对应的所述领域词向量的第i个分量,yi为每两个所述子节点中的另一个所述子结点对应的所述领域词向量的第i个分量。4.如权利要求1至3中任一项所述的领域本体生成方法,其特征在于,所述采用预设的自然语言处理算法,对所述领域信息进行提取处理,得到领域关键字包括:采用预设的分词工具对所述领域信息进行分词处理,得到每个子领域信息;采用预设的停用词去除工具对每个所述子领域信息进行去除停用词处理,得到去除停用词后的每个所述子领域信息;采用TF-IDF算法,计算去除停用词后的每个所述子领域信息对应的重要值,其中,所述重要值为去除后的每个所述子领域信息在所述领域信息中的重要程度对应的值;判断每个所述重要值是否大于或等于预设的阈值;当所述重要值大于或等于所述预设的阈值时,确定大于或等于所述预设的阈值的所述重要值对应的所述子领域信息为所述领域关键字。5.如权利要求4所述的领域本体生成方法,其特征在于,所述采用TF-IDF算法,计算去除停用词后的每个所述子领域信息对应的重要值包括:在预...

【专利技术属性】
技术研发人员:邓悦金戈徐亮
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1