当前位置: 首页 > 专利查询>淮阴工学院专利>正文

一种基于表示学习的隐藏关联挖掘方法技术

技术编号:26762649 阅读:39 留言:0更新日期:2020-12-18 23:14
发明专利技术公开了一种基于表示学习的隐藏关联挖掘方法,包括:爬取高校教师数据构建知识库;通过DEEPWALK算法向量化实体,进行PCA主成分分析将实体向量降维至2维,通过距离度量算法计算实体间相似度;用改进的NODE2VEC算法向量化实体,通过PCA降维后计算相似度,取降维前形成的推荐列表和降维后形成的推荐列表的交集推送用户;通过逆向最大匹配算法切分用户输入语料,与系统自定义字典匹配,构造Cypher查询语句,将查询实体数据返还WEB应用程序。利用关联挖掘系统实现教师实体间关系维度扩展。用户输入关键字查询语句并调用接口获取教师实体数据集。通过ECharts渲染教师实体属性数据和实体间关系数据,实现教师实体可视化。

【技术实现步骤摘要】
一种基于表示学习的隐藏关联挖掘方法
本专利技术属于知识图谱和表示学习
,特别涉及一种基于表示学习的隐藏关联挖掘方法。
技术介绍
传统推荐算法无法解决实体间关系发散问题,基于图的遍历算法依旧无法解决实体间隐藏关系挖掘的技术难题。在基于知识图谱的基础上,通过表示学习向量化实体数据,进行PCA主成分分析后通过多种度量算法组合进行相似度计算。然后,通过改进的NODE2VEC算法再次投射实体向量进行数据匹配。通过逆向最大匹配算法切分用户输入语料,构造Cypher查询实体信息。基于知识库和向量化数据进行实体关系发散,实行隐藏关系挖掘以及个性化推荐。冯万利,朱全银等人已有的研究基础包括:WanliFeng.Researchofthemestatementextractionforchineseliteraturebasedonlexicalchain.InternationalJournalofMultimediaandUbiquitousEngineering,Vol.11,No.6(2016),pp.379-388;WanliFeng,Yi本文档来自技高网...

【技术保护点】
1.一种基于表示学习的隐藏关联挖掘方法,其特征在于,具体步骤如下:/n(1)抽取教师基本信息如姓名,所在院校,研究方向等,构建高校教师领域知识图谱G;/n(2)通过DEEPWALK算法向量化实体组合PCA降维并进行多距离度量计算实体相似度并获得关系扩展列表RES_DW_ONE,RES_DW_SEC;/n(3)通过改进的NODE2VEC向量化实体组合PCA降维并进行多距离度量计算实体相似度并获得关系扩展列表RES_NODE_ONE,RES_NODE_SEC;/n(4)将用户语料切分与系统自定义字典进行匹配,构建Cypher多条件查询语句,将实体查询结果RESULT封装回传至WEB应用程序;/n(...

【技术特征摘要】
1.一种基于表示学习的隐藏关联挖掘方法,其特征在于,具体步骤如下:
(1)抽取教师基本信息如姓名,所在院校,研究方向等,构建高校教师领域知识图谱G;
(2)通过DEEPWALK算法向量化实体组合PCA降维并进行多距离度量计算实体相似度并获得关系扩展列表RES_DW_ONE,RES_DW_SEC;
(3)通过改进的NODE2VEC向量化实体组合PCA降维并进行多距离度量计算实体相似度并获得关系扩展列表RES_NODE_ONE,RES_NODE_SEC;
(4)将用户语料切分与系统自定义字典进行匹配,构建Cypher多条件查询语句,将实体查询结果RESULT封装回传至WEB应用程序;
(5)通过用户查询实体集合与知识库中实体集合进行相似度度量,实现实体间关系维度扩展,获得实体集合DATA;
(6)定义SIM_COUNT为系统封装实体数据集中相似度大于0.9的教师实体个数,RESULT_COUNT为系统封装实体数据集中教师实体总数,系统自定义参数SIM_COUNT/RESULT_COUNT作为距离度量算法寻优过程中的权衡因子;
(7)开放Neo4j图数据库接口API和关联挖掘系统接口API,获取用户输入的关键字查询语句,抽取其中教师姓名参数,构造Cypher查询语句获取知识库中教师实体数据,将检索得到的教师实体ID作为参数传参至关联挖掘系统提供的API进行实体间关系扩展,得到系统封装的实体数据集,WEB应用程序通过ECharts渲染教师实体属性数据和实体间关系数据实现高校教师可视化。


2.根据权利要求1所述的一种基于表示学习的隐藏关联挖掘方法,其特征在于,所述步骤(1)中构建高校教师领域知识图谱G的具体步骤如下:
(1.1)抽取教师实体编号集合ID={id1,id2,…,idA}作为教师实体索引;
(1.2)抽取教师实体间关系集合REID={reid1,reid2,…,reidA};
(1.3)定义循环变量i1遍历ID和REID,i1赋初值0,定义G为知识图谱,其中,G赋初值为空;
(1.4)如果i1<len(ID),则进入步骤(1.6),否则进入步骤(1.7),其中,len()是返回数据集长度值的函数;
(1.5)对i1执行加1操作;
(1.6)通过教师实体和教师研究方向实体间关系属性构造知识图谱G={REID,ID};
(1.7)获取高校教师知识图谱G;
(1.8)构建基于教师实体姓名的Cypher查询语句,将检索出的实体数据和实体间关系数据封装数据对象,提供相关查询接口API;
(1.9)构建基于实体间关系属性的Cypher查询语句,将检索出的教师实体数据和实体间关系数据封装数据对象,提供相关查询接口API;
(1.10)开放Neo4j相关查询端口,通过用户输入Input构建查询语句,检索实体信息和关系信息,封装数据对象,提供相关查询接口API。


3.根据权利要求1所述的一种基于表示学习的隐藏关联挖掘方法,其特征在于,所述步骤(2)中获得关系扩展列表RES_DW_ONE,RES_DW_SEC的具体步骤如下:
(2.1)定义循环变量i2遍历ID,REID和G,i2赋初值0;
(2.2)如果i2<size(G),则进入步骤(2.4),否则进入步骤(2.5),其中,size()是返回知识图谱大小值的函数;
(2.3)对i2执行加1操作;
(2.4)运用deepwalk算法将G投射到64维空间,获取实体向量集合V_64;
(2.5)得到实体向量集合VEC={V1,V2,…,Va},其中,Vc属于集合中第c个实体向量;
(2.6)定义循环变量i3遍历实体向量集合VEC,i3赋初值0;
(2.7)如果i3<len(VEC),则进入步骤(2.9),否则进入步骤(2.10),其中,len()是返回数据集长度值的函数;
(2.8)对i3执行加1操作;
(2.9)通过PCA主成分分析,提取对实体向量影响最大的二维向量数据;
(2.10)得到实体向量集合VEC_PCA={V1,V2,…,Va},其中,Vc属于集合中第c个实体向量;
(2.11)通过切比雪夫距离公式计算实体间相似度,定义与匹配实体相似度最大的TopN个实体列表集合RES_DW_ONE;
(2.12)运用deepwalk算法将G投射到128维空间,获取实体向量集合V_128;
(2.13)得到实体向量集合VEC_SEC={V1,V2,…,Va},其中,Vc属于集合中第c个实体向量;
(2.14)定义循环变量j1遍历VEC_SEC;
(2.15)如果j1<len(VEC_SEC),则进入步骤(2.17),否则进入步骤(2.18),其中,len()是返回数据集长度值的函数;
(2.16)对j1执行加1操作;
(2.17)通过PCA主成分分析,提取对实体向量影响最大的三维向量数据;
(2.18)得到实体向量集合VEC_PCA_SEC={V1,V2,…,Va},其中,Vc属于集合中第c个实体向量;
(2.19)通过皮尔逊相似度度量计算实体间相似度,定义与匹配实体相似度最大的TopN个实体列表集合RES_DW_SEC。


4.根据权利要求1所述的一种基于表示学习的隐藏关联挖掘方法,其特征在于,所述步骤(3)中获得关系扩展列表RES_NODE_ONE,RES_NODE_SEC的具体步骤如下:
(3.1)定义循环变量i4遍历ID,REID和G,i4赋初值0;
(3.2)如果i4<size(G),则进入步骤(3.4),否则进入步骤(3.5),其中,size()是返回知识图谱大小值的函数;
(3.3)对i4执行加1操作;
(3.4)运用node2vec算法将G投射到64维空间,获取实体向量集合V_NODE_64;
(3.5)得到实体向量集合VEC_NODE={V1,V2,…,Va},其中,Vc属于集合中第c个实体向量;
(3.6)定义循环变量i5遍历VEC_NODE;
(3.7)如果i5<len(VEC_NODE),则进入步骤(3.9),否则进入步骤(3.10),其中,len()是返回数据集长度值的函数;
(3.8)对i5执行加1操作;
(3.9)通过PCA主成分分析,提取对实体向量影响最大的二维向量数据;
(3.10)得到实体向量集合VEC_NODE_PCA={V1,V2,…,Va},其中,Vc属于集合中第c个实体向量;
(3.11)通过曼哈顿距离度量公式计算实体间相似度,...

【专利技术属性】
技术研发人员:朱全银季睿李翔周泓丁苏仁陈凌云倪金霆陈小艺万瑾孙强朱亚飞
申请(专利权)人:淮阴工学院
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1