【技术实现步骤摘要】
一种基于文本卷积和相似度算法的图审专家组合推荐方法
本专利技术属于知识图谱和深度学习
,特别涉及一种基于文本卷积和相似度算法的图审专家组合推荐方法。
技术介绍
传统机器学习推荐算法在对图审专家做推荐时未能考虑到用户对所需要专家的具体需求。在基于知识图谱的基础上,通过TextRank算法对用户图审项目中存在的具体问题进行专业分类。然后,通过多种相似度算法比较得到相似的历史项目,抽取参与项目专家通过频繁项集算法进行组合推荐。冯万利,朱全银等人已有的研究基础包括:WanliFeng.Researchofthemestatementextractionforchineseliteraturebasedonlexicalchain.InternationalJournalofMultimediaandUbiquitousEngineering,Vol.11,No.6(2016),pp.379-388;WanliFeng,YingLi,ShangbingGao,YunyangYan,JianxunXue.Anovelfla ...
【技术保护点】
1.一种基于文本卷积和相似度算法的图审专家组合推荐方法,其特征在于,具体步骤如下:/n(1)设建筑图纸审查问题数据集为Data,对问题数据进行去重和专业分类数据预处理后得到处理后的审查问题集ProblemData,处理后的问题标签数据集为LabelData;/n(2)对审查问题集ProblemData运用TextRank算法进行关键词抽取得到审查关键词问题集ImpProblemData,对应的问题标签数据集为ImpLabelData;/n(3)搭建文本卷积神经网络用以训练网络进行问题所属专业分类分类;/n(4)设用户问题为Problem,用户传入的项目属性集合为Projec ...
【技术特征摘要】
1.一种基于文本卷积和相似度算法的图审专家组合推荐方法,其特征在于,具体步骤如下:
(1)设建筑图纸审查问题数据集为Data,对问题数据进行去重和专业分类数据预处理后得到处理后的审查问题集ProblemData,处理后的问题标签数据集为LabelData;
(2)对审查问题集ProblemData运用TextRank算法进行关键词抽取得到审查关键词问题集ImpProblemData,对应的问题标签数据集为ImpLabelData;
(3)搭建文本卷积神经网络用以训练网络进行问题所属专业分类分类;
(4)设用户问题为Problem,用户传入的项目属性集合为ProjectProperties传入文本卷积分类神经网络后得到问题所属专业Profession,通过相似度算法比较用户传入的项目属性集合与原始项目属性集合OralProperties的相似度;
(5)设通过上一步比较后得到的相似度集合为Similarities,排序取相似的项目得到相似项目集合SimiProjects,利用Eclat频繁项集抽取算法寻找频繁出现的专家并比较其专业与Profession是否一致;
(6)开放图审专家推荐知识图谱使用接口根据用户输入的专业问题及项目属性推荐适合的专家集合Experts并通过Web返回给用户。
2.根据权利要求1所述的一种基于文本卷积和相似度算法的图审专家组合推荐方法,其特征在于,所述步骤(1)中得到处理后的问题标签数据集LabelData的具体步骤如下:
(1.1)设建筑图纸审查问题数据集为Data={data1,data2,…,dataN},其中N为建筑图纸审查问题数据集大小;
(1.2)声明哈希表ProblemHashMap用于对问题数据进行去重;
(1.3)定义循环变量i1遍历数据集Data,i1赋初值0,对哈希表ProblemHashMap赋初值为空;
(1.4)如果i1<len(Data),则进入步骤(1.6),否则进入步骤(1.9),其中,len()是返回数据集长度值的函数;
(1.5)对i1执行加1操作;
(1.6)设当前遍历到的问题数据为datai1Oral,去除datai1Oral中含有的标点符号如“,”,”。”,“!”等得到数据datai1Sign;
(1.7)对数据datai1Sign,根据停用词表去除无实际意义的停用词得到数据ProblemDatai1;
(1.8)将ProblemDatai1与问题对应的专业LabelDatai1组合存入哈希表ProbelmHashMap,哈希表会对原先存在的相同数据进行覆盖处理;
(1.9)取出ProblemHashMap中存储的数据取得审查问题集ProblemData,问题标签数据集LabelData。
3.根据权利要求1所述的一种基于文本卷积和相似度算法的图审专家组合推荐方法,其特征在于,所述步骤(2)中得到审查关键词问题集ImpProblemData和对应的问题标签数据集ImpLabelData的具体步骤如下:
(2.1)定义循环变量i2遍历ProblemData,i2赋初值0;
(2.2)如果i2<size(Problem),则进入步骤(2.3),否则进入步骤(2.12),其中,size()是返回数据集大小的函数;
(2.3)运用jieba分词算法将遍历到的ProblemDatai2进行分词和词性标注处理,得到分词后的词数据集VacList{vac1,vac2,…,vacVn},其中Vn为词数量;
(2.4)定义TextRank窗口范围为4,定义tempHashMap用以存储边集,定义循环变量i3遍历词数据集VacList,i3赋初值0;
(2.5)如果i3<len(VacList),则进入步骤(2.6),否则进入步骤(2.11),其中,len()是返回数据集长度值的函数;
(2.6)定义循环变量i4遍历当前词vaci3及之后的词语,i4赋初值0;
(2.7)如果i4<4,则进入步骤(2.8),否则进入步骤(2.10),其中,len()是返回数据集长度值的函数;
(2.8)将当前词语vaci3及vaci4组成集合{vaci3,vaci4}存储tempHashMap,若先前存在此集合则将存储值加一;
(2.9)对i4执行加1操作;
(2.10)对i3执行加1操作;
(2.11)对i2执行加1操作;
(2.12)根据tempHashMap中每一个集合的存储值进行排序,取出对应原数据集ProblemData中每一句存储值最大的三个关键词vac1,vac2,vac3;
(2.13)将上一步取得的关键词组成集合{vac1,vac2,vac3}加入到集合ImpProblemData中,将该句对应的标签加入到集合ImpLabelData中。
4.根据权利要求1所述的一种基于文本卷积和相似度算法的图审专家组合推荐方法,其特征在于,所述步骤(3)中搭建文本卷积神经网络用以训练网络进行问题所属专业分类分类的具体步骤如下:
(3.1)根据训练需要将关键词问题数据集ImpProblemData划分,分别定义训练集比例为TrainRate、验证集比例为ValidRate和测试集比例为TestRate;
(3.2)定义按照TrainRate:ValidRate:TestRate=8:1:1的比例划分已标注的关键词问题数据集ImpProblemData为训练数据集ImpPro_Train、测试数据集ImpPro_Test和验证数据集ImpPro_Valid;
(3.3)设定网络层数net_layers、每层单元数batch_size、训练轮次epoch、最大训练次数MaxTime、训练优化器optimizer和每次训练的数据长度data_length用以网格搜索最优化参数,定义循环变量TrainFlag判断训练轮次;
(3.4)若TrainFlag≤MaxTime,则进入步骤(3.18),否则进入步骤(3.5);
(3.5)定义ImpDataNum为关键词问题数据集ImpProblemData中数据的个数,
对关键词问题数据进行Embedding;
(3.6)定义循环变量i5用以遍历ImpProblemData,i5赋初值为0;
(3.7)如果i5<ImpDataNum,则进入步骤(3.8),否则进入步骤(3.10),其中,len()是返回数据集长度值的函数;
(3.8)建立word2vec词典,给予每个字id,并通过当前句子所有字的id平均值将句子转换成词向量。定义每条数据的最大序列长度为MaxLength;
(3.9)对i5执行加1操作;
(3.10)将训练集ImpPro_Train的数据特征输入预测网络,定义变量MinLoss用于保存模型参数的最低loss值,定义计数器flags,令flags初始值为1;每经过一个epoch利用验证集ImpPro_Valid进行参数调整,更新最低loss值;
(3.11)如果flags≤epoch,则进入步骤(3.12),否则进入步骤(3.17);
(3.12)如果loss≥MinLoss,则进入步骤(3.13),否则进入步骤(3.15);
(3.13)利用梯度下降法将误差反向传播回网络,对预测网络的参数net_lay...
【专利技术属性】
技术研发人员:冯万利,倪金霆,朱全银,王胜标,孙强,万瑾,朱亚飞,季睿,
申请(专利权)人:淮阴工学院,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。