当前位置: 首页 > 专利查询>淮阴工学院专利>正文

一种基于深度学习的领域专家分类推荐方法技术

技术编号:38521737 阅读:27 留言:0更新日期:2023-08-19 17:00
本发明专利技术公开了一种基于深度学习的领域专家分类推荐方法,包括数据采集模块,主题抽取模块,领域专家分类模块,推荐模块;数据采集模块包括收集领域专家个人信息数据样本并清洗、相关词向量、制作领域专家库;主题抽取模块通过将专家库中领域专家数据通过主题抽取模块并构建专家词汇表;领域专家分类模块通过特征提取模块进行辅助得到专家分类。推荐模块根据需求与领域专家类别进行相似度计算,并为各个需求组挑选合适的领域专家。本发明专利技术结合主题模型与文本分类,分类模型可与其他推荐算法相结合使用,有效的提高了推荐的精确度,可以提供更加准确的推荐结果。更加准确的推荐结果。更加准确的推荐结果。

【技术实现步骤摘要】
一种基于深度学习的领域专家分类推荐方法


[0001]本公施例涉及计算
,尤其涉及一种基于深度学习的领域专家分类推荐方法。

技术介绍

[0002]主题模型(Topic Model)是一种基于概率统计方法进行文本数据分析的技术。它将文本数据看做是由多个主题(Topic)组合而成的,每个主题又由多个单词组成。在主题模型中,每个文本数据都可以表示成多个主题的组合,每个主题则由一些单词的概率分布组成。主题模型的基本思想是,通过对文本数据进行建模,将文本数据表示成主题和单词的概率分布。在模型训练过程中,通过对模型参数的学习,可以得到每个文本数据对不同主题的分布以及每个主题的单词分布。主题模型的优点在于它不依赖于人工设定的关键词列表,而是从数据自身中进行主题的挖掘,因此更加客观、灵活和适用于各种类型的文本数据。
[0003]文本规模的迅速增长,对文本处理工作提出了较高的要求。与传统的数据相比,网络中的文本数据具有许多新的特点,如数据量大、高度重复、高度冗余等。完全依靠人工处理这些信息的代价过大。文本分类是文本处理一项最为基础的任务,使用计算机快本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的领域专家分类推荐方法,其特征在于,包括:步骤1:爬取技术专家文本数据样本并清洗,制作专家库,制作相关词向量,按照比例并划分出训练集、验证集和测试集;步骤2:使用步骤1中的词向量对样本标签和文本进行字编码,使用主题关键词抽取模块构建专家词汇表;步骤3:将步骤1中处理过的数据集输入到主题抽取模块中,结合步骤2中的专家词汇表进行辅助分类;步骤4:迭代训练计算交叉熵损失,通过Adam优化器反向传播更新参数,每次更新参数后计算验证集上损失函数的值;步骤5:训练模型,调整模型学习率、隐藏层个数使F1最优,步骤A:按步骤1获得样本文本,步骤B:按步骤3,获得步骤A样本文本的领域专家类别,步骤C:根据步骤B中的专家研究类别,从步骤1中构建的专家库,推荐相关研究领域专家;步骤6:对于专家需求,先使用分类模型对文档进行分类,得到该领域类别后再与专家库中领域专家进行相似度计算得到最后推荐结果。2.如权利要求1所述的基于深度学习的领域专家分类推荐方法,其特征在于,步骤1.1:所有样本使用斯坦福GloVe词向量开源代码制作词向量,添加所需要特殊字符,如“#PAD#”、“#UNK#”来辅助分类,根据自己的需要加入“#PAD#”、“#UNK#”、“#CLS#”、“#SEP#”、“#MASK#”、“#NUM#”;步骤1.2:每一条数据的格式为[标签,内容],可视化输出各条样本的长度进行获取模型处理的最大句长,按照6:2:2的比例划分训练集、测试集、验证集;步骤1.3:制作专家数据库。3.如权利要求2所述的基于深度学习的领域专家分类推荐方法,其特征在于,步骤2.1:使用步骤1.1中的词向量对所有样本进行字编码,然后进入步骤2.2;步骤2.2:使用步骤2.1中编码后的样本,计算句子中每个词汇的自注意力系数,然后进入步骤2.3;步骤2.3:使用步骤2.1中编码后的样本,针对每一条样本进行词频统计过滤噪声词汇,计算每词汇的语义相似度,然后进入步骤2.4;步骤2.4:根据步骤2.2中得到的词汇自注意力系数和步骤2.3中词汇语义相似度,进行主题词抽取,得到每条样本的主题词,并根据相应标签构建标签的特征词词条,然后进入步骤2.5;步骤2.5:根据步骤2.4中所述的方法,对于已知标签的样本进行训练,构建特征词词汇表。4.如权利要求3所述的基于深度学习的领域专家分类推荐方法,其特征在于,步骤2.2.1:首先将文本的词向量经过线性变换得到Q、K、V三个矩阵,将Q与K矩阵相乘计算得到相关矩阵A,其中Q、步骤2.2.2:将相关性矩阵A经过Softmax归一化处理得到A

,将A

与V相乘,得到最终的权重矩阵Y,
5.如权利要求4所述的基于深度学习的领域专家分类推荐方法,其特征在于,在步骤2.3中:χ
i
=TF

IDF*λ
i,j
χ
j
=TF

IDF*λ
i,j
n
i,j
表示该词在文档中出现的次数,n
k,j
表示文档中所有字词出现的总和,|D|表示语料库中的文本总数,包含该词语t
i
的文本数目,在抽取词对时加入词汇信息作为先验知识。6.如权利要求5所述的基于深度学习的领域专家分类推荐方法,其特征在于,步骤2.4中:步骤2.4.1:在BTM模型中计算的过程;步骤2.4.2:模型的输入为:超参数α和β、词对集合B、主题数K;步骤2.4.3:模型的输出:文档

主题分布θ、主题词

词汇分布步骤2.4.4:BTM模型的文档生产过程如下:步骤2.4.5:对于整个语料库,利用狄利克雷分布生成主题分布步骤2.4.6:对于每个主题,利用狄利克雷分布生成主题
‑...

【专利技术属性】
技术研发人员:王云鹏冯万利刘小贝苏睿朱全银赵保中
申请(专利权)人:淮阴工学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1