基于文本大数据与卷积神经网络的期刊匹配推荐方法技术

技术编号：36966629 阅读：64 留言：0更新日期：2023-03-22 19:27

本发明专利技术公开了一种基于文本大数据与卷积神经网络的期刊匹配推荐方法，包括构建文献摘要库和进行相似度计算；相似度计算的步骤具体包括中文文本向量化，对输入的中文文本进行中文分词、词语编码、词语向量化，将其作为卷积神经网络的输入；搭建基于卷积神经网络的中文文本语义相似度计算模型WV

全部详细技术资料下载

【技术实现步骤摘要】
基于文本大数据与卷积神经网络的期刊匹配推荐方法

[0001]本专利技术公开了一种基于文本大数据与卷积神经网络的期刊匹配推荐方法，涉及搜索推荐

技术介绍

[0002]论文投稿推荐系统根据用户提供论文部分信息(标题、摘要、关键词)提供合适的刊物选择。发表科研论文是学术工作者发表科研论文是学术工作者最关心的事情，找到合适的发表刊物是论文发表过程中极为重要的一步。向合适的刊物提交论文将提高论文的被录用可能性，反之，如果提交论文的主题不满足学术刊物的录用要求，论文作者不仅将面临被拒稿的风险，还会浪费宝贵的时间。
[0003]现有技术中，论文作者在投稿的时候为了确定哪些期刊合适自己的研究主题，需要一本本去翻阅期刊的文章，费时费力。
[0004]卷积神经网络(CNN)是一种在监督学习下的深度学习模型,善于挖掘数据的局部特征,目前已经在模式识别的各领域取得了很好的效果。深度学习模型的提出,在很大程度上解决了传统模型中丢失语义语法信息、人工提取特征工作量大等问题,现有文献中将深度学习应用到问句、短文本的相似度计算居多,而在答案选择中往往涉及到长文档的匹配计算问题。现有技术中缺少一种合适的中文文本语义相似度计算模型。

技术实现思路

[0005]本专利技术所要解决的技术问题是：针对现有技术的缺陷，提供一种基于文本大数据与卷积神经网络的期刊匹配推荐方法，构建文献摘要库并配合一种结合卷积神经网络模型，准确快捷的进行语义识别及相匹配的搜索推荐。
[0006]本专利技术为解决上述技术问题采用以下技...

【技术保护点】

【技术特征摘要】
1.一种基于文本大数据与卷积神经网络的期刊匹配推荐方法，其特征在于：所述方法包括构建文献摘要库和进行相似度计算，其中，所述相似度计算的步骤具体包括：1、中文文本向量化，对输入的中文文本进行中文分词、词语编码、词语向量化，将其作为卷积神经网络的输入；2、搭建基于卷积神经网络的中文文本语义相似度计算模型WV
‑
CNN，设置卷积、Dropout、池化和Flatten4层,通过对参数进行选择和训练,得到优化的参数和结果；3、输出中文文本语义相似度的结果。2.如权利要求1所述的一种基于文本大数据与卷积神经网络的期刊匹配推荐方法，其特征在于：所述构建文献摘要库的方法包括：101、在期刊发布论文标题和摘要的网站，均衡分配爬虫线程从给定的入口起在运行队列读取排列在队首的URL链接地址；102、判断所述URL链接地址是否存在，是则停止爬取，否则，爬取所述URL链接地址放入完成队列；103、对放入所述完成队列的所述URL链接地址对应的网页进行提取；104、对所述提取的网页中的URL链接地址过滤，留取有效URL链接地址写入运行队列；105、重复上述步骤101至104。3.如权利要求1所述的一种基于文本大数据与卷积神经网络的期刊匹配推荐方法，其特征在于：步骤1中，所述中文分词的分词方法为概率语言分词法，其中的概率语言分词模型在大规模切分好的语料库上进行训练；所述词语编码是将中文分词后生成的词条列表转换为数字列表；所述词语向量化是是根据词语之间的关系,对文本进行数字表示的过程，计算2个词向量的关联度的方法是计算2个向量的点乘，如果2个向量点乘后结果为零,则这2个向量是垂直的,代表这2个向量没有关系；2个向量点乘的结果越大,则关联度越高。4.如权利要求1或3所述的一种基于文本大数据与卷积神经网络的期刊匹配推荐方法，其特征在于，所述词语向量化的具体方法为WV
‑
词语向量化，包括：1)对输入句子进行分词处理,去除停用词，提高命中率；2)对分好的词进行编码,根据词编码,进一步生成每个句子的编号向量；3)使用训练好的模型将步骤2)的矩阵进行向量化表示。5.如权利要求1所述的一种基于文本大数据与卷积神经网络的期刊匹配推荐方法，其特征在于，步骤2中：所述卷积层用以提取特征,分为3种卷积方式：宽卷积、窄卷积和不变卷积；所述池化层与卷积层相连,用以聚合信息、特征降维；所述Dropout层用以解决过拟合的问题,通过随机删除输入层的神经元来修改神经元连接；在通过卷积层与池化层提取特征之后,利用Flatten层将特征值平整化,将2个文本平整化之后的特征值与训练得到的权重矩阵相乘,即可计算出2个文本之间的语义相似度。6.如权利...

【专利技术属性】
技术研发人员：卢圣华，汪晖博，卢杰博，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人