当前位置: 首页 > 专利查询>浙江大学专利>正文

基于文本大数据与卷积神经网络的期刊匹配推荐方法技术

技术编号:36966629 阅读:64 留言:0更新日期:2023-03-22 19:27
本发明专利技术公开了一种基于文本大数据与卷积神经网络的期刊匹配推荐方法,包括构建文献摘要库和进行相似度计算;相似度计算的步骤具体包括中文文本向量化,对输入的中文文本进行中文分词、词语编码、词语向量化,将其作为卷积神经网络的输入;搭建基于卷积神经网络的中文文本语义相似度计算模型WV

【技术实现步骤摘要】
基于文本大数据与卷积神经网络的期刊匹配推荐方法


[0001]本专利技术公开了一种基于文本大数据与卷积神经网络的期刊匹配推荐方法,涉及搜索推荐


技术介绍

[0002]论文投稿推荐系统根据用户提供论文部分信息(标题、摘要、关键词)提供合适的刊物选择。发表科研论文是学术工作者发表科研论文是学术工作者最关心的事情,找到合适的发表刊物是论文发表过程中极为重要的一步。向合适的刊物提交论文将提高论文的被录用可能性,反之,如果提交论文的主题不满足学术刊物的录用要求,论文作者不仅将面临被拒稿的风险,还会浪费宝贵的时间。
[0003]现有技术中,论文作者在投稿的时候为了确定哪些期刊合适自己的研究主题,需要一本本去翻阅期刊的文章,费时费力。
[0004]卷积神经网络(CNN)是一种在监督学习下的深度学习模型,善于挖掘数据的局部特征,目前已经在模式识别的各领域取得了很好的效果。深度学习模型的提出,在很大程度上解决了传统模型中丢失语义语法信息、人工提取特征工作量大等问题,现有文献中将深度学习应用到问句、短文本的相似度计算居多,而在答案选择中往往涉及到长文档的匹配计算问题。现有技术中缺少一种合适的中文文本语义相似度计算模型。

技术实现思路

[0005]本专利技术所要解决的技术问题是:针对现有技术的缺陷,提供一种基于文本大数据与卷积神经网络的期刊匹配推荐方法,构建文献摘要库并配合一种结合卷积神经网络模型,准确快捷的进行语义识别及相匹配的搜索推荐。
[0006]本专利技术为解决上述技术问题采用以下技术方案:
[0007]一种基于文本大数据与卷积神经网络的期刊匹配推荐方法,所述方法包括构建文献摘要库和进行相似度计算。
[0008]所述构建文献摘要库的方法包括:
[0009]101、在期刊发布论文标题和摘要的网站,均衡分配爬虫线程从给定的入口起在运行队列读取排列在队首的URL链接地址;
[0010]102、判断所述URL链接地址是否存在,是则停止爬取,否则,爬取所述URL链接地址放入完成队列;
[0011]103、对放入所述完成队列的所述URL链接地址对应的网页进行提取;
[0012]104、对所述提取的网页中的URL链接地址过滤,留取有效URL链接地址写入运行队列;
[0013]105、重复上述步骤101至104。
[0014]所述相似度计算的步骤具体包括:
[0015]1、中文文本向量化,对输入的中文文本进行中文分词、词语编码、词语向量化,将
其作为卷积神经网络的输入。
[0016]作为优选方案,所述中文分词的分词方法为概率语言分词法,其中的概率语言分词模型在大规模切分好的语料库上进行训练;所述词语编码是将中文分词后生成的词条列表转换为数字列表;所述词语向量化是是根据词语之间的关系,对文本进行数字表示的过程,计算2个词向量的关联度的方法是计算2个向量的点乘,如果2个向量点乘后结果为零,则这2个向量是垂直的,代表这2个向量没有关系;2个向量点乘的结果越大,则关联度越高。
[0017]更进一步的,所述词语向量化的具体方法为WV

词语向量化,包括:
[0018]1)对输入句子进行分词处理,去除停用词,提高命中率;
[0019]2)对分好的词进行编码,根据词编码,进一步生成每个句子的编号向量;
[0020]3)使用训练好的模型将步骤2)的矩阵进行向量化表示。
[0021]2、搭建基于卷积神经网络的中文文本语义相似度计算模型WV

CNN,设置卷积、Dropout、池化和Flatten4层,通过对参数进行选择和训练,得到优化的参数和结果。
[0022]作为优选方案,所述卷积层用以提取特征,分为3种卷积方式:宽卷积、窄卷积和不变卷积;所述池化层与卷积层相连,用以聚合信息、特征降维;所述Dropout层用以解决过拟合的问题,通过随机删除输入层的神经元来修改神经元连接;在通过卷积层与池化层提取特征之后,利用Flatten层将特征值平整化,将2个文本平整化之后的特征值与训练得到的权重矩阵相乘,即可计算出2个文本之间的语义相似度。
[0023]更进一步的,所述池化方式包括平均池化、最大值池化和概率池化,其中:平均池化使用池化窗口所有数字的平均值作为窗口的特征;最大值池化使用池化窗口中所有数字的最大值作为窗口的特征值;概率池化通过对像素点按照数值大小赋予概率,再按照概率进行亚采样。
[0024]3、输出中文文本语义相似度的结果。
[0025]针对文献摘要库的构建,本专利技术的优选方案还包括:
[0026]所述爬虫线程从运行队列爬取排列在队首的URL时,采取广度优先法进行爬取,即先从所述URL的起始网页开始,抓取所述起始网页中所有链接的网页,然后从抓取的所述所有链接的网页中再选择一个网页,抓取所述选择的网页中的所有链接页面,直至所述所有链接的网页中所有网页中的所有链接页面全部抓取完毕。
[0027]所述爬取URL链接地址的具体步骤包括:
[0028]爬虫线程开启后,首先由中心爬虫将待爬取的起始页URL链接地址读取到爬虫缓存,然后根据爬取优先顺序对放入到所述爬虫缓存中所述起始页URL链接地址中的内容进行抓取、解析、抽取所述内容中的详细URL链接地址放入URL存储容器中,最后将抽取到的详细URL链接地址进行再次爬取。
[0029]所述对抽取到的详细URL链接地址进行抽取的步骤包括:
[0030]A、从所述URL存储容器中读取待爬取的详细URL链接地址,并对所述详细URL链接地址进行正确性校验,将校验正确的待爬取详细URL链接地址放入爬虫缓存中;
[0031]B、从互联网中爬取指定详细URL链接地址,将爬取到的网页信息内容进行相应解码、解压缩;
[0032]C、解析爬取到的所述网页信息,抽取出网页中的URL链接地址,并对所述网页中的URL链接地址进行校验、去重操作;
[0033]然后重复以上步骤A

C。
[0034]在进一步的优选方案中,所述爬虫线程从给定的入口起在运行队列读取排列在队首的URL链接地址的步骤之前,还包括以下步骤:
[0035]在接收任务请求后,把任务拆分成任务分片,每个任务分片包含一个网站,每个任务分片均衡分配给多个爬虫并行执行;
[0036]在爬虫线程执行任务过程中,为每个爬虫线程的处理进度保存状态,每取一批网页都要记录本线程最大的网页ID,记录到数据库里,进程重启后读取ID,恢复爬虫系统的爬取环境,接着抓后面的页面;
[0037]采用Hash算法均衡分配爬虫线程的任务,即每一个URL经过Hash函数计算得哈希值,不同的哈希值对应不同的爬虫,将一个URL交给Hash函数计算出的对应爬虫进行处理。
[0038]本专利技术采用以上技术方案与现有技术相比,具有以下技术效果:本专利技术所公开的方法,将近年来的国内相关期刊进行收集,整理和分析,在不影响全分类本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于文本大数据与卷积神经网络的期刊匹配推荐方法,其特征在于:所述方法包括构建文献摘要库和进行相似度计算,其中,所述相似度计算的步骤具体包括:1、中文文本向量化,对输入的中文文本进行中文分词、词语编码、词语向量化,将其作为卷积神经网络的输入;2、搭建基于卷积神经网络的中文文本语义相似度计算模型WV

CNN,设置卷积、Dropout、池化和Flatten4层,通过对参数进行选择和训练,得到优化的参数和结果;3、输出中文文本语义相似度的结果。2.如权利要求1所述的一种基于文本大数据与卷积神经网络的期刊匹配推荐方法,其特征在于:所述构建文献摘要库的方法包括:101、在期刊发布论文标题和摘要的网站,均衡分配爬虫线程从给定的入口起在运行队列读取排列在队首的URL链接地址;102、判断所述URL链接地址是否存在,是则停止爬取,否则,爬取所述URL链接地址放入完成队列;103、对放入所述完成队列的所述URL链接地址对应的网页进行提取;104、对所述提取的网页中的URL链接地址过滤,留取有效URL链接地址写入运行队列;105、重复上述步骤101至104。3.如权利要求1所述的一种基于文本大数据与卷积神经网络的期刊匹配推荐方法,其特征在于:步骤1中,所述中文分词的分词方法为概率语言分词法,其中的概率语言分词模型在大规模切分好的语料库上进行训练;所述词语编码是将中文分词后生成的词条列表转换为数字列表;所述词语向量化是是根据词语之间的关系,对文本进行数字表示的过程,计算2个词向量的关联度的方法是计算2个向量的点乘,如果2个向量点乘后结果为零,则这2个向量是垂直的,代表这2个向量没有关系;2个向量点乘的结果越大,则关联度越高。4.如权利要求1或3所述的一种基于文本大数据与卷积神经网络的期刊匹配推荐方法,其特征在于,所述词语向量化的具体方法为WV

词语向量化,包括:1)对输入句子进行分词处理,去除停用词,提高命中率;2)对分好的词进行编码,根据词编码,进一步生成每个句子的编号向量;3)使用训练好的模型将步骤2)的矩阵进行向量化表示。5.如权利要求1所述的一种基于文本大数据与卷积神经网络的期刊匹配推荐方法,其特征在于,步骤2中:所述卷积层用以提取特征,分为3种卷积方式:宽卷积、窄卷积和不变卷积;所述池化层与卷积层相连,用以聚合信息、特征降维;所述Dropout层用以解决过拟合的问题,通过随机删除输入层的神经元来修改神经元连接;在通过卷积层与池化层提取特征之后,利用Flatten层将特征值平整化,将2个文本平整化之后的特征值与训练得到的权重矩阵相乘,即可计算出2个文本之间的语义相似度。6.如权利...

【专利技术属性】
技术研发人员:卢圣华汪晖博卢杰博
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1