学者的主页和所用语言的预测方法和系统技术方案

技术编号:31088031 阅读:14 留言:0更新日期:2021-12-01 12:46
本申请提出一种学者的主页和所用语言的预测方法,涉及信息处理技术领域,该方法包括获取与学者相关的多个网页并提取每个网页的特征,生成与多个网页对应的网页特征向量矩阵;通过预设的第一训练模型学习每个网页中的文本的语义特征向量,生成与多个网页对应的语义特征向量矩阵;结合网页特征向量矩阵和语义特征向量矩阵预测学者的主页;设计学者所用语言的问句,并基于预测的学者的主页的文本,通过预设的第二训练模型获取问句的应答。该方法利用互联网搜索引擎的检索能力,对检索到网页的文本语义信息进行训练,提高了学者主页和语言的预测效果。言的预测效果。言的预测效果。

【技术实现步骤摘要】
学者的主页和所用语言的预测方法和系统


[0001]本申请涉及信息处理
,尤其涉及一种学者的主页和所用语言的预测方法和系统。

技术介绍

[0002]目前,全球学者的评价和挖掘依托于对学者画像的全面描绘,通过学者多维度画像的构建,能够从多维度刻画学者的基本信息、行为轨迹、研究兴趣及服务需求等,再利用综合信息进行深度挖掘,收集有价值的情报信息,建立高精度的编委动态画像档案,并可按照以上维度建立综合评价模型,为专家学术成就评价、精准的学者定位和学者人才引进提供客观的依据和辅助决策的支撑。其中,对学者画像的构建和管理,首先是需要获取学者的精准、细致的基本信息。
[0003]并且,活跃学者其研究成果通常公开,个人或机构会维护和更新学者最新信息。通常学者主页可能涵盖单位、职称、职位、工作经历、教育背景、个人介绍等基础信息,为后续多维度学者画像提供信息支撑。同时综合学者主页中的工作经历、教育背景、个人介绍等信息可针对学者常用语言进行预测。
[0004]相关技术中,常规主页预测借助于特征工程,针对姓名和机构在网页中出现情况或域名进行预测。但该种预测方式预测出的学者主页的准确性较低。因此,目前亟需一种可以提高学者的主页和所用语言的预测的准确性和效率的方案。

技术实现思路

[0005]本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
[0006]为此,本申请的第一个目的在于提出一种学者的主页和所用语言的预测方法,该方法先借助搜素引擎资源对学者相关信息进行检索,从海量互联网中筛选出与学者相关的网页;其次通过特征提取器设计网页特征,对网页有效信息进行刻画;然后借助语义分类器学习网页文本中所含语义信息,通过第一训练模型学习网页文本描述内容的语义向量,结合网页特征向量对网页是否为学者主页进行分类预测;最后通过学者语言智能问答模块,针对学者所掌握语言设计问句,利用微调后的第二训练模型,基于预测主页的文本对问句进行回答,实现对学者所掌握语言的预测。该方法充分利用互联网搜索引擎的检索能力,以及检索到网页的文本语义信息对学者的主页和所用语言进行预测,提高了学者的主页和所用语言的预测效果。
[0007]本申请的第二个目的在于提出一种学者的主页和所用语言的预测系统。
[0008]本申请的第三个目的在于提出一种非临时性计算机可读存储介质。
[0009]为达上述目的,本申请的第一方面实施例提出了一种学者的主页和所用语言的预测方法,包括以下步骤:
[0010]获取与学者相关的多个网页并提取每个所述网页的特征,生成与所述多个网页对应的网页特征向量矩阵;
[0011]通过预设的第一训练模型学习每个所述网页中的文本的语义特征向量,生成与所述多个网页对应的语义特征向量矩阵;
[0012]结合所述网页特征向量矩阵和所述语义特征向量矩阵预测所述学者的主页;
[0013]设计所述学者所用语言的问句,并基于预测的所述学者的主页的文本,通过预设的第二训练模型获取所述问句的应答。
[0014]可选地,在本申请的一个实施例中,所述的预测方法中,所述获取与学者相关的多个网页并提取每个所述网页的特征,包括:
[0015]通过搜索引擎对所述学者的姓名和所在机构进行联合检索,以获取所述多个网页;
[0016]获取每个所述网页的地址、标题和摘要;
[0017]根据每个所述网页的地址进行访问,并获取每个所述网页中的文本;
[0018]基于获取的所述每个所述网页的标题、摘要和文本,通过特征提取器提取每个所述网页的特征。
[0019]可选地,在本申请的一个实施例中,所述网页的特征,包括但不限于:网页标题长度、网页摘要长度、所含积极词汇个数、所含消极词汇个数、学者姓名是否在网页地址中、机构名是否在网页地址中、学者姓名是否在标题中、机构名是否在标题中、学者姓名是否在摘要中、机构名是否在摘要中、学者姓名是否在网页文本中、机构名是否在网页文本中。
[0020]可选地,在本申请的一个实施例中,所述通过预设的第一训练模型学习每个所述网页中的文本的语义特征向量,生成与所述多个网页对应的语义特征向量矩阵,包括:拆分每个所述网页的文本;对拆分后的每个所述网页的文本进行预处理,所述预处理包括编码和随机屏蔽;将预处理后的文本输入所述预设的第一训练模型,获得与每个所述网页对应的向量序列,其中,所述向量序列中的每个向量的维度相同;通过长短期记忆人工神经网络LSTM将每个所述网页对应的向量序列转换为维度相同的第一向量,并组合每个所述网页对应的第一向量,以生成所述语义特征向量矩阵。
[0021]可选地,在本申请的一个实施例中,结合所述网页特征向量矩阵和所述语义特征向量矩阵预测所述学者的主页,包括:将所述网页特征向量矩阵与所述语义特征向量矩阵进行拼接,获得所述多个网页的最终向量;通过全连接层对所述最终向量进行分类预测并将所述最终向量转换为二维向量;通过激活函数对所述二维向量进行处理,获得个所述网页的分类得分,并根据每个所述网页的分类得分从所述多个网页中确定所述学者的主页。
[0022]可选地,在本申请的一个实施例中,所述基于预测的所述学者的主页的文本,通过预设的第二训练模型获取所述问句的应答,包括:对所述预设的第二训练模型进行微调;将确定的所述学者的主页的文本与所述学者所用语言的问句进行拼接,并将拼接后的语句输入至微调后的第二训练模型;通过所述微调后的第二训练模型根据所述拼接后的语句,返回第二训练模型的词汇表内每个词汇的得分,将得分最高的词汇作为所述学者所用语言的预测结果。
[0023]可选地,在本申请的一个实施例中,对所述预设的第二训练模型进行微调,包括:
[0024]S1:针对学者的姓名、所在机构和所用语言生成问句模板;
[0025]S2:获取训练集,根据训练集中的学者的信息补充所述问句模板,并将与训练集中的学者对应的文本和补充后的问句模板进行拼接;
[0026]S3:读取所述第二训练模型的词汇表,通过所述词汇表对拼接后的问句模板进行编码处理,并将生成的编码列表输入所述第二训练模型中;
[0027]S4:通过所述第二训练模型生成所述词汇表内每个词汇的得分,并根据每个词汇的得分与实际结果计算交叉熵损失;
[0028]S5:根据所述交叉熵损失对所述第二训练模型的参数进行调节,重复步骤S2至S4,直至所述第二训练模型收敛。
[0029]为达上述目的,本申请的第二方面实施例提出了本申请基于一种学者的主页和所用语言的预测系统,包括以下模块:
[0030]网页特征生成模块,用于获取与学者相关的多个网页并提取每个所述网页的特征,生成与所述多个网页对应的网页特征向量矩阵;
[0031]语义特征生成模块,用于通过预设的第一训练模型学习每个所述网页中的文本的语义特征向量,生成与所述多个网页对应的语义特征向量矩阵;
[0032]主页预测模块,用于结合所述网页特征向量矩阵和所述语义特征向量矩阵预测所述学者的主页;
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种学者的主页和所用语言的预测方法,其特征在于,包括以下步骤:获取与学者相关的多个网页并提取每个所述网页的特征,生成与所述多个网页对应的网页特征向量矩阵;通过预设的第一训练模型学习每个所述网页中的文本的语义特征向量,生成与所述多个网页对应的语义特征向量矩阵;结合所述网页特征向量矩阵和所述语义特征向量矩阵预测所述学者的主页;设计所述学者所用语言的问句,并基于预测的所述学者的主页的文本,通过预设的第二训练模型获取所述问句的应答。2.根据权利要求1所述的预测方法,其特征在于,所述获取与学者相关的多个网页并提取每个所述网页的特征,包括:通过搜索引擎对所述学者的姓名和所在机构进行联合检索,以获取所述多个网页;获取每个所述网页的地址、标题和摘要;根据每个所述网页的地址进行访问,并获取每个所述网页中的文本;基于获取的所述每个所述网页的标题、摘要和文本,通过特征提取器提取每个所述网页的特征。3.根据权利要求2所述的预测方法,其特征在于,所述网页的特征,包括但不限于:网页标题长度、网页摘要长度、所含积极词汇个数、所含消极词汇个数、学者姓名是否在网页地址中、机构名是否在网页地址中、学者姓名是否在标题中、机构名是否在标题中、学者姓名是否在摘要中、机构名是否在摘要中、学者姓名是否在网页文本中、机构名是否在网页文本中。4.根据权利要求1所述的预测方法,其特征在于,所述通过预设的第一训练模型学习每个所述网页中的文本的语义特征向量,生成与所述多个网页对应的语义特征向量矩阵,包括:拆分每个所述网页的文本;对拆分后的每个所述网页的文本进行预处理,所述预处理包括编码和随机屏蔽;将预处理后的文本输入所述预设的第一训练模型,获得与每个所述网页对应的向量序列,其中,所述向量序列中的每个向量的维度相同;通过长短期记忆人工神经网络LSTM将每个所述网页对应的向量序列转换为维度相同的第一向量,并组合每个所述网页对应的第一向量,以生成所述语义特征向量矩阵。5.根据权利要求1或4所述的预测方法,其特征在于,所述结合所述网页特征向量矩阵和所述语义特征向量矩阵预测所述学者的主页,包括:将所述网页特征向量矩阵与所述语义特征向量矩阵进行拼接,获得所述多个网页的最终向量;通过全连接层对所述最终向量进行分类预测并将所述最终向量转换为二维向量;通过激活函数对所述二维向量进行处理,获得每个所述网页的分类得分,并根据每个所述网页的分类得分从所述多个网页中确定所述学者的主页。6.根...

【专利技术属性】
技术研发人员:陈嘉琳王路路刘佳张鹏
申请(专利权)人:北京智谱华章科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1