学者的主页和所用语言的预测方法和系统技术方案

技术编号:31088031 阅读:29 留言:0更新日期:2021-12-01 12:46
本申请提出一种学者的主页和所用语言的预测方法,涉及信息处理技术领域,该方法包括获取与学者相关的多个网页并提取每个网页的特征,生成与多个网页对应的网页特征向量矩阵;通过预设的第一训练模型学习每个网页中的文本的语义特征向量,生成与多个网页对应的语义特征向量矩阵;结合网页特征向量矩阵和语义特征向量矩阵预测学者的主页;设计学者所用语言的问句,并基于预测的学者的主页的文本,通过预设的第二训练模型获取问句的应答。该方法利用互联网搜索引擎的检索能力,对检索到网页的文本语义信息进行训练,提高了学者主页和语言的预测效果。言的预测效果。言的预测效果。

【技术实现步骤摘要】
学者的主页和所用语言的预测方法和系统


[0001]本申请涉及信息处理
,尤其涉及一种学者的主页和所用语言的预测方法和系统。

技术介绍

[0002]目前,全球学者的评价和挖掘依托于对学者画像的全面描绘,通过学者多维度画像的构建,能够从多维度刻画学者的基本信息、行为轨迹、研究兴趣及服务需求等,再利用综合信息进行深度挖掘,收集有价值的情报信息,建立高精度的编委动态画像档案,并可按照以上维度建立综合评价模型,为专家学术成就评价、精准的学者定位和学者人才引进提供客观的依据和辅助决策的支撑。其中,对学者画像的构建和管理,首先是需要获取学者的精准、细致的基本信息。
[0003]并且,活跃学者其研究成果通常公开,个人或机构会维护和更新学者最新信息。通常学者主页可能涵盖单位、职称、职位、工作经历、教育背景、个人介绍等基础信息,为后续多维度学者画像提供信息支撑。同时综合学者主页中的工作经历、教育背景、个人介绍等信息可针对学者常用语言进行预测。
[0004]相关技术中,常规主页预测借助于特征工程,针对姓名和机构在网页中出现情况或域名进行预测。但本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种学者的主页和所用语言的预测方法,其特征在于,包括以下步骤:获取与学者相关的多个网页并提取每个所述网页的特征,生成与所述多个网页对应的网页特征向量矩阵;通过预设的第一训练模型学习每个所述网页中的文本的语义特征向量,生成与所述多个网页对应的语义特征向量矩阵;结合所述网页特征向量矩阵和所述语义特征向量矩阵预测所述学者的主页;设计所述学者所用语言的问句,并基于预测的所述学者的主页的文本,通过预设的第二训练模型获取所述问句的应答。2.根据权利要求1所述的预测方法,其特征在于,所述获取与学者相关的多个网页并提取每个所述网页的特征,包括:通过搜索引擎对所述学者的姓名和所在机构进行联合检索,以获取所述多个网页;获取每个所述网页的地址、标题和摘要;根据每个所述网页的地址进行访问,并获取每个所述网页中的文本;基于获取的所述每个所述网页的标题、摘要和文本,通过特征提取器提取每个所述网页的特征。3.根据权利要求2所述的预测方法,其特征在于,所述网页的特征,包括但不限于:网页标题长度、网页摘要长度、所含积极词汇个数、所含消极词汇个数、学者姓名是否在网页地址中、机构名是否在网页地址中、学者姓名是否在标题中、机构名是否在标题中、学者姓名是否在摘要中、机构名是否在摘要中、学者姓名是否在网页文本中、机构名是否在网页文本中。4.根据权利要求1所述的预测方法,其特征在于,所述通过预设的第一训练模型学习每个所述网页中的文本的语义特征向量,生成与所述多个网页对应的语义特征向量矩阵,包括:拆分每个所述网页的文本;对拆分后的每个所述网页的文本进行预处理,所述预处理包括编码和随机屏蔽;将预处理后的文本输入所述预设的第一训练模型,获得与每个所述网页对应的向量序列,其中,所述向量序列中的每个向量的维度相同;通过长短期记忆人工神经网络LSTM将每个所述网页对应的向量序列转换为维度相同的第一向量,并组合每个所述网页对应的第一向量,以生成所述语义特征向量矩阵。5.根据权利要求1或4所述的预测方法,其特征在于,所述结合所述网页特征向量矩阵和所述语义特征向量矩阵预测所述学者的主页,包括:将所述网页特征向量矩阵与所述语义特征向量矩阵进行拼接,获得所述多个网页的最终向量;通过全连接层对所述最终向量进行分类预测并将所述最终向量转换为二维向量;通过激活函数对所述二维向量进行处理,获得每个所述网页的分类得分,并根据每个所述网页的分类得分从所述多个网页中确定所述学者的主页。6.根...

【专利技术属性】
技术研发人员:陈嘉琳王路路刘佳张鹏
申请(专利权)人:北京智谱华章科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1