文章作者身份识别及评估模型训练方法、装置及存储介质制造方法及图纸

技术编号:21714510 阅读:57 留言:0更新日期:2019-07-27 19:14
本发明专利技术公开了文章作者身份识别及评估模型训练方法、装置及存储介质,其中文章作者身份识别方法可包括:获取待识别的第一文章的词向量表示,并输入预先训练得到的评估模型,得到输出的第一文章的特征向量,所述特征为能够用于区分不同作者特点的特征;针对已知作者的第二文章,获取第二文章的词向量表示,并输入预先训练得到的评估模型,得到输出的第二文章的特征向量;通过比较第一文章的特征向量以及第二文章的特征向量确定出第一文章与第二文章是否属于同一作者。本发明专利技术所述方案具有很强的可扩展性,并可相应的提高识别效率等。

Author Identity Recognition and Assessment Model Training Method, Device and Storage Media

【技术实现步骤摘要】
文章作者身份识别及评估模型训练方法、装置及存储介质
本专利技术涉及计算机应用技术,特别涉及文章作者身份识别及评估模型训练方法、装置及存储介质。
技术介绍
在考古、国防、舆情分析等各种领域,经常需要确定匿名作者的真实身份,即需要进行文章作者身份识别。目前,通常采用如下识别方式:针对文章提取信息熵、词频、语言模型(n-gram)等信息,然后使用支持向量机等机器学习分类模型进行分类,但这种方式的可扩展性很差,作者身份识别时只能匹配模型训练时已有的作者,如果要新增作者,则需要重新训练。
技术实现思路
有鉴于此,本专利技术提供了文章作者身份识别及评估模型训练方法、装置及存储介质。具体技术方案如下:一种文章作者身份识别方法,包括:获取待识别的第一文章的词向量表示,并输入预先训练得到的评估模型,得到输出的所述第一文章的特征向量,所述特征为能够用于区分不同作者特点的特征;针对已知作者的第二文章,获取所述第二文章的词向量表示,并输入预先训练得到的评估模型,得到输出的所述第二文章的特征向量;通过比较所述第一文章的特征向量以及所述第二文章的特征向量确定出所述第一文章与所述第二文章是否属于同一作者。根据本专利技术一优选实施例,针对任一文章,获取所述文章的词向量表示的方式包括:对所述文章进行切词处理;按照保留前L个切词结果的方式,对所述文章进行截断,L为大于一的正整数;分别获取每个切词结果的n维词向量表示,n为大于一的正整数;利用L个切词结果的词向量表示组成一个L行n列的词向量表示,将所述L行n列的词向量表示作为所述文章的词向量表示。根据本专利技术一优选实施例,所述评估模型包括:基于卷积的深度学习模型;所述基于卷积的深度学习模型使用误差函数TripletLoss作为损失函数。根据本专利技术一优选实施例,所述通过比较所述第一文章的特征向量以及所述第二文章的特征向量确定出所述第一文章与所述第二文章是否属于同一作者包括:确定所述第一文章的特征向量与所述第二文章的特征向量之间的差别;若所述差别小于预定阈值,则确定所述第一文章与所述第二文章属于同一作者,否则,确定所述第一文章与所述第二文章不属于同一作者。一种评估模型训练方法,包括:获取作为训练样本的各已知作者的文章,将属于同一作者的文章归为一类;分别获取各文章的词向量表示;根据各文章的词向量表示以及所属分类训练出评估模型,以便在进行文章作者身份识别时,利用所述评估模型分别评估出输入的第一文章的词向量表示对应的特征向量以及第二文章的词向量表示对应的特征向量,通过比较两个特征向量确定出所述第一文章与所述第二文章是否属于同一作者,所述特征为能够用于区分不同作者特点的特征。根据本专利技术一优选实施例,针对任一文章,获取所述文章的词向量表示的方式包括:对所述文章进行切词处理;按照保留前L个切词结果的方式,对所述文章进行截断,L为大于一的正整数;分别获取每个切词结果的n维词向量表示,n为大于一的正整数;利用L个切词结果的词向量表示组成一个L行n列的词向量表示,将所述L行n列的词向量表示作为所述文章的词向量表示。根据本专利技术一优选实施例,所述评估模型包括:基于卷积的深度学习模型;所述基于卷积的深度学习模型使用误差函数TripletLoss作为损失函数。根据本专利技术一优选实施例,所述根据各文章的词向量表示以及所属分类训练出评估模型包括:每次训练时,输入三篇文章的词向量表示,其中两篇文章属于同一分类,分别对应于所述TripletLoss的锚示例和正示例,另外一篇文章属于另一分类,对应于所述TripletLoss的负示例。一种文章作者身份识别装置,包括:第一获取单元以及身份识别单元;所述第一获取单元,用于获取待识别的第一文章的词向量表示,并输入预先训练得到的评估模型,得到输出的所述第一文章的特征向量,所述特征为能够用于区分不同作者特点的特征;针对已知作者的第二文章,获取所述第二文章的词向量表示,并输入预先训练得到的评估模型,得到输出的所述第二文章的特征向量;所述身份识别单元,用于通过比较所述第一文章的特征向量以及所述第二文章的特征向量确定出所述第一文章与所述第二文章是否属于同一作者。根据本专利技术一优选实施例,针对任一文章,所述第一获取单元按照以下方式获取所述文章的词向量表示:对所述文章进行切词处理;按照保留前L个切词结果的方式,对所述文章进行截断,L为大于一的正整数;分别获取每个切词结果的n维词向量表示,n为大于一的正整数;利用L个切词结果的词向量表示组成一个L行n列的词向量表示,将所述L行n列的词向量表示作为所述文章的词向量表示。根据本专利技术一优选实施例,所述评估模型包括:基于卷积的深度学习模型;所述基于卷积的深度学习模型使用误差函数TripletLoss作为损失函数。根据本专利技术一优选实施例,所述身份识别单元确定所述第一文章的特征向量与所述第二文章的特征向量之间的差别,若所述差别小于预定阈值,则确定所述第一文章与所述第二文章属于同一作者,否则,确定所述第一文章与所述第二文章不属于同一作者。一种评估模型训练装置,包括:第二获取单元以及模型训练单元;所述第二获取单元,用于获取作为训练样本的各已知作者的文章,并将属于同一作者的文章归为一类;分别获取各文章的词向量表示;所述模型训练单元,用于根据各文章的词向量表示以及所属分类训练出评估模型,以便在进行文章作者身份识别时,利用所述评估模型分别评估出输入的第一文章的词向量表示对应的特征向量以及第二文章的词向量表示对应的特征向量,通过比较两个特征向量确定出所述第一文章与所述第二文章是否属于同一作者,所述特征为能够用于区分不同作者特点的特征。根据本专利技术一优选实施例,针对任一文章,所述第二获取单元按照以下方式获取所述文章的词向量表示:对所述文章进行切词处理;按照保留前L个切词结果的方式,对所述文章进行截断,L为大于一的正整数;分别获取每个切词结果的n维词向量表示,n为大于一的正整数;利用L个切词结果的词向量表示组成一个L行n列的词向量表示,将所述L行n列的词向量表示作为所述文章的词向量表示。根据本专利技术一优选实施例,所述评估模型包括:基于卷积的深度学习模型;所述基于卷积的深度学习模型使用误差函数TripletLoss作为损失函数。根据本专利技术一优选实施例,所述模型训练单元在每次训练时,输入三篇文章的词向量表示,其中两篇文章属于同一分类,分别对应于所述TripletLoss的锚示例和正示例,另外一篇文章属于另一分类,对应于所述TripletLoss的负示例。一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如以上所述的方法。一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如以上所述的方法。基于上述介绍可以看出,采用本专利技术所述方案,针对待识别的第一文章以及已知作者的第二文章,可分别获取其词向量表示,并可分别将两篇文章的词向量表示输入评估模型,从而分别得到两篇文章的特征向量,进而可通过比较两篇文章的特征向量确定出两篇文章是否属于同一作者,相比于现有方式,本专利技术所述方案对于新增作者同样适用,无需重新进行模型训练等,具有很强的可扩展性,并相应的提高了识别效率等。【附图说明】图1为本专利技术所述评估模型训练方法本文档来自技高网...

【技术保护点】
1.一种文章作者身份识别方法,其特征在于,包括:获取待识别的第一文章的词向量表示,并输入预先训练得到的评估模型,得到输出的所述第一文章的特征向量,所述特征为能够用于区分不同作者特点的特征;针对已知作者的第二文章,获取所述第二文章的词向量表示,并输入预先训练得到的评估模型,得到输出的所述第二文章的特征向量;通过比较所述第一文章的特征向量以及所述第二文章的特征向量确定出所述第一文章与所述第二文章是否属于同一作者。

【技术特征摘要】
1.一种文章作者身份识别方法,其特征在于,包括:获取待识别的第一文章的词向量表示,并输入预先训练得到的评估模型,得到输出的所述第一文章的特征向量,所述特征为能够用于区分不同作者特点的特征;针对已知作者的第二文章,获取所述第二文章的词向量表示,并输入预先训练得到的评估模型,得到输出的所述第二文章的特征向量;通过比较所述第一文章的特征向量以及所述第二文章的特征向量确定出所述第一文章与所述第二文章是否属于同一作者。2.根据权利要求1所述的方法,其特征在于,针对任一文章,获取所述文章的词向量表示的方式包括:对所述文章进行切词处理;按照保留前L个切词结果的方式,对所述文章进行截断,L为大于一的正整数;分别获取每个切词结果的n维词向量表示,n为大于一的正整数;利用L个切词结果的词向量表示组成一个L行n列的词向量表示,将所述L行n列的词向量表示作为所述文章的词向量表示。3.根据权利要求1所述的方法,其特征在于,所述评估模型包括:基于卷积的深度学习模型;所述基于卷积的深度学习模型使用误差函数TripletLoss作为损失函数。4.根据权利要求1所述的方法,其特征在于,所述通过比较所述第一文章的特征向量以及所述第二文章的特征向量确定出所述第一文章与所述第二文章是否属于同一作者包括:确定所述第一文章的特征向量与所述第二文章的特征向量之间的差别;若所述差别小于预定阈值,则确定所述第一文章与所述第二文章属于同一作者,否则,确定所述第一文章与所述第二文章不属于同一作者。5.一种评估模型训练方法,其特征在于,包括:获取作为训练样本的各已知作者的文章,将属于同一作者的文章归为一类;分别获取各文章的词向量表示;根据各文章的词向量表示以及所属分类训练出评估模型,以便在进行文章作者身份识别时,利用所述评估模型分别评估出输入的第一文章的词向量表示对应的特征向量以及第二文章的词向量表示对应的特征向量,通过比较两个特征向量确定出所述第一文章与所述第二文章是否属于同一作者,所述特征为能够用于区分不同作者特点的特征。6.根据权利要求5所述的方法,其特征在于,针对任一文章,获取所述文章的词向量表示的方式包括:对所述文章进行切词处理;按照保留前L个切词结果的方式,对所述文章进行截断,L为大于一的正整数;分别获取每个切词结果的n维词向量表示,n为大于一的正整数;利用L个切词结果的词向量表示组成一个L行n列的词向量表示,将所述L行n列的词向量表示作为所述文章的词向量表示。7.根据权利要求5所述的方法,其特征在于,所述评估模型包括:基于卷积的深度学习模型;所述基于卷积的深度学习模型使用误差函数TripletLoss作为损失函数。8.根据权利要求7所述的方法,其特征在于,所述根据各文章的词向量表示以及所属分类训练出评估模型包括:每次训练时,输入三篇文章的词向量表示,其中两篇文章属于同一分类,分别对应于所述TripletLoss的锚示例和正示例,另外一篇文章属于另一分类,对应于所述TripletLoss的负示例。9.一种文章作者身份识别装置,其特征在于,包括:第一获取单元以及身份识别单元;所述第一获取单元,用于获取待识别的第一文章的词向量表示,并输入预先训练得到的评估模型,得到输出的所述第一...

【专利技术属性】
技术研发人员:刘焱吕中厚
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1