文本选词方法及装置制造方法及图纸

技术编号:37673965 阅读:34 留言:0更新日期:2023-05-26 04:37
本说明书提供文本选词方法及装置,其中,所述文本选词方法包括确定包含待选词区域的初始文本、以及所述待选词区域对应的候选词集合;基于所述待选词区域以及所述候选词集合对所述初始文本进行文本处理,获得目标文本;将所述目标文本切词后通过掩码语言模型,获得切词后所述目标文本中目标切词的目标向量,其中,所述掩码语言模型采用稀疏的注意力机制;基于词表确定所述候选词集合中每个候选词相对于所述目标向量的目标概率值,并基于所述目标概率值确定目标候选词。所述文本选词方法通过采用稀疏的注意力机制的掩码语言模型,结合词表实现对候选词填空的答案的准确预测。词表实现对候选词填空的答案的准确预测。词表实现对候选词填空的答案的准确预测。

【技术实现步骤摘要】
文本选词方法及装置


[0001]本说明书涉及自然语言处理
,特别涉及一种文本选词方法。本说明书同时涉及一种文本选词装置,一种计算设备,以及一种计算机可读存储介质。

技术介绍

[0002]近年来人工智能技术飞快发展,利用深度学习来处理我们生活中的一些对话理解,即自然语言处理成为了热门技术。
[0003]自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。
[0004]基于transformer的模型已成为NLP最成功的深度学习模型之一;对于自然语言处理任务,通常选用双向注意力神经网络模型模型(Bidirectional Encoder Representation from Transformers,BERT)进行处理。目前针对选择候选词填充到语句中的这一任务,通常是通过BERT模型进行处理,但是由于BERT模型选用的全注意力机制,核心局限之一是对序列长度的平方依赖性,仅能支持长度最大为本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本选词方法,其特征在于,包括:确定包含待选词区域的初始文本、以及所述待选词区域对应的候选词集合;基于所述待选词区域以及所述候选词集合对所述初始文本进行文本处理,获得目标文本;将所述目标文本切词后通过掩码语言模型,获得切词后所述目标文本中目标切词的目标向量,其中,所述掩码语言模型采用稀疏的注意力机制;基于词表确定所述候选词集合中每个候选词相对于所述目标向量的目标概率值,并基于所述目标概率值确定目标候选词。2.根据权利要求1所述的文本选词方法,其特征在于,所述确定包含待选词区域的初始文本、以及所述待选词区域对应的候选词集合,包括:获取包含待选词区域的初始文本、以及与所述初始文本对应的候选词集合;确定所述待选词区域的区域数量,以及所述候选词集合的集合数量;在所述区域数量和所述集合数量相同的情况下,确定所述待选词区域对应的候选词集合。3.根据权利要求2所述的文本选词方法,其特征在于,所述确定所述待选词区域对应的候选词集合,包括:确定所述待选词区域在所述初始文本中的文本顺序,以及所述候选词集合的排列顺序;将所述文本顺序与所述排列顺序进行匹配,确定所述待选词区域对应的候选词集合。4.根据权利要求1所述的文本选词方法,其特征在于,所述基于所述待选词区域以及所述候选词集合对所述初始文本进行文本处理,获得目标文本,包括:将所述待选词区域替换为掩码语言模型的预设掩码;将所述候选词集合中每个候选词与所述预设掩码进行拼接,获得拼接后的目标文本。5.根据权利要求4所述的文本选词方法,其特征在于,所述将所述目标文本切词后通过掩码语言模型,获得切词后所述目标文本中目标切词的目标向量,包括:基于词表对所述目标文本进行切词,获得所述目标文本的文本切词;将所述文本切词输入掩码语言模型,获得所述文本切词的切词向量;从所述切词向量中确定所述预设掩码的掩码向量,并将所述预设掩码的掩码向量作为切词后所述目标文本中目标切词的目标向量。6.根据权利要求1所述的文本选词方法,其特征在于,所述基于词表确定所述候选词集合中每个候选词相对于所述目标向量的目标概率值,并基于所述目标概率值确定目标候选词,包括:将所述目标向量通过所述掩码语言模型的词表分类器,计算获得词表中每个词相对于所述目标向量的初始概率值;基于所述初始概率值确定所述候选词集合中每个候选词相对于所述目标向量的目标概率值;基于所述目标概率值从所述候选词集合中,确定所述待选词区域对应的目标候选词。7.根据权利要求6所述的文本选词方法,其特征在于,所述基于所述初始概率值确定所述候选词集合中每个候选词相对于所述目标向量的目标概率值之...

【专利技术属性】
技术研发人员:张天宇柳景明赵薇刘洋
申请(专利权)人:北京猿力未来科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1