【技术实现步骤摘要】
文本处理方法、装置、设备和存储介质
本公开总体上涉及自然语言处理领域,更特别地涉及文本处理方法、装置、设备和计算机可读存储介质。
技术介绍
自然语言处理(NLP)是计算机科学、人工智能、以及计算语言学的领域,其涉及计算机和人类(自然)语言之间的交互。基于NLP的技术在诸如自动问答、文档分析、文本聚类、用户意图分析、情感分类等应用中得到越来越多的应用。基于NLP的任务一般要求将自然语言的文本转换为计算机可识别的标识形式,例如向量化表示,然后在向量化表示的基础上继续任务处理,获得期望的任务输出。因此,文本的向量化表示是NLP任务的基础。
技术实现思路
根据本公开的一些实施例,提供了一种文本处理的方案,特别是用于训练和使用用于生成文本的向量化表示的模型的方案。在本公开的第一方面,提供了一种文本处理方法。该方法包括从第一文本集选择锚文本以及针对锚文本的正类文本,正类文本被分类到与锚文本相同的语义类别。该方法还包括从第二文本集选择针对锚文本的负类文本,负类文本被分类到与锚文本不同的语义类别。利用锚文本、正类文本和负类文本并且根据训练目标来训练用于生成文本向量化表示的模型,训练目标是要使模型为锚文本和正类文本生成的向量化表示对之间的第一差异小于为锚文本和负类文本生成的向量化表示对之间的第二差异。在本公开的第二方面,提供了一种用于生成文本的向量化表示的方法。该方法包括获取待处理的目标文本。该方法还包括使用根据第一方面的方法训练的模型,基于目标文本来确定目标文本对应的目标向量化表示。在本公 ...
【技术保护点】
1.一种文本处理方法,包括:/n从第一文本集选择锚文本以及针对所述锚文本的正类文本,所述正类文本被分类到与所述锚文本相同的语义类别;/n从第二文本集选择针对所述锚文本的负类文本,所述负类文本被分类到与所述锚文本不同的语义类别;以及/n利用所述锚文本、所述正类文本和所述负类文本并且根据训练目标,来训练用于生成文本向量化表示的模型,所述训练目标是要使所述模型为所述锚文本和所述正类文本生成的向量化表示对之间的第一差异小于为所述锚文本和所述负类文本生成的向量化表示对之间的第二差异。/n
【技术特征摘要】
1.一种文本处理方法,包括:
从第一文本集选择锚文本以及针对所述锚文本的正类文本,所述正类文本被分类到与所述锚文本相同的语义类别;
从第二文本集选择针对所述锚文本的负类文本,所述负类文本被分类到与所述锚文本不同的语义类别;以及
利用所述锚文本、所述正类文本和所述负类文本并且根据训练目标,来训练用于生成文本向量化表示的模型,所述训练目标是要使所述模型为所述锚文本和所述正类文本生成的向量化表示对之间的第一差异小于为所述锚文本和所述负类文本生成的向量化表示对之间的第二差异。
2.根据权利要求1所述的方法,其中选择所述锚文本和所述正类文本包括:
从所述第一文本集选择如下文本作为所述正类文本,使所选文本与所述锚文本之间的语法结构差异大于所述第一文本集中的至少一个其他文本与所述锚文本之间的语法结构差异。
3.根据权利要求1所述的方法,其中选择所述负类文本包括:
从所述第二文本集选择如下文本作为所述负类文本,使所选文本与所述锚文本之间的语法结构差异小于所述第二文本集中的至少一个其他文本与所述锚文本之间的语法结构差异。
4.根据权利要求1所述的方法,其中所述锚文本与所述正类文本在所述第一文本集中被预先配对,并且所述负类文本在所述第二文本集中被预先配对到所述第一文本集中的所述锚文本。
5.根据权利要求1所述的方法,其中所述第一文本集包括与预定知识库中的第一知识点对应的多个第一问题文本,所述多个第一问题文本对应于第一答案;并且
其中所述第二文本集包括所述预定知识库中的第二知识点,所述第二知识点包括多个第二问题文本,所述多个第二问题文本对应于第二答案,所述第二答案不同于所述第一答案。
6.根据权利要求1所述的方法,其中训练所述模型包括:
通过使针对所述模型的三元组损失最小化来满足所述训练目标,所述三元组损失至少基于所述第一差异和所述第二差异。
7.根据权利要求1至6中任一项所述的方法,其中所述第一文本集和所述第二文本集包括句子级别的文本。
8.一种用于生成文本的向量化表示的方法,包括:
获取待处理的目标文本;以及
使用根据权利要求1至7中任一项所述的方法训练的模型,基于所述目标文本来确定所述目标文本对应的目标向量化表示。
9.一种文本处理装置,所述装置包括:
第一文本选择模块,被配置为从第一文本集选择锚文本以及针对所述锚文本的正类文本,所述正类文本被分类到与所述锚文本相同的语义类别;
第二文本选择模块,被配置为从第二文本集选择针对所述锚文本的负类文本,所述负类文本被分类到与所述锚文本不同的语义类别;以及
模型训练模块,被配置...
【专利技术属性】
技术研发人员:王鹏,刘纯一,李奘,
申请(专利权)人:北京嘀嘀无限科技发展有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。