文本处理方法、装置、设备和存储介质制造方法及图纸

技术编号:26066646 阅读:21 留言:0更新日期:2020-10-28 16:39
本公开涉及一种文本处理方法、装置、设备和存储介质。在此描述的方法包括从第一文本集选择锚文本以及针对锚文本的正类文本,正类文本被分类到与锚文本相同的语义类别。该方法还包括从第二文本集选择针对锚文本的负类文本,负类文本被分类到与锚文本不同的语义类别。利用锚文本、正类文本和负类文本并且根据训练目标来训练用于生成文本向量化表示的模型,训练目标是要使模型为锚文本和正类文本生成的向量化表示对之间的第一差异小于为锚文本和负类文本生成的向量化表示对之间的第二差异。基于这样的训练目标得到的模型使得文本的向量化表示在语义区分上更准确。

【技术实现步骤摘要】
文本处理方法、装置、设备和存储介质
本公开总体上涉及自然语言处理领域,更特别地涉及文本处理方法、装置、设备和计算机可读存储介质。
技术介绍
自然语言处理(NLP)是计算机科学、人工智能、以及计算语言学的领域,其涉及计算机和人类(自然)语言之间的交互。基于NLP的技术在诸如自动问答、文档分析、文本聚类、用户意图分析、情感分类等应用中得到越来越多的应用。基于NLP的任务一般要求将自然语言的文本转换为计算机可识别的标识形式,例如向量化表示,然后在向量化表示的基础上继续任务处理,获得期望的任务输出。因此,文本的向量化表示是NLP任务的基础。
技术实现思路
根据本公开的一些实施例,提供了一种文本处理的方案,特别是用于训练和使用用于生成文本的向量化表示的模型的方案。在本公开的第一方面,提供了一种文本处理方法。该方法包括从第一文本集选择锚文本以及针对锚文本的正类文本,正类文本被分类到与锚文本相同的语义类别。该方法还包括从第二文本集选择针对锚文本的负类文本,负类文本被分类到与锚文本不同的语义类别。利用锚文本、正类文本和负类文本并且根据训练目标来训练用于生成文本向量化表示的模型,训练目标是要使模型为锚文本和正类文本生成的向量化表示对之间的第一差异小于为锚文本和负类文本生成的向量化表示对之间的第二差异。在本公开的第二方面,提供了一种用于生成文本的向量化表示的方法。该方法包括获取待处理的目标文本。该方法还包括使用根据第一方面的方法训练的模型,基于目标文本来确定目标文本对应的目标向量化表示。在本公开的第三方面,提供了一种文本处理装置。该装置包括第一文本选择模块,被配置为从第一文本集选择锚文本以及针对锚文本的正类文本,正类文本被分类到与锚文本相同的语义类别。该装置还包括第二文本选择模块,被配置为从第二文本集选择针对锚文本的负类文本,负类文本被分类到与锚文本不同的语义类别。该装置还包括模型训练模块,被配置为利用锚文本、正类文本和负类文本并且根据训练目标来训练用于生成文本向量化表示的模型,训练目标是要使模型为锚文本和正类文本生成的向量化表示对之间的第一差异小于为锚文本和负类文本生成的向量化表示对之间的第二差异。在本公开的第四方面,提供了一种用于生成文本的向量化表示的装置。该装置包括文本获取模块,被配置为获取待处理的目标文本;以及模型使用模块,被配置为使用根据第三方面的装置训练的模型,基于目标文本来确定目标文本对应的目标向量化表示。在本公开的第五方面,提供了一种电子设备,包括存储器和处理器,其中存储器用于存储计算机可执行指令,计算机可执行指令被处理器执行以实现根据本公开的第一方面和/或第二方面的方法。在本公开的第六方面,提供了一种计算机可读存储介质,其上存储有计算机可执行指令,其中计算机可执行指令被处理器执行实现根据本公开的第一方面和/或第二方面的方法。根据本公开的各种实施例,通过使用无用户意图标签的用户数据来训练用户意图确定模型,使得模型能够更好地学习到用户特征之间的交互和表示,由此提高用户意图确定模型的准确性。附图说明结合附图并参考以下详细说明,本公开各实现方式的特征、优点及其他方面将变得更加明显。在此以示例性而非限制性的方式示出了本公开的若干实现方式,在附图中:图1示出了本公开的实施例能够在其中实现的用于生成文本的向量化表示的示例环境;图2示出了根据本公开的一些实施例的用于向量化表示生成模型的模型训练装置的示意图;图3示出了根据本公开的一些实施例的文本处理方法的流程图;图4示出了根据本公开的一些实施例的用于生成文本的向量化表示的方法的流程图;图5示出了根据本公开的一些实施例的文本处理装置的框图;图6示出了根据本公开的一些实施例的用于生成文本的向量化表示的装置的框图;以及图7示出了其中可以实施本公开的一个或多个实施例的计算设备的框图。具体实施方式下面将参照附图更详细地描述本公开的优选实现。虽然附图中显示了本公开的优选实现,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实现所限制。相反,提供这些实现是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实现”和“一个实现”表示“至少一个示例实现”。术语“另一实现”表示“至少一个另外的实现”。术语“第一”、“第二”等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。如本文中所使用的,术语“模型”可以从训练数据中学习到相应的输入与输出之间的关联,从而在训练完成后可以针对给定的输入,生成对应的输出。模型的生成可以基于机器学习技术。深度学习是一种机器学习算法,通过使用多层处理单元来处理输入和提供相应输出。神经网络模型是基于深度学习的模型的一个示例。在本文中,“模型”也可以被称为“机器学习模型”、“学习模型”、“机器学习网络”或“学习网络”,这些术语在本文中可互换地使用。通常,机器学习可以包括三个阶段,即训练阶段、测试阶段和使用阶段(也称为推理阶段)。在训练阶段,给定的模型可以使用大量的训练数据进行训练,不断迭代,直到模型能够从训练数据中获取一致的、与人类智慧所能够做出的推理类似的推理。通过训练,模型可以被认为能够从训练数据中学习从输入到输出之间的关联(也称为输入到输出的映射)。经训练的模型的参数值被确定。在测试阶段,将测试输入应用到训练后的模型,测试模型是否能够提供正确的输出,从而确定模型的性能。在使用阶段,模型可以被用于基于训练得到的参数值,对实际的输入进行处理,确定对应的输出。如以上提及的,在NLP任务中,需要生成文本的向量化表示。由于机器学习、深度学习技术的不断发展,已经提出可以利用各种机器学习模型来生成文本的向量化表示。图1示出了示出了本公开的实施例能够在其中实现的用于生成文本的向量化表示的示例环境100。如图1所示,示例环境100包括计算设备110,计算设备110具有向量化表示生成模型112,用于生成文本102对应的向量化表示114。计算设备120所使用的向量化表示生成模型112是已完成训练并且可使用的模型。计算设备110可以是终端设备或是服务端设备。终端设备例如可以是各种便携式或固定终端,诸如、平板电脑、台式计算机、笔记本计算机、手机、通用计算设备等。服务端设备例如可以是集中式服务器、分布式服务器、大型机、边缘计算设备、或者云等。因此,向量化表示生成模型112的应用可以是在各种可能的场景下。可以由向量化表示生成模型112处理的文本102可以是任何长度的自然语言文本。例如,文本102可以是包含多个词、词组的一个句子。有时,文本102可以包含多个句子(例如一个段落)等。向量化表示生成模型112可以被配置为支持各种长度的文本的输入。文本102的向量化表示114有时也被称为特征表示、句向量、本文档来自技高网...

【技术保护点】
1.一种文本处理方法,包括:/n从第一文本集选择锚文本以及针对所述锚文本的正类文本,所述正类文本被分类到与所述锚文本相同的语义类别;/n从第二文本集选择针对所述锚文本的负类文本,所述负类文本被分类到与所述锚文本不同的语义类别;以及/n利用所述锚文本、所述正类文本和所述负类文本并且根据训练目标,来训练用于生成文本向量化表示的模型,所述训练目标是要使所述模型为所述锚文本和所述正类文本生成的向量化表示对之间的第一差异小于为所述锚文本和所述负类文本生成的向量化表示对之间的第二差异。/n

【技术特征摘要】
1.一种文本处理方法,包括:
从第一文本集选择锚文本以及针对所述锚文本的正类文本,所述正类文本被分类到与所述锚文本相同的语义类别;
从第二文本集选择针对所述锚文本的负类文本,所述负类文本被分类到与所述锚文本不同的语义类别;以及
利用所述锚文本、所述正类文本和所述负类文本并且根据训练目标,来训练用于生成文本向量化表示的模型,所述训练目标是要使所述模型为所述锚文本和所述正类文本生成的向量化表示对之间的第一差异小于为所述锚文本和所述负类文本生成的向量化表示对之间的第二差异。


2.根据权利要求1所述的方法,其中选择所述锚文本和所述正类文本包括:
从所述第一文本集选择如下文本作为所述正类文本,使所选文本与所述锚文本之间的语法结构差异大于所述第一文本集中的至少一个其他文本与所述锚文本之间的语法结构差异。


3.根据权利要求1所述的方法,其中选择所述负类文本包括:
从所述第二文本集选择如下文本作为所述负类文本,使所选文本与所述锚文本之间的语法结构差异小于所述第二文本集中的至少一个其他文本与所述锚文本之间的语法结构差异。


4.根据权利要求1所述的方法,其中所述锚文本与所述正类文本在所述第一文本集中被预先配对,并且所述负类文本在所述第二文本集中被预先配对到所述第一文本集中的所述锚文本。


5.根据权利要求1所述的方法,其中所述第一文本集包括与预定知识库中的第一知识点对应的多个第一问题文本,所述多个第一问题文本对应于第一答案;并且
其中所述第二文本集包括所述预定知识库中的第二知识点,所述第二知识点包括多个第二问题文本,所述多个第二问题文本对应于第二答案,所述第二答案不同于所述第一答案。


6.根据权利要求1所述的方法,其中训练所述模型包括:
通过使针对所述模型的三元组损失最小化来满足所述训练目标,所述三元组损失至少基于所述第一差异和所述第二差异。


7.根据权利要求1至6中任一项所述的方法,其中所述第一文本集和所述第二文本集包括句子级别的文本。


8.一种用于生成文本的向量化表示的方法,包括:
获取待处理的目标文本;以及
使用根据权利要求1至7中任一项所述的方法训练的模型,基于所述目标文本来确定所述目标文本对应的目标向量化表示。


9.一种文本处理装置,所述装置包括:
第一文本选择模块,被配置为从第一文本集选择锚文本以及针对所述锚文本的正类文本,所述正类文本被分类到与所述锚文本相同的语义类别;
第二文本选择模块,被配置为从第二文本集选择针对所述锚文本的负类文本,所述负类文本被分类到与所述锚文本不同的语义类别;以及
模型训练模块,被配置...

【专利技术属性】
技术研发人员:王鹏刘纯一李奘
申请(专利权)人:北京嘀嘀无限科技发展有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1