【技术实现步骤摘要】
一种文本语料生成方法、装置、设备及介质
[0001]本专利技术涉及计算机处理
,尤其涉及一种文本语料生成方法、装置、设备及介质。
技术介绍
[0002]随着计算机处理技术的发展,越来越多的领域开始使用自然语言处理(NLP)模型,以实现智能地对用户输入的自然语言进行识别,从而可以按照用户的期望,执行相应的操作。其中,模型的精度对能否准确地识别用户的自然语言有着至关重要的作用,而模型的精度又一般会受到用于模型训练的文本语料的数量的多少的影响。对于一些比较个性化的领域,在训练应用于该领域的NLP模型的时候,由于关于该领域的文本语料比较少,因此,如何获取大量的该领域的文本语料,以训练该领域的NLP模型是一个亟待解决的问题。
[0003]目前,为了快速生成某一领域大量的文本语料,可以按照预设的泛化规则,对当前保存的该领域的文本语料进行泛化。比如,对任一文本语料中的名词、动词等词性的词语,采用同义词替换的泛化规则进行替换,获取泛化文本;在文本语料中的各个分词之间,采用随机插入任一预设词语的泛化规则,获取泛化文本;将文本语料 ...
【技术保护点】
【技术特征摘要】
1.一种文本语料生成方法,其特征在于,所述方法包括:通过至少一个文本泛化模型,获取待泛化的文本语料对应的至少一个第一概率序列,所述第一概率序列中包括预先配置的每个字符分别为所述文本语料对应的泛化文本中对应字符的概率值;依次对于每个所述第一概率序列,通过解码网络、以及已解码出的第一字符,对该第一概率序列进行解码;若确定该第一概率序列解码出的第二字符满足预设的结束条件,则将解码得到的字符序列确定为泛化文本;根据解码得到的泛化文本,确定所述文本语料对应的目标泛化文本。2.根据权利要求1所述的方法,其特征在于,待泛化的文本语料通过如下方式确定:基于智能问答系统的日志数据,确定待泛化的文本语料,其中,所述日志数据包括被输入到所述智能问答系统的输入问句、以及通过所述智能问答系统确定的与所述输入问句匹配的标准问句;和/或根据输入到语义识别模型进行语义识别的文本语句,确定待泛化的文本语料。3.根据权利要求2所述的方法,其特征在于,所述基于获取到的智能问答系统的第一日志数据,确定所述待泛化的文本语料,包括:将所述第一日志数据中包括的输入问句和/或标准问句,确定为所述待泛化的文本语料。4.根据权利要求1所述的方法,其特征在于,若所述文本泛化模型的数量大于1,所述通过解码网络、以及已解码出的第一字符,对该第一概率序列进行解码,包括:对于每个所述文本泛化模型每次输出的第一概率序列,确定所述文本泛化模型同一次输出的第一概率序列的向量和;通过所述解码网络、以及已解码出的第一字符,对所述向量和进行解码。5.根据权利要求1所述的方法,其特征在于,所述确定该第一概率序列解码出的第二字符满足预设的结束条件,包括:若所述第二字符为预先配置的结束标识,则确定所述第二字符满足预设的结束条件;和/或若已解码得到的字符个数达到设定阈值,则确定所述第二字符满足预设的结束条件。6.根据权利要求1所述的方法,其特征在于,所述根据解码得到的泛化文本,确定所述文本语料对应的目标泛化文本,包括:确定所述泛化文本...
【专利技术属性】
技术研发人员:康兵兵,蒋卓,刘太路,林绍令,
申请(专利权)人:北京猎户星空科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。