工单文本生成方法和装置、计算机可读存储介质制造方法及图纸

技术编号:29675000 阅读:23 留言:0更新日期:2021-08-13 21:57
本公开涉及一种工单文本生成方法和装置、计算机可读存储介质。该工单文本生成方法包括:使用原始工单文本的全部数据训练序列生成对抗网络;结合工单专业词库和互联网近义词库,建立工单近义词库,其中所述工单近义词库可替换超出词表;将序列生成对抗网络与工单近义词库结合,生成当前工单文本。本公开可以使用工单专业词库和互联网近义词库来解决SeqGAN在文本生成过程中出现的OOV问题。

【技术实现步骤摘要】
工单文本生成方法和装置、计算机可读存储介质
本公开涉及人工智能领域,特别涉及一种工单文本生成方法和装置、计算机可读存储介质。
技术介绍
在电信运营商智能工单处理过程中,历史积累的工单文本数据类别极度不均衡,多个类别的数据只有几百条,很难进行机器学习或深度学习。因此需要对数量少的工单样本数据进行扩充,相关计算的上采样扩充方法容易导致训练过拟合。需要结合工单文本数据训练文本生成式的模型,产生可用于机器学习或深度学习的新工单文本。
技术实现思路
专利技术人通过研发就发现:对于文本生成问题,现在普遍采用SeqGAN(SequenceGenerativeAdversarialNets,序列生成对抗网络)框架来解决,其简要特点如下:1.用一个循环神经网络RNN(RecurrentNeuralNetwork,循环神经网络来建模生成语言模型;用卷积神经网络CNN(ConvolutionalNeuralNetworks,卷积神经网络)之类分类器来对生成的文本和真实文本进行判别,或者是对文本的某种属性进行判定。2.利用最大似然法进行预训练:让生成器和判别器具备初始的能力。3.利用蒙特卡洛搜索来得到反馈,通过有策略的梯度下降指导生成器更新。但在使用SeqGAN生成工单文本时,出现OOV(Out-Off-Vocabulary,超出词表)问题,无法生成可用的新的工单文本。这是由于某些词典中词在训练集中出现次数过少,导致无法训练得到很好的词向量;而且在预测过程中,有不在训练数据词典中的词,就会在生成过程中出现OOV问题。鉴于以上技术问题中的至少一项,本公开提供了一种工单文本生成方法和装置、计算机可读存储介质,可以使用工单专业词库和互联网近义词库来解决SeqGAN中出现的OOV问题。根据本公开的一个方面,提供一种工单文本生成方法,包括:使用原始工单文本的全部数据训练序列生成对抗网络;结合工单专业词库和互联网近义词库,建立工单近义词库,其中所述工单近义词库可替换超出词表;将序列生成对抗网络与工单近义词库结合,生成当前工单文本。在本公开的一些实施例中,所述将序列生成对抗网络与工单近义词库结合,生成当前工单文本包括:根据序列生成对抗网络生成当前工单文本;采用工单近义词库替换当前工单文本中的超出词表。在本公开的一些实施例中,所述将序列生成对抗网络与工单近义词库结合,生成当前工单文本还包括:设置工单近义词库替换规则。在本公开的一些实施例中,所述设置工单近义词库替换规则包括:在工单文本数据中设置不可替换的专有词汇。在本公开的一些实施例中,所述设置工单近义词库替换规则包括:在工单文本数据中设置只可被特定词语替换的专有词汇。在本公开的一些实施例中,所述工单文本生成方法还包括:计算当前工单文本与原始工单文本的相似度;判断所述相似度是否小于预定相似度阈值;在所述相似度小于预定相似度阈值的情况下,将当前工单文本作为目标工单文本。在本公开的一些实施例中,所述工单文本生成方法还包括:在所述相似度小于预定相似度阈值的情况下,检测当前工单文本语义是否恰当;在当前工单文本语义不恰当的情况下,执行将当前工单文本作为目标工单文本的步骤。在本公开的一些实施例中,所述工单文本生成方法还包括:在当前工单文本语义不恰当的情况下,对工单近义词库替换规则进行调整;在对工单近义词库替换规则进行调整后,执行所述将序列生成对抗网络与工单近义词库结合,生成当前工单文本的步骤。根据本公开的另一方面,提供一种工单文本生成装置,包括:网络训练模块,用于使用原始工单文本的全部数据训练序列生成对抗网络;词库建立模块,用于结合工单专业词库和互联网近义词库,建立工单近义词库,其中所述工单近义词库可替换超出词表;文本生成模块,用于将序列生成对抗网络与工单近义词库结合,生成当前工单文本。在本公开的一些实施例中,文本生成模块,用于根据序列生成对抗网络生成当前工单文本;采用工单近义词库替换当前工单文本中的超出词表。在本公开的一些实施例中,文本生成模块还用于设置工单近义词库替换规则。在本公开的一些实施例中,文本生成模块在设置工单近义词库替换规则的情况下,用于在工单文本数据中设置不可替换的专有词汇。在本公开的一些实施例中,文本生成模块在设置工单近义词库替换规则的情况下,用于在工单文本数据中设置只可被特定词语替换的专有词汇。在本公开的一些实施例中,所述工单文本生成装置还包括:相似度计算模块,用于计算当前工单文本与原始工单文本的相似度;相似度判断模块,用于判断所述相似度是否小于预定相似度阈值;目标文本确定模块,用于在所述相似度小于预定相似度阈值的情况下,将当前工单文本作为目标工单文本。在本公开的一些实施例中,所述工单文本生成装置还包括:语义检测模块,用于在所述相似度小于预定相似度阈值的情况下,检测当前工单文本语义是否恰当;在当前工单文本语义不恰当的情况下,指示目标文本确定模块执行将当前工单文本作为目标工单文本的操作。在本公开的一些实施例中,所述工单文本生成装置还包括:替换规则调整模块,用于在当前工单文本语义不恰当的情况下,对工单近义词库替换规则进行调整;在对工单近义词库替换规则进行调整后,指示文本生成模块执行所述将序列生成对抗网络与工单近义词库结合,生成当前工单文本的操作。根据本公开的另一方面,提供一种工单文本生成装置,包括存储器和处理器,其中:存储器,用于存储指令;处理器,用于执行所述指令,使得所述工单文本生成装置执行实现如上述任一实施例所述的工单文本生成方法的操作。根据本公开的另一方面,提供一种计算机可读存储介质,其中,所述计算机可读存储介质存储有计算机指令,所述指令被处理器执行时实现如上述任一实施例所述的工单文本生成方法。本公开可以使用工单专业词库和互联网近义词库来解决SeqGAN在文本生成过程中出现的OOV问题。附图说明为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为相关技术工单文本生成方法一些实施例的示意图。图2为本公开工单文本生成方法一些实施例的示意图。图3为本公开一些实施例中采用序列生成对抗网络生成工单文本的示意图。图4为本公开一些实施例中建立工单近义词库的示意图。图5为本公开一些实施例中序列生成对抗网络与工单近义词库结合生成当前工单文本的示意图。图6为本公开工单文本生成方法另一些实施例的示意图。图7为本公开一些实施例中对工单近义词库替换规则进行调整的示意图。本文档来自技高网...

【技术保护点】
1.一种工单文本生成方法,其特征在于,包括:/n使用原始工单文本的全部数据训练序列生成对抗网络;/n结合工单专业词库和互联网近义词库,建立工单近义词库;/n将序列生成对抗网络与工单近义词库结合,生成当前工单文本。/n

【技术特征摘要】
1.一种工单文本生成方法,其特征在于,包括:
使用原始工单文本的全部数据训练序列生成对抗网络;
结合工单专业词库和互联网近义词库,建立工单近义词库;
将序列生成对抗网络与工单近义词库结合,生成当前工单文本。


2.根据权利要求1所述的工单文本生成方法,其特征在于,所述将序列生成对抗网络与工单近义词库结合,生成当前工单文本包括:
根据序列生成对抗网络生成当前工单文本;
采用工单近义词库替换当前工单文本中的超出词表。


3.根据权利要求2所述的工单文本生成方法,其特征在于,所述将序列生成对抗网络与工单近义词库结合,生成当前工单文本还包括:
设置工单近义词库替换规则。


4.根据权利要求3所述的工单文本生成方法,其特征在于,所述设置工单近义词库替换规则包括:
在工单文本数据中设置不可替换的专有词汇;
和/或,
在工单文本数据中设置只可被特定词语替换的专有词汇。


5.根据权利要求1-4中任一项所述的工单文本生成方法,其特征在于,还包括:
计算当前工单文本与原始工单文本的相似度;
判断所述相似度是否小于预定相似度阈值;
在所述相似度小于预定相似度阈值的情况下,将当前工单文本作为目标工单文本。


6.根据权利要求5所述的工单文本生成方法,其特征在于,还包括:
在所述相似度小于...

【专利技术属性】
技术研发人员:孙佩霞李浩宇白亮赵龙刚王仿坤林碧兰
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1