近义词扩展及生成对抗网络模型训练方法和装置制造方法及图纸

技术编号:21658879 阅读:18 留言:0更新日期:2019-07-20 05:41
本发明专利技术公开了近义词扩展及生成对抗网络模型训练方法和装置,其中近义词扩展方法可包括:获取待处理的关键词;利用词向量工具从生成的备选词集中查找出该关键词的近义词;利用预先训练得到的GAN模型,分别生成该关键词以及查找出的近义词的近义词。应用本发明专利技术所述方案,可提升处理效率等。

Training method and device of synonym extension and generation antagonism network model

【技术实现步骤摘要】
近义词扩展及生成对抗网络模型训练方法和装置
本专利技术涉及计算机应用技术,特别涉及近义词扩展及生成对抗网络模型训练方法和装置。
技术介绍
目前,大量的互联网应用允许用户发帖、回帖、评论等,这部分内容可统称为用户生成内容(UGC,UserGeneratedContent)。不同的应用对于UGC的内容通常都有着比较严格的规定,如禁止上传或分享暴恐、色情、政治敏感话题的内容等,因此,需要对UGC的内容进行审核。常见的审核方式是基于关键词进行过滤,关键词的丰富程度直接影响到过滤效果。目前通常采用人工总结归纳关键词的方式,但这种方式难以覆盖全部情况,很容易被绕过。为避免被绕过,则需要对人工总结归纳的关键词进行扩展,尽可能多的扩展出这些关键词的近义词,但现有技术中主要依靠人工手动挖掘的方式,效率低下。
技术实现思路
有鉴于此,本专利技术提供了近义词扩展及生成对抗网络模型训练方法和装置。具体技术方案如下:一种近义词扩展方法,包括:获取待处理的关键词;利用词向量工具从生成的备选词集中查找出所述关键词的近义词;利用预先训练得到的生成对抗网络GAN模型,分别生成所述关键词以及所述查找出的近义词的近义词。根据本专利技术一优选实施例,所述利用词向量工具从生成的备选词集中查找出所述关键词的近义词包括:将所述关键词输入给所述词向量工具,获取所述词向量工具分别计算各备选词的词向量表示与所述关键词的词向量表示之间的距离后,选出并返回的距离所述关键词最近的N个备选词,将所述返回的备选词作为所述关键词的近义词,N为正整数。根据本专利技术一优选实施例,生成所述备选词集的方式包括:收集用户生成内容UGC数据;对所述UGC数据进行切词处理,将切词结果作为备选词。根据本专利技术一优选实施例,所述利用预先训练得到的GAN模型,分别生成所述关键词以及所述查找出的近义词的近义词包括:针对所述关键词以及所述查找出的近义词中的每个词,分别将所述词以及噪声输入所述GAN模型,得到所述GAN模型生成的所述词的近义词。根据本专利技术一优选实施例,该方法进一步包括:针对同一个词,分别向所述GAN模型输入不同的噪声,得到所述GAN模型生成的所述词的不同近义词。一种生成对抗网络GAN模型训练方法,包括:获取训练样本,每个训练样本中包括:原始词以及所述原始词的近义词;根据所述训练样本训练出所述GAN模型,以便在进行近义词扩展时,针对待处理的关键词,在利用词向量工具从生成的备选词集中查找出所述关键词的近义词后,利用所述GAN模型分别生成所述关键词以及所述查找出的近义词的近义词。根据本专利技术一优选实施例,所述原始词的近义词为所述原始词的变形词,包括以下之一或组合:将所述原始词中的部分内容去除、将所述原始词中的部分或全部内容进行替换;针对所述关键词以及所述查找出的近义词中的每个词,所述GAN模型生成的所述词的近义词为所述词的变形词,包括以下之一或组合:将所述词中的部分内容去除、将所述词中的部分或全部内容进行替换。根据本专利技术一优选实施例,所述将所述词中的部分或全部内容进行替换包括以下之一或任意组合:将所述词中的至少一个字替换为拼音、将所述词中的至少一个字替换为拼音首字母、将所述词中的至少一个字替换为发音相近的其它字。一种近义词扩展装置,包括:第一扩展单元以及第二扩展单元;所述第一扩展单元,用于获取待处理的关键词,并利用词向量工具从生成的备选词集中查找出所述关键词的近义词;所述第二扩展单元,用于利用预先训练得到的生成对抗网络GAN模型,分别生成所述关键词以及所述查找出的近义词的近义词。根据本专利技术一优选实施例,所述第一扩展单元将所述关键词输入给所述词向量工具,获取所述词向量工具分别计算各备选词的词向量表示与所述关键词的词向量表示之间的距离后,选出并返回的距离所述关键词最近的N个备选词,将所述返回的备选词作为所述关键词的近义词,N为正整数。根据本专利技术一优选实施例,所述第一扩展单元进一步用于,收集用户生成内容UGC数据,对所述UGC数据进行切词处理,将切词结果作为备选词。根据本专利技术一优选实施例,所述第二扩展单元针对所述关键词以及所述查找出的近义词中的每个词,分别将所述词以及噪声输入所述GAN模型,得到所述GAN模型生成的所述词的近义词。根据本专利技术一优选实施例,所述第二扩展单元进一步用于,针对同一个词,分别向所述GAN模型输入不同的噪声,得到所述GAN模型生成的所述词的不同近义词。一种生成对抗网络GAN模型训练装置,包括:样本获取单元以及模型训练单元;所述样本获取单元,用于获取训练样本,每个训练样本中包括:原始词以及所述原始词的近义词;所述模型训练单元,用于根据所述训练样本训练出所述GAN模型,以便在进行近义词扩展时,针对待处理的关键词,在利用词向量工具从生成的备选词集中查找出所述关键词的近义词后,利用所述GAN模型分别生成所述关键词以及所述查找出的近义词的近义词。根据本专利技术一优选实施例,所述原始词的近义词为所述原始词的变形词,包括以下之一或组合:将所述原始词中的部分内容去除、将所述原始词中的部分或全部内容进行替换;针对所述关键词以及所述查找出的近义词中的每个词,所述GAN模型生成的所述词的近义词为所述词的变形词,包括以下之一或组合:将所述词中的部分内容去除、将所述词中的部分或全部内容进行替换。根据本专利技术一优选实施例,所述将所述词中的部分或全部内容进行替换包括以下之一或任意组合:将所述词中的至少一个字替换为拼音、将所述词中的至少一个字替换为拼音首字母、将所述词中的至少一个字替换为发音相近的其它字。一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如以上所述的方法。一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如以上所述的方法。基于上述介绍可以看出,采用本专利技术所述方案,针对获取到的待处理的关键词,可首先利用词向量工具从生成的备选词集中查找出该关键词的近义词,进而可利用预先训练得到的GAN模型,分别生成该关键词以及查找出的近义词的近义词,从而自动扩展出了该关键词的多个近义词,提升了处理效率。【附图说明】图1为本专利技术所述近义词扩展方法实施例的流程图。图2为本专利技术所述GAN模型训练方法实施例的流程图。图3为本专利技术所述近义词扩展装置实施例的组成结构示意图。图4为本专利技术所述GAN模型训练装置实施例的组成结构示意图。图5示出了适于用来实现本专利技术实施方式的示例性计算机系统/服务器12的框图。【具体实施方式】为了使本专利技术的技术方案更加清楚、明白,以下参照附图并举实施例,对本专利技术所述方案进行进一步说明。显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。另外,应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。图1为本专利技术所述近义词扩展方法实施例的流程图。如图1所示,包括以下具体实现方式。在101中,获取待处理的关键词。在10本文档来自技高网...

【技术保护点】
1.一种近义词扩展方法,其特征在于,包括:获取待处理的关键词;利用词向量工具从生成的备选词集中查找出所述关键词的近义词;利用预先训练得到的生成对抗网络GAN模型,分别生成所述关键词以及所述查找出的近义词的近义词。

【技术特征摘要】
1.一种近义词扩展方法,其特征在于,包括:获取待处理的关键词;利用词向量工具从生成的备选词集中查找出所述关键词的近义词;利用预先训练得到的生成对抗网络GAN模型,分别生成所述关键词以及所述查找出的近义词的近义词。2.根据权利要求1所述的方法,其特征在于,所述利用词向量工具从生成的备选词集中查找出所述关键词的近义词包括:将所述关键词输入给所述词向量工具,获取所述词向量工具分别计算各备选词的词向量表示与所述关键词的词向量表示之间的距离后,选出并返回的距离所述关键词最近的N个备选词,将所述返回的备选词作为所述关键词的近义词,N为正整数。3.根据权利要求1所述的方法,其特征在于,生成所述备选词集的方式包括:收集用户生成内容UGC数据;对所述UGC数据进行切词处理,将切词结果作为备选词。4.根据权利要求1所述的方法,其特征在于,所述利用预先训练得到的GAN模型,分别生成所述关键词以及所述查找出的近义词的近义词包括:针对所述关键词以及所述查找出的近义词中的每个词,分别将所述词以及噪声输入所述GAN模型,得到所述GAN模型生成的所述词的近义词。5.根据权利要求4所述的方法,其特征在于,该方法进一步包括:针对同一个词,分别向所述GAN模型输入不同的噪声,得到所述GAN模型生成的所述词的不同近义词。6.一种生成对抗网络GAN模型训练方法,其特征在于,包括:获取训练样本,每个训练样本中包括:原始词以及所述原始词的近义词;根据所述训练样本训练出所述GAN模型,以便在进行近义词扩展时,针对待处理的关键词,在利用词向量工具从生成的备选词集中查找出所述关键词的近义词后,利用所述GAN模型分别生成所述关键词以及所述查找出的近义词的近义词。7.根据权利要求6所述的方法,其特征在于,所述原始词的近义词为所述原始词的变形词,包括以下之一或组合:将所述原始词中的部分内容去除、将所述原始词中的部分或全部内容进行替换;针对所述关键词以及所述查找出的近义词中的每个词,所述GAN模型生成的所述词的近义词为所述词的变形词,包括以下之一或组合:将所述词中的部分内容去除、将所述词中的部分或全部内容进行替换。8.根据权利要求7所述的方法,其特征在于,所述将所述词中的部分或全部内容进行替换包括以下之一或任意组合:将所述词中的至少一个字替换为拼音、将所述词中的至少一个字替换为拼音首字母、将所述词中的至少一个字替换为发音相近的其它字。9.一种近义词扩展装置,其特征在于,包括:第一扩展单元以及第二扩展单元;所述第一扩展单元,用于获取待处理的关键词,并利用词向量工具从生成的备选词集中查找出所述关键词的近义词;所述...

【专利技术属性】
技术研发人员:刘焱吕中厚
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1