一种多语言垃圾文本的识别方法、装置和计算设备制造方法及图纸

技术编号:23605276 阅读:10 留言:0更新日期:2020-03-28 06:13
本发明专利技术公开了一种多语言垃圾文本的识别方法,包括:获取待识别文本,待识别文本包括至少两种语言;将待识别文本转化为采用主语言编写的中间文本,主语言为上述至少两种语言中的一种;根据中间文本,采用预设的分类模型来判断待识别文本是否为垃圾文本。本发明专利技术一并公开了相应的多语言垃圾文本的识别装置以及计算设备。

A recognition method, device and computing device of multilingual garbage text

【技术实现步骤摘要】
一种多语言垃圾文本的识别方法、装置和计算设备
本专利技术涉及自然语言处理
,尤其涉及一种多语言垃圾文本的识别方法、装置和计算设备。
技术介绍
某些人由于利益驱使或为了发泄不良情绪,会在短信、即时通讯、游戏等平台发布包含辱骂、色情、反动政治等敏感词的垃圾文本。各平台通常会对其上发布的文本内容进行检查(例如通过敏感词匹配等方法),以识别出垃圾文本并对其进行屏蔽。为了避免被识别以及被屏蔽,这些垃圾文本常常采用多语言混合的方式来干扰平台对于文本内容的检查。针对多语言垃圾文本的识别,一种可能的方法是,人工标注多条多语言垃圾文本作为训练样本,训练分类模型,然后用训练好的分类模型来判断一个文本是否为垃圾文本。但是,多语言垃圾文本的训练样本数量较少、难以获取,导致分类模型对于垃圾文本的判断不够准确,泛化能力较差。因此,需要一种更有效的多语言垃圾文本的识别方法。
技术实现思路
为此,本专利技术提供一种多语言垃圾文本的识别方法、装置和计算设备,以力图解决或至少缓解上面存在的问题。根据本专利技术的一个方面,提供一种多语言垃圾文本的识别方法,包括:获取待识别文本,待识别文本包括至少两种语言;将待识别文本转化为采用主语言编写的中间文本,主语言为上述至少两种语言中的一种;根据中间文本,采用预设的分类模型来判断待识别文本是否为垃圾文本。根据本专利技术的一个方面,提供一种多语言垃圾文本的识别装置,包括:获取模块,适于获取待识别文本,待识别文本包括至少两种语言;转化模块,适于将待识别文本转化为采用主语言编写的中间文本,主语言为上述至少两种语言中的一种;以及判断模块,适于根据中间文本,采用预设的分类模型来判断待识别文本是否为垃圾文本。根据本专利技术的一个方面,提供一种计算设备,包括:至少一个处理器;和存储有程序指令的存储器,其中,所述程序指令被配置为适于由所述至少一个处理器执行,所述程序指令包括用于执行如上所述的多语言垃圾文本的识别方法的指令。根据本专利技术的一个方面,提供一种存储有程序指令的可读存储介质,当所述程序指令被计算设备读取并执行时,使得所述计算设备执行如上所述的多语言垃圾文本的识别方法。根据本专利技术的技术方案,先将多语言的待识别文本转化为单一语言(即主语言)的中间文本;随后根据中间文本,采用预设的分类模型来判断待识别文本是否为垃圾文本。本专利技术实施例的分类模型为单语言模型,用于判断某一种特定语言的文本是否为垃圾文本,单语言垃圾文本相较于多语言垃圾文本来说,训练样本更易获取、数量更多,因此单语言的分类模型能够更加准确地判断中间文本是否为垃圾文本,即,能够更加准确地判断出中间文本所对应的多语言的待识别文本是否为垃圾文本。进一步地,在本专利技术的一个实施例中,分类模型可以包括至少两个模型,例如,包括用于判断第一语言的文本是否为垃圾文本的第一分类模型,和用于判断第二语言的文本是否为垃圾文本的第二分类模型。分别将中间文本翻译为第一语言的第一文本、第二语言的第二文本;然后,将第一文本、第二文本分别输入第一分类模型、第二分类模型,以分别输出第一文本、第二文本为垃圾文本的第一概率、第二概率;最后,结合第一概率、第二概率来综合判断待识别文本是否为垃圾文本。采用多个分类模型,可以从多个单一语言的角度来判断待识别文本是否为垃圾文本,减少仅由一个分类模型来识别垃圾文本的误差,使得识别结果更加可信,准确度更高。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。图1示出了根据本专利技术一个实施例的垃圾文本识别系统100的示意图;图2示出了根据本专利技术一个实施例的计算设备200的示意图;图3示出了根据本专利技术一个实施例的多语言垃圾文本的识别方法300的流程图;图4示出了根据本专利技术一个实施例的多语言垃圾文本的识别过程的示意图;以及图5示出了根据本专利技术一个实施例的多语言垃圾文本的识别装置500的示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。图1示出了根据本专利技术一个实施例的垃圾文本识别系统100的示意图。如图1所示,垃圾文本识别系统100包括用户终端110和计算设备200。用户终端110即用户所使用的终端设备,其具体可以是桌面电脑、笔记本电脑等个人计算机,也可以是手机、平板电脑、多媒体设备、智能可穿戴设备等,但不限于此。计算设备200用于向用户终端110提供服务,其可以实现为服务器,例如应用服务器、Web服务器等;也可以实现为桌面电脑、笔记本电脑、处理器芯片、手机、平板电脑等,但不限于此。在本专利技术的实施例中,计算设备200可用于向用户提供文本发布服务,例如,计算设备200可以作为通讯社交应用的服务器,通讯社交应用例如可以是短信、微信、微博、贴吧等应用,用户可以在其上互发消息或发布内容资讯等;又例如,计算设备200可以作为某个游戏应用的服务器,用户可以在该游戏应用上发布会话消息,也可以在社区、论坛内发帖等。以上以通讯社交应用、服务应用为例说明了计算设备200可提供的文本发布服务,但是,本领域技术人员应当理解,计算设备200可以是任何能够向用户提供文本发布服务的设备,而不仅限于通讯社交应用、游戏应用的服务器。用户通过用户终端110在计算设备200所提供的文本发布平台上发布文本内容。在一些情况下,由于利益驱使或为了发泄不良情绪,用户所发布的文本内容中可能包含辱骂、色情、反动政治等敏感词,扰乱平台秩序,干扰了其他用户的正常使用。这种包含不良内容的、低价值的文本即为垃圾文本。为了维护良好的平台环境,计算设备200会对用户发布的文本内容进行检查,以识别出垃圾文本,并对其进行屏蔽、删除等处理。为了避免被识别以及被屏蔽,不法用户常常采用多语言混合的方式来干扰计算设备200对于文本内容的检查,因此,在本专利技术的实施例中,提供了一种多语言垃圾文本的识别方法,使得计算设备200可以更加有效地识别出多语言垃圾文本。本专利技术的多语言垃圾文本的识别方法将在下文中详述。在一个实施例中,垃圾文本识别系统100还包括数据存储装置120。数据存储装置120可以是关系型数据库例如MySQL、ACCESS等,也可以是非关系型数据库例如NoSQL等;可以是驻留于计算设备200中的本地数据本文档来自技高网...

【技术保护点】
1.一种多语言垃圾文本的识别方法,包括:/n获取待识别文本,所述待识别文本包括至少两种语言;/n将所述待识别文本转化为采用主语言编写的中间文本,所述主语言为所述至少两种语言中的一种;/n根据所述中间文本,采用预设的分类模型来判断所述待识别文本是否为垃圾文本。/n

【技术特征摘要】
1.一种多语言垃圾文本的识别方法,包括:
获取待识别文本,所述待识别文本包括至少两种语言;
将所述待识别文本转化为采用主语言编写的中间文本,所述主语言为所述至少两种语言中的一种;
根据所述中间文本,采用预设的分类模型来判断所述待识别文本是否为垃圾文本。


2.如权利要求1所述的方法,其中,所述分类模型包括第一分类模型和第二分类模型,所述第一分类模型、第二分类模型分别用于确定第一语言的文本、第二语言的文本为垃圾文本的概率;
所述根据所述中间文本,采用预设的分类模型来判断所述待识别文本是否为垃圾文本的步骤包括:
确定所述中间文本对应的第一语言的第一文本和第二语言的第二文本;
将所述第一文本、第二文本分别输入所述第一分类模型和第二分类模型,以分别输出所述第一文本、第二文本为垃圾文本的第一概率、第二概率;
当第一概率大于第一阈值且第二概率大于第二阈值时,或当第一概率与第二概率的加权求和结果大于第三阈值时,将所述待识别文本判定为垃圾文本。


3.如权利要求2所述的方法,其中,所述第一语言为所述主语言。


4.如权利要求2所述的方法,其中,所述第一分类模型采用已经标注了分类标签的第一语言的文本训练生成,所述第二分类模型采用已经标注了分类标签的第二语言的文本训练生成,其中,所述分类标签指示文本是否为垃圾文本。


5.如权利要求1-4中任一项所述的方法,其中,所述将所述待识别文本转化为采用主语言编写的中间文本的步骤包括:
将所述待识别文本切分为多个片段,每个片段对应于一种语言;
将非主语言片段翻译为主语言,得到所述非主语言片段对应的翻译片段;
将主语言片段和所述翻译片段进行组合,以得到所述待识别文本所对应的采用主语言编写的中间文本,
其中,所述主语言片段为所述多个片段中采用主语言编写的片段,所述非主语言片段为所述多个片段中非采用主语言编写的片段。


6.如权利要求5所述的方法...

【专利技术属性】
技术研发人员:康杨杨高喆周笑添孙常龙刘晓钟司罗
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1