一种多语言垃圾文本的识别方法、装置和计算设备制造方法及图纸

技术编号：23605276 阅读：10 留言：0更新日期：2020-03-28 06:13

本发明专利技术公开了一种多语言垃圾文本的识别方法，包括：获取待识别文本，待识别文本包括至少两种语言；将待识别文本转化为采用主语言编写的中间文本，主语言为上述至少两种语言中的一种；根据中间文本，采用预设的分类模型来判断待识别文本是否为垃圾文本。本发明专利技术一并公开了相应的多语言垃圾文本的识别装置以及计算设备。

A recognition method, device and computing device of multilingual garbage text

全部详细技术资料下载

【技术实现步骤摘要】
一种多语言垃圾文本的识别方法、装置和计算设备
本专利技术涉及自然语言处理
，尤其涉及一种多语言垃圾文本的识别方法、装置和计算设备。
技术介绍
某些人由于利益驱使或为了发泄不良情绪，会在短信、即时通讯、游戏等平台发布包含辱骂、色情、反动政治等敏感词的垃圾文本。各平台通常会对其上发布的文本内容进行检查(例如通过敏感词匹配等方法)，以识别出垃圾文本并对其进行屏蔽。为了避免被识别以及被屏蔽，这些垃圾文本常常采用多语言混合的方式来干扰平台对于文本内容的检查。针对多语言垃圾文本的识别，一种可能的方法是，人工标注多条多语言垃圾文本作为训练样本，训练分类模型，然后用训练好的分类模型来判断一个文本是否为垃圾文本。但是，多语言垃圾文本的训练样本数量较少、难以获取，导致分类模型对于垃圾文本的判断不够准确，泛化能力较差。因此，需要一种更有效的多语言垃圾文本的识别方法。
技术实现思路
为此，本专利技术提供一种多语言垃圾文本的识别方法、装置和计算设备，以力图解决或至少缓解上面存在的问题。根据本专利技术的一个方面，提供一种多语言垃圾文本的识别方法，包括：获取待识别文本，待识别文本包括至少两种语言；将待识别文本转化为采用主语言编写的中间文本，主语言为上述至少两种语言中的一种；根据中间文本，采用预设的分类模型来判断待识别文本是否为垃圾文本。根据本专利技术的一个方面，提供一种多语言垃圾文本的识别装置，包括：获取模块，适于获取待识别文本，待识别文本包括至少两种语言；转化模块，适于将待识别文本转化为...

【技术保护点】
1.一种多语言垃圾文本的识别方法，包括：/n获取待识别文本，所述待识别文本包括至少两种语言；/n将所述待识别文本转化为采用主语言编写的中间文本，所述主语言为所述至少两种语言中的一种；/n根据所述中间文本，采用预设的分类模型来判断所述待识别文本是否为垃圾文本。/n

【技术特征摘要】
1.一种多语言垃圾文本的识别方法，包括：
获取待识别文本，所述待识别文本包括至少两种语言；
将所述待识别文本转化为采用主语言编写的中间文本，所述主语言为所述至少两种语言中的一种；
根据所述中间文本，采用预设的分类模型来判断所述待识别文本是否为垃圾文本。

2.如权利要求1所述的方法，其中，所述分类模型包括第一分类模型和第二分类模型，所述第一分类模型、第二分类模型分别用于确定第一语言的文本、第二语言的文本为垃圾文本的概率；
所述根据所述中间文本，采用预设的分类模型来判断所述待识别文本是否为垃圾文本的步骤包括：
确定所述中间文本对应的第一语言的第一文本和第二语言的第二文本；
将所述第一文本、第二文本分别输入所述第一分类模型和第二分类模型，以分别输出所述第一文本、第二文本为垃圾文本的第一概率、第二概率；
当第一概率大于第一阈值且第二概率大于第二阈值时，或当第一概率与第二概率的加权求和结果大于第三阈值时，将所述待识别文本判定为垃圾文本。

3.如权利要求2所述的方法，其中，所述第一语言为所述主语言。

4.如权利要求2所述的方法，其中，所述第一分类模型采用已经标注了分类标签的第一语言的文本训练生成，所述第二分类模型采用已经标注了分类标签的第二语言的文本训练生成，其中，所述分类标签指示文本是否为垃圾文本。

5.如权利要求1-4中任一项所述的方法，其中，所述将所述待识别文本转化为采用主语言编写的中间文本的步骤包括：
将所述待识别文本切分为多个片段，每个片段对应于一种语言；
将非主语言片段翻译为主语言，得到所述非主语言片段对应的翻译片段；
将主语言片段和所述翻译片段进行组合，以得到所述待识别文本所对应的采用主语言编写的中间文本，
其中，所述主语言片段为所述多个片段中采用主语言编写的片段，所述非主语言片段为所述多个片段中非采用主语言编写的片段。

6.如权利要求5所述的方法...

【专利技术属性】
技术研发人员：康杨杨，高喆，周笑添，孙常龙，刘晓钟，司罗，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛;KY

全部详细技术资料下载我是这个专利的主人