变体文本转译方法、处理设备及计算机可读存储介质技术

技术编号:38874326 阅读:25 留言:0更新日期:2023-09-22 14:08
本发明专利技术公开了变体文本转译方法、处理设备及计算机可读存储介质,该方法包括:获取组成待译文本的每一的拼音集合,所述拼音集合包括所述组成汉字对应的第一拼音以及所述组成汉字的形近字对应的第二拼音;根据所述组成汉字的拼音集合,确定所述待译文本对应的拼音集合序列;将所述拼音集合序列作为预先训练的网络模型的输入参数,通过所述网络模型确定所述拼音集合序列对应的目标文本,并将所述目标文本作为所述待译文本的译文文本。达到了提取将变体文本转译为便于识别的文本的效果。体文本转译为便于识别的文本的效果。体文本转译为便于识别的文本的效果。

【技术实现步骤摘要】
变体文本转译方法、处理设备及计算机可读存储介质


[0001]本专利技术涉及文本处理领域,尤其涉及变体文本转译方法、处理设备及计算机可读存储介质。

技术介绍

[0002]随着通信技术的发展,不法分子经常通过向用户发送垃圾短信,来传播违法链接或者违法信息。为了净化网络,网络运营商和网络监管部门需要能在海量的短信中,识别出垃圾短信,并对垃圾短信进行屏蔽。
[0003]在相关技术中,为了能识别出变体垃圾短信,需要不断地扩展用于识别垃圾短信的关键词库。尽可能全地将关键词变体加入到关键词库,然后进行精确匹配,若命中关键词则识别为变体垃圾短消息。但是由于在现实情况中,很难获取全部关键词变体,导致许多变体垃圾短信无法被识别。
[0004]需要说明的是,上述内容仅用于辅助理解本专利技术所解决的技术问题,并不代表承认上述内容是现有技术。

技术实现思路

[0005]本申请实施例通过提供一种变体文本转译方法、处理设备及计算机可读存储介质,解决了相关技术中,变体文本无法被有效识别的技术问题,实现了将变体文本转译为可被识别的文本的效果。...

【技术保护点】

【技术特征摘要】
1.一种变体文本转译方法,其特征在于,所述变体文本转译方法包括以下步骤:获取组成待译文本的每一的拼音集合,所述拼音集合包括所述组成汉字对应的第一拼音以及所述组成汉字的形近字对应的第二拼音;根据所述组成汉字的拼音集合,确定所述待译文本对应的拼音集合序列;将所述拼音集合序列作为预先训练的网络模型的输入参数,通过所述网络模型确定所述拼音集合序列对应的目标文本,并将所述目标文本作为所述待译文本的译文文本。2.如权利要求1所述的变体文本转译方法,其特征在于,所述将所述拼音集合序列作为预先训练的网络模型的输入参数,通过所述网络模型确定所述拼音集合序列对应的目标文本,并将所述目标文本作为所述待译文本的译文文本的步骤之后,还包括:当预设的垃圾信息关键词库中,存在与所述译文文本匹配的关键词时,判定所述待译文本对应的通信消息为垃圾消息。3.如权利要求1

2中任一项所述的变体文本转译方法,其特征在于,所述获取组成待译文本的每一组成汉字的拼音集合的步骤之前,还包括:获取待审核的通信消息;将所述待审核的通信消息对应的消息文本作为所述待译文本;当预设的垃圾信息关键词库中,存在与所述待译文本匹配的关键词时,判定所述待审核的通信消息为垃圾消息;当预设的垃圾信息关键词库中,不存在与所述待译文本匹配的关键词时,执行所述获取组成待译文本的每一组成汉字的拼音集合的步骤。4.如权利要求1所述的变体文本转译方法,其特征在于,所述将所述拼音集合序列作为预先训练的网络模型的输入参数,通过所述网络模型确定所述拼音集合序列对应的目标文本,并将所述目标文本作为所述待译文本的译文文本的步骤之前,还包括:当所述拼音集合序列中,存在元素数小于预设值的目标拼音集合时,在所述拼音集合序列的所述目标拼音集合中增加空元素,以使所述拼音集合序列中的每一拼音集合的元素数均等于所述预设值。5.如权利要求1所述的变体文本转译方法,其特征在于,所述网络模型包括...

【专利技术属性】
技术研发人员:张晨杜雪涛叶剑飞戴晶杜刚周宇飞张皎邵妍王红雨朱艳云
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1