一种文本还原方法、装置及电子设备制造方法及图纸

技术编号:20820186 阅读:32 留言:0更新日期:2019-04-10 06:00
本申请实施例涉及一种文本还原方法、装置及电子设备。文本还原方法包括:获取目标文本;对所述目标文本进行分词处理,得到所述目标文本分词后的分词文本,所述分词文本包含无法组成分词的字符;基于拆字样本集,对所述分词文本中无法组成分词的字符进行匹配,得到至少一种匹配后分词文本;将所述至少一组匹配后分词文本输入预设语言模型,得到所述至少一组匹配后分词文本的置信度;基于所述至少一组匹配后分词文本的置信度,从所述至少一种匹配后分词文本中选取出所述目标文本的还原文本。

【技术实现步骤摘要】
一种文本还原方法、装置及电子设备
本申请实施例涉及网络安全
,尤其涉及一种文本还原方法、装置及电子设备。
技术介绍
随着互联网的兴起,信息传递的便捷性使得互联网信息量成几何级增长。用户常常会收到互联网灰黑产发送的垃圾信息,比如推销信息、诈骗信息、非法宣传信息等。对于这些垃圾信息,一般可以通过网络平台进行拦截。然而,目前灰黑产为了绕过平台的各种防控手段,会以拆字表达的方式传播垃圾信息。比如正常内容是“我是闪电借款,可以强开借呗5000-10000w”,通过拆字方式表达为“我是闪电亻昔款,可以弓虽开亻昔呗5000-10000w”。有鉴于此,为了提高网络平台针对垃圾信息的识别能力,如何将拆字表达的变异文本还原回正常文本,是本申请所要解决的技术问题。
技术实现思路
本申请实施例目的是提供一种文本还原方法、装置及电子设备,能够将拆字表达的变异文本还原回正常文本。为了实现上述目的,本申请实施例是这样实现的:第一方面,提供一种文本还原方法,包括:获取目标文本;对所述目标文本进行分词处理,得到所述目标文本分词后的分词文本,所述分词文本包含无法组成分词的字符;基于拆字样本集,对所述分词文本中无法组成分词的字符进行匹配,得到至少一种匹配后分词文本;将所述至少一组匹配后分词文本输入预设语言模型,得到所述至少一组匹配后分词文本的置信度;基于所述至少一组匹配后分词文本的置信度,从所述至少一种匹配后分词文本中选取出所述目标文本的还原文本。第二方面,提供了一种文本还原装置,包括:获取模块,获取目标文本;分词模块,对所述目标文本进行分词处理,得到所述目标文本分词后的分词文本,所述分词文本包含无法组成分词的字符;匹配模块,基于拆字样本集,对所述分词文本中无法组成分词的字符进行匹配,得到至少一种匹配后分词文本;评估模块,将所述至少一组匹配后分词文本输入预设语言模型,得到所述至少一组匹配后分词文本的置信度;选取模块,基于所述至少一组匹配后分词文本的置信度,从所述至少一种匹配后分词文本中选取出所述目标文本的还原文本。第三方面,提供了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行:获取目标文本;对所述目标文本进行分词处理,得到所述目标文本分词后的分词文本,所述分词文本包含无法组成分词的字符;基于拆字样本集,对所述分词文本中无法组成分词的字符进行匹配,得到至少一种匹配后分词文本;将所述至少一组匹配后分词文本输入预设语言模型,得到所述至少一组匹配后分词文本的置信度;基于所述至少一组匹配后分词文本的置信度,从所述至少一种匹配后分词文本中选取出所述目标文本的还原文本。第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如下步骤:获取目标文本;对所述目标文本进行分词处理,得到所述目标文本分词后的分词文本,所述分词文本包含无法组成分词的字符;基于拆字样本集,对所述分词文本中无法组成分词的字符进行匹配,得到至少一种匹配后分词文本;将所述至少一组匹配后分词文本输入预设语言模型,得到所述至少一组匹配后分词文本的置信度;基于所述至少一组匹配后分词文本的置信度,从所述至少一种匹配后分词文本中选取出所述目标文本的还原文本。由以上本申请实施例提供的技术方案可见,本申请实施例首先对目标文本进行分词处理,确定出无法组成分词的字符,这些无法组成分词的字符作为拆字匹配的对象进行匹配还原,得到至少一种匹配后分词文本。之后,通过预设语言模型对至少一种匹配后分词文本进行置信度的评估,并基于置信度择优筛选出最优的匹配后分词文本作为目标文本的还原文本。本申请实施例的方案能够有效将拆字表达的变异文本还原成正常文本,可提高网络平台对垃圾信息的识别能力。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例提供的文本还原方法的步骤示意图;图2为本申请实施例提供的文本还原方法在实际应用中的流程示意图;图3为本申请实施例提供的电子设备的硬件结构示意图;图4为本申请实施例提供的文本还原装置的逻辑结构示意图。具体实施方式为了使本
的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。如前所述,目前灰黑产会发送拆字方式表达的垃圾信息,以绕过网络平台的监管。有鉴于此,本申请旨在提供一种能够将拆字表达的变异文本还原回正常文本的技术方案,可提高网络平台对垃圾信息的识别能力。图1是本申请的一个实施例文本还原方法的流程图。图1的文本还原方法可由文本还原装置执行。该方法包括:步骤S102,获取目标文本。针对步骤S102而言:本申请实施例并不对目标文本的来源作具体限定。作为示例性介绍,目标文本可以是从网络社交平台中获取到的用户发送的文本信息。比如,可以从网络购物平台中获取用户发送的评价信息、聊天信息等。应理解,但凡是网络平台需要监管的信息对象,都可以作为目标文本。步骤S104,对目标文本进行分词处理,得到目标文本分词后的分词文本,分词文本包含无法组成分词的字符。针对步骤S104而言:本实施例可以使用现有任意分词方法,对目标文本进行分词处理,从而确定出目标文本中无法组成分词的字符。作为示例性介绍,确定出的无法组成分词的字符可以包括:汉字、汉字的偏旁、汉字的字根中任意一者,这些无法组成分词的字符较高概率是以拆字方式表达的,是后续进行拆字识别的重点对象。步骤S106,基于拆字样本集,对分词文本中无法组成分词的字符进行匹配,得到至少一种匹配后分词文本。针对步骤S106而言:拆字样本集包括预先设置的拆字表达形式。比如,“花口贝”对应“花呗”、“借口贝”对应“借呗”、“亻昔款”对应“借款”、“亻昔钱”对应“借钱”等针对某些词语的拆字表达形式,也可以是“亻昔”对应借、“口贝”对应“呗”等针对某一汉字的拆字表达形式。本步骤中,通过拆字样本集,可以对分词文本中无法组成分词的字符进行拆字匹配,还原回正常表达的信息。具体地,可以对分词文本中行方向相邻的无法组成分词的字符进行匹配。比如,分词文本为“六合采彡月贝兼百万¥”,拆字样本集记录“采彡”对应为“彩”,“贝兼”对应为“赚”。可以知道的“采”、“彡”、“月”、“贝”、“兼”“¥”是分词文本中无法确定为分子的字符,则基于拆字样本集对上述相邻的“采”、“彡”、“月”、“贝”“、兼”进行匹配,得到的匹配后分子文本为:“六合彩月赚百万”。同理,也可以对分词文本中列方向相邻的无法组成分词的字符进行匹配;比如,分词文本为:“加手机号xx,可低自套现心”;则可以基于拆字样本集,对列方向相邻的“自”、“心”进行匹配,确定到的匹配后分子文本为:“加手机号xx,可低息套现本文档来自技高网
...

【技术保护点】
1.一种文本还原方法,包括:获取目标文本;对所述目标文本进行分词处理,得到所述目标文本分词后的分词文本,所述分词文本包含无法组成分词的字符;基于拆字样本集,对所述分词文本中无法组成分词的字符进行匹配,得到至少一种匹配后分词文本;将所述至少一组匹配后分词文本输入预设语言模型,得到所述至少一组匹配后分词文本的置信度;基于所述至少一组匹配后分词文本的置信度,从所述至少一种匹配后分词文本中选取出所述目标文本的还原文本。

【技术特征摘要】
1.一种文本还原方法,包括:获取目标文本;对所述目标文本进行分词处理,得到所述目标文本分词后的分词文本,所述分词文本包含无法组成分词的字符;基于拆字样本集,对所述分词文本中无法组成分词的字符进行匹配,得到至少一种匹配后分词文本;将所述至少一组匹配后分词文本输入预设语言模型,得到所述至少一组匹配后分词文本的置信度;基于所述至少一组匹配后分词文本的置信度,从所述至少一种匹配后分词文本中选取出所述目标文本的还原文本。2.根据权利要求1所述的文本还原方法,基于拆字样本资源,对所述分词文本中无法组成分词的字符进行匹配,包括:基于拆字样本资源,对所述分词文本中行方向相邻的无法组成分词的字符进行匹配。3.根据权利要求1所述的文本还原方法,基于拆字样本资源,对所述分词文本中无法组成分词的字符进行匹配,包括:基于拆字样本资源,对所述分词文本中列方向相邻的无法组成分词的字符进行匹配。4.根据权利要求1所述的文本还原方法,基于所述至少一组匹配后分词文本的置信度,从所述至少一种匹配后分词文本中选取出所述目标文本的还原文本,包括:从所述至少一种匹配后分词文本中选取置信度最高的一者作为所述目标文本的还原文本。5.根据权利要求1所述的文本还原方法,所述分词文本中无法组成分词的字符包括:汉字、汉字的偏旁、汉字的字根中任意一者。6.根据权利要求1所述的文本还原方法,所述预设语言模型基于垃圾信息样本集训练得到。7.根据权利要求1所述的文本还原方法,获取目标文本,包括:从网络社交平台中,获取用户发送的目标文本。8.一种文本还原装置,包括:获取模块,获取目标文本;分词模块,对所述目标文本进行分词处理,...

【专利技术属性】
技术研发人员:周书恒刘金星祝慧佳赵智源郭亚
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1