System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本公开涉及数据处理,具体地,涉及一种消息还原方法、装置、电子设备和存储介质。
技术介绍
1、随着信息技术的发展,短信、5g消息、社交app(application,即应用程序)、短视频app等在人们日常生活中变的不可缺少,人们每天均会收到大量的通知短信、商家促销短信,也会在社交app、短视频app中看到大量的评论信息。这些文本信息在丰富人们生活的同时,也会携带大量违法违规的网址链接,这些网址链接会误导用户。因此,如何更好的对这些消息进行识别及还原是亟待解决的技术问题。
技术实现思路
1、为了克服相关技术中存在的问题,本公开提供一种消息还原方法、装置、电子设备和存储介质。
2、根据本公开实施例的第一方面,提供一种消息还原方法,所述方法包括:
3、获取待还原文本内容,所述待还原文本内容包括网址变体内容,所述网址变体内容是对原文本内容中的原始字符进行变体得到;
4、将所述待还原文本内容输入给网址还原模型,得到目标内容,所述网址还原模型用于根据所述网址变体内容中的变体字符的读音特征和/或形体特征目标特征对所述变体字符进行还原,所述目标特征包括读音特征、形体特征和语言描述特征中的至少一个;
5、对所述目标内容进行访问校验,并在所述访问校验成功后,确定所述目标内容还原成功。
6、可选地,所述将所述待还原文本内容输入给网址还原模型,得到目标内容,包括:
7、确定所述待还原文本内容包括的形近变体字符;
8、根据所述
9、可选地,所述根据所述网址还原模型包括的形近变体还原模型对所述形近变体字符进行还原,得到所述目标内容,包括:
10、获取每个所述形近变体字符的连通区域,得到多个连通区域;
11、针对每个所述连通区域执行特征提取操作,得到目标特征;
12、基于所述目标特征执行归一化操作,得到所述目标内容。
13、可选地,所述针对每个所述连通区域执行特征提取操作,得到目标特征,包括:
14、提取每个所述连通区域的低阶形状特征、高阶形状特征和高维语义特征;
15、将所述低阶形状特征、所述高阶形状特征和所述高维语义特征进行拼接,得到所述目标特征。
16、可选地,所述将所述待还原文本内容输入给网址还原模型,得到目标内容,包括:
17、确定所述待还原文本内容包括的语言描述变体字符;
18、根据所述网址还原模型包括的语言描述变体模型对所述语言描述变体字符进行还原,得到所述目标内容,所述语言描述变体字符是通过对所述原始字符进行语言描述得到。
19、可选地,所述将所述待还原文本内容输入给网址还原模型,得到目标内容,包括:
20、根据所述网址还原模型包括的音近变体还原模型对所述待还原文本内容中的音近变体字符进行还原,得到所述目标内容,所述音近变体字符与所述原始字符的发音相同,所述音近变体还原模型的结构为transformer结构,所述transformer结构包括n元模型n-gram模型。
21、可选地,所述形近变体字符包括以下至少一种:
22、不同语种的相似字符;
23、添加干扰字符形成的组合字符;
24、圈型字符;
25、表情字符。
26、可选地,所述对所述目标内容进行访问校验,包括:
27、根据过滤词表对所述目标内容中的干扰字符进行过滤,并对过滤后的所述目标内容进行访问校验,所述干扰字符包括不符合网址编码规范的特殊字符。
28、可选地,所述获取待还原文本内容,包括:
29、获取含有变体字符的所述网址变体内容;
30、对所述网址变体内容进行繁简字转换,和/或,进行全半角转换,得到所述待还原文本内容。
31、根据本公开实施例的第二方面,提供一种消息还原装置,所述装置包括:
32、获取模块,被配置为获取待还原文本内容,所述待还原文本内容包括网址变体内容,所述网址变体内容是对原文本内容中的原始字符进行变体得到;
33、还原模块,被配置为将所述待还原文本内容输入给网址还原模型,得到目标内容,所述网址还原模型用于根据所述网址变体内容中的变体字符的读音特征和/或形体特征目标特征对所述变体字符进行还原,所述目标特征包括读音特征、形体特征和语言描述特征中的至少一个;
34、校验模块,被配置为对所述目标内容进行访问校验,并在所述访问校验成功后,确定所述目标内容还原成功
35、根据本公开实施例的第三方面,提供一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面所提供的所述消息还原方法的步骤。
36、根据本公开实施例的第四方面,提供一种电子设备,该电子设备包括:
37、存储器,其上存储有计算机程序;
38、处理器,用于执行所述存储器中的所述计算机程序,以实现第一方面所提供的所述消息还原方法的步骤。
39、本公开通过利用网址还原模型对待还原文本内容进行还原能够提高文本内容还原的准确性。具体的,获取待还原文本内容,其中,待还原文本内容包括网址变体内容,该网址变体内容是对原文本内容中的原始字符进行变体得到,在此基础上,将待还原文本内容输入给网址还原模型,得到目标内容,这里,网址还原模型用于根据网址变体内容中的变体字符的目标特征对变体字符进行还原,该目标特征包括读音特征、形体特征和语言描述特征中的至少一个,之后对目标内容进行访问校验,并在访问校验成功后,确定目标内容还原成功,如此可以保证目标内容还原的准确性,进而可以更准确的实现对消息的识别。
40、本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
本文档来自技高网...【技术保护点】
1.一种消息还原方法,其特征在于,所述方法包括:
2.根据权利要求1所述的消息还原方法,其特征在于,所述将所述待还原文本内容输入给网址还原模型,得到目标内容,包括:
3.根据权利要求2所述的消息还原方法,其特征在于,所述根据所述网址还原模型包括的形近变体还原模型对所述形近变体字符进行还原,得到所述目标内容,包括:
4.根据权利要求3所述的消息还原方法,其特征在于,所述针对每个所述连通区域执行特征提取操作,得到目标特征,包括:
5.根据权利要求1所述的消息还原方法,其特征在于,所述将所述待还原文本内容输入给网址还原模型,得到目标内容,包括:
6.根据权利要求1所述的消息还原方法,其特征在于,所述将所述待还原文本内容输入给网址还原模型,得到目标内容,包括:
7.根据权利要求2至6任一所述的消息还原方法,其特征在于,所述形近变体字符包括以下至少一种:
8.根据权利要求1至6任一所述的消息还原方法,其特征在于,所述对所述目标内容进行访问校验,包括:
9.根据权利要求1至6任一所述的消息还原方法
10.一种消息还原装置,其特征在于,所述装置包括:
11.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-9中任一项所述方法的步骤。
12.一种电子设备,其特征在于,包括:
...【技术特征摘要】
1.一种消息还原方法,其特征在于,所述方法包括:
2.根据权利要求1所述的消息还原方法,其特征在于,所述将所述待还原文本内容输入给网址还原模型,得到目标内容,包括:
3.根据权利要求2所述的消息还原方法,其特征在于,所述根据所述网址还原模型包括的形近变体还原模型对所述形近变体字符进行还原,得到所述目标内容,包括:
4.根据权利要求3所述的消息还原方法,其特征在于,所述针对每个所述连通区域执行特征提取操作,得到目标特征,包括:
5.根据权利要求1所述的消息还原方法,其特征在于,所述将所述待还原文本内容输入给网址还原模型,得到目标内容,包括:
6.根据权利要求1所述的消息还原方法,其特征在...
【专利技术属性】
技术研发人员:高先林,金辉,陈戈,李凡,吴晓姝,
申请(专利权)人:东软集团股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。