【技术实现步骤摘要】
一种识别关联文本的方法、装置、电子设备及存储介质
本申请涉及互联网
,尤其涉及一种识别关联文本的方法、装置、电子设备及存储介质。
技术介绍
随着移动互联网的发展,以虚假注册、违法推广、网络诈骗为代表的互联网不法产业已呈现产业化发展态势,对互联网安全造成了极大威胁。目前,主要通过正常用户举报或者是通过监控不法产业团伙的资金往来识别不法产业团伙,但通过正常用户举报只能针对不法产业团伙中的单个账户,而不能识别不法产业团伙,以及,不法产业团伙之间可能会回避资金往来,从而通过监控资金往来也不能保证识别到的不法产业团伙就是真正的不法产业团伙。也即,现有不法产业团伙识别方式不能很好的满足业务监控需求。
技术实现思路
本申请所要解决的技术问题在于,提供一种识别关联文本的方法、装置、电子设备及存储介质,以解决现有技术中不法产业团伙识别方式不能满足业务监控需求的问题。为了解决上述技术问题,一方面,本申请提供了一种识别关联文本的方法,所述方法包括:确定第一目标文本和第二目标文本;获取所述第一目标文本和所述第二目标文本的文字文本相似度,所述文字文本相似度基于第一文字文本和第二文字文本的距离确定,所述第一文字文本基于提取的所述第一目标文本中的文字字符形成,所述第二文字文本基于提取的所述第二目标文本中的文字字符形成;识别所述第一目标文本中每个字符所属的字符类型,根据识别结果和预设字符类型替换关系生成第一结构化文本;以及识别所述第二目标文本中每个字符所属的字符类型,根据识别结果和预设字符类型替换关系生成第 ...
【技术保护点】
1.一种识别关联文本的方法,其特征在于,所述方法包括:/n确定第一目标文本和第二目标文本;/n获取所述第一目标文本和所述第二目标文本的文字文本相似度,所述文字文本相似度基于第一文字文本和第二文字文本的距离确定,所述第一文字文本基于提取的所述第一目标文本中的文字字符形成,所述第二文字文本基于提取的所述第二目标文本中的文字字符形成;/n识别所述第一目标文本中每个字符所属的字符类型,根据识别结果和预设字符类型替换关系生成第一结构化文本;以及识别所述第二目标文本中每个字符所属的字符类型,根据识别结果和预设字符类型替换关系生成第二结构化文本;/n基于所述第一结构化文本和所述第二结构化文本,确定所述第一目标文本和所述第二目标文本的文本结构相似度;/n根据所述文字文本相似度和所述文本结构相似度,确定所述第一目标文本和所述第二目标文本的关联关系。/n
【技术特征摘要】
1.一种识别关联文本的方法,其特征在于,所述方法包括:
确定第一目标文本和第二目标文本;
获取所述第一目标文本和所述第二目标文本的文字文本相似度,所述文字文本相似度基于第一文字文本和第二文字文本的距离确定,所述第一文字文本基于提取的所述第一目标文本中的文字字符形成,所述第二文字文本基于提取的所述第二目标文本中的文字字符形成;
识别所述第一目标文本中每个字符所属的字符类型,根据识别结果和预设字符类型替换关系生成第一结构化文本;以及识别所述第二目标文本中每个字符所属的字符类型,根据识别结果和预设字符类型替换关系生成第二结构化文本;
基于所述第一结构化文本和所述第二结构化文本,确定所述第一目标文本和所述第二目标文本的文本结构相似度;
根据所述文字文本相似度和所述文本结构相似度,确定所述第一目标文本和所述第二目标文本的关联关系。
2.根据权利要求1所述的方法,其特征在于,所述根据识别结果和预设字符类型替换关系生成第一结构化文本;以及根据识别结果和预设字符类型替换关系生成第二结构化文本包括:
按照字符类型对所述第一目标文本进行切割,得到至少一个字符串序列,以使得同一个字符串中的字符具备相同的字符类型,并且相邻字符串中的字符具备不同的字符类型;
基于所述字符串的字符类型和预设字符类型替换关系确定与其唯一对应的替换标识;
将所述字符串替换成与其唯一对应的替换标识,并对替换后的所述替换标识进行拼接,生成所述第一结构化文本;
基于同样的生成方式生成所述第二结构化文本。
3.根据权利要求1所述的方法,其特征在于,所述确定第一目标文本和第二目标文本包括:
获取目标文本集,所述目标文本集中至少两个初始文本;
对所述目标文本集中的所述初始文本进行两两组合,得到至少一个初始文本对;
提取所述初始文本对中各个所述初始文本中的文字字符,形成与所述初始文本一一对应的文字文本;
基于所述初始文本对中两个所述初始文本的文字文本的距离,确定所述初始文本对中两个所述初始文本的文字文本相似度;
基于文字文本相似度大于等于预设文本相似度的所述初始文本对所涉及的所述初始文本,确定所述第一目标文本和所述第二目标文本。
4.根据权利要求3所述的方法,其特征在于,在所述对所述目标文本集中的所述初始文本进行两两组合,得到至少一个初始文本对的步骤之前,所述方法还包括:
按照预设切割方式,对所述目标文本集中各个所述初始文本的文字文本分别进行切割,得到与各个所述初始文本一一对应的切割词集合;
根据各个所述切割词集合中相同切割词的数量,对所述目标文本集中的所述初始文本进行聚类,得到目标聚类类别;
所述对所述目标文本集中的所述初始文本进行两两组合,得到至少一个初始文本对包括:
对所述目标文本集中属于所述目标聚类类别的所述初始文本进行两两组合,得到至少一个初始文本对。
5.根据权利要求4所述的方法,其特征在于,所述基于文字文本相似度大于等于预设文本相似度的所述初始文本对所涉及的所述初始文本,确定所述第一目标文本和所述第二目标文本包括:
将文字文本相似度大于等于预设文本相...
【专利技术属性】
技术研发人员:罗韵,吴鸣,章文瑶,洪伟俊,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。