一种识别关联文本的方法、装置、电子设备及存储介质制造方法及图纸

技术编号:28674761 阅读:25 留言:0更新日期:2021-06-02 02:51
本申请涉及一种识别关联文本的方法及装置,属于自然语言处理技术中的文本处理,所述方法包括:确定第一目标文本和第二目标文本;获取所述第一目标文本和所述第二目标文本的文字文本相似度;识别所述第一目标文本中每个字符所属的字符类型,根据识别结果生成第一结构化文本;识别所述第二目标文本中每个字符所属的字符类型,根据识别结果生成第二结构化文本;基于所述第一结构化文本和所述第二结构化文本,确定所述第一目标文本和所述第二目标文本的文本结构相似度;根据所述文字文本相似度和所述文本结构相似度,确定所述第一目标文本和所述第二目标文本的关联关系。实施本申请,可以有效找出相互关联的目标文本。

【技术实现步骤摘要】
一种识别关联文本的方法、装置、电子设备及存储介质
本申请涉及互联网
,尤其涉及一种识别关联文本的方法、装置、电子设备及存储介质。
技术介绍
随着移动互联网的发展,以虚假注册、违法推广、网络诈骗为代表的互联网不法产业已呈现产业化发展态势,对互联网安全造成了极大威胁。目前,主要通过正常用户举报或者是通过监控不法产业团伙的资金往来识别不法产业团伙,但通过正常用户举报只能针对不法产业团伙中的单个账户,而不能识别不法产业团伙,以及,不法产业团伙之间可能会回避资金往来,从而通过监控资金往来也不能保证识别到的不法产业团伙就是真正的不法产业团伙。也即,现有不法产业团伙识别方式不能很好的满足业务监控需求。
技术实现思路
本申请所要解决的技术问题在于,提供一种识别关联文本的方法、装置、电子设备及存储介质,以解决现有技术中不法产业团伙识别方式不能满足业务监控需求的问题。为了解决上述技术问题,一方面,本申请提供了一种识别关联文本的方法,所述方法包括:确定第一目标文本和第二目标文本;获取所述第一目标文本和所述第二目标文本的文字文本相似度,所述文字文本相似度基于第一文字文本和第二文字文本的距离确定,所述第一文字文本基于提取的所述第一目标文本中的文字字符形成,所述第二文字文本基于提取的所述第二目标文本中的文字字符形成;识别所述第一目标文本中每个字符所属的字符类型,根据识别结果和预设字符类型替换关系生成第一结构化文本;以及识别所述第二目标文本中每个字符所属的字符类型,根据识别结果和预设字符类型替换关系生成第二结构化文本;基于所述第一结构化文本和所述第二结构化文本,确定所述第一目标文本和所述第二目标文本的文本结构相似度;根据所述文字文本相似度和所述文本结构相似度,确定所述第一目标文本和所述第二目标文本的关联关系。另一方面,本申请提供了一种识别关联文本的装置,所述装置包括:目标文本确定模块,用于确定第一目标文本和第二目标文本;文字文本相似度获取模块,用于获取所述第一目标文本和所述第二目标文本的文字文本相似度,所述文字文本相似度基于第一文字文本和第二文字文本的距离确定,所述第一文字文本基于提取的所述第一目标文本中的文字字符形成,所述第二文字文本基于提取的所述第二目标文本中的文字字符形成;结构化文本生成模块,用于识别所述第一目标文本中每个字符所属的字符类型,根据识别结果和预设字符类型替换关系生成第一结构化文本;以及识别所述第二目标文本中每个字符所属的字符类型,根据识别结果和预设字符类型替换关系生成第二结构化文本;文本结构相似度确定模块,用于基于所述第一结构化文本和所述第二结构化文本,确定所述第一目标文本和所述第二目标文本的文本结构相似度;关联关系确定模块,用于根据所述文字文本相似度和所述文本结构相似度,确定所述第一目标文本和所述第二目标文本的关联关系。另一方面,本申请提供了一种电子设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行如上述的方法。另一方面,本申请提供了一种计算机存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行如上述的方法。在本申请实施例中,通过确定第一目标文本和第二目标文本,识别所述第一目标文本中每个字符所属的字符类型,根据识别结果生成第一结构化文本,以及识别所述第二目标文本中每个字符所属的字符类型,根据识别结果生成第二结构化文本,基于所述第一结构化文本和所述第二结构化文本,确定所述第一目标文本和所述第二目标文本的文本结构相似度,根据获取的文字文本相似度和所述文本结构相似度,确定所述第一目标文本和所述第二目标文本的关联关系。如此,不仅考虑了两个目标文本的文字文本相似度,还考虑了两个目标文本的文本结构相似度,从而可以有效找出相互关联的目标文本,当应用到不法产业团伙挖掘中时,能够有效识别团伙中相互关联的昵称文本,从而便于更好的找到真正的不法产业团伙。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。图1是现有技术中SimHash算法的存储和查找示意图;图2是本申请实施例提供的一种识别关联文本的方法的流程图;图3是本申请实施例提供的一种识别关联文本的方法中确定第一目标文本和第二目标文本的方法的流程图;图4是本申请实施例提供的一种识别关联文本的方法中进行聚类的流程示意图;图5是本申请实施例提供的一种识别关联文本的方法中更新目标聚类类别的方法的流程图;图6是本申请实施例提供的一种识别关联文本的装置的结构示意图;图7是本申请实施例提供的一种识别关联文本的设备的结构示意图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。自然语言处理(NatureLanguageprocessing,NLP)是计算机科学领域与人工智能领域中的一个重要方本文档来自技高网...

【技术保护点】
1.一种识别关联文本的方法,其特征在于,所述方法包括:/n确定第一目标文本和第二目标文本;/n获取所述第一目标文本和所述第二目标文本的文字文本相似度,所述文字文本相似度基于第一文字文本和第二文字文本的距离确定,所述第一文字文本基于提取的所述第一目标文本中的文字字符形成,所述第二文字文本基于提取的所述第二目标文本中的文字字符形成;/n识别所述第一目标文本中每个字符所属的字符类型,根据识别结果和预设字符类型替换关系生成第一结构化文本;以及识别所述第二目标文本中每个字符所属的字符类型,根据识别结果和预设字符类型替换关系生成第二结构化文本;/n基于所述第一结构化文本和所述第二结构化文本,确定所述第一目标文本和所述第二目标文本的文本结构相似度;/n根据所述文字文本相似度和所述文本结构相似度,确定所述第一目标文本和所述第二目标文本的关联关系。/n

【技术特征摘要】
1.一种识别关联文本的方法,其特征在于,所述方法包括:
确定第一目标文本和第二目标文本;
获取所述第一目标文本和所述第二目标文本的文字文本相似度,所述文字文本相似度基于第一文字文本和第二文字文本的距离确定,所述第一文字文本基于提取的所述第一目标文本中的文字字符形成,所述第二文字文本基于提取的所述第二目标文本中的文字字符形成;
识别所述第一目标文本中每个字符所属的字符类型,根据识别结果和预设字符类型替换关系生成第一结构化文本;以及识别所述第二目标文本中每个字符所属的字符类型,根据识别结果和预设字符类型替换关系生成第二结构化文本;
基于所述第一结构化文本和所述第二结构化文本,确定所述第一目标文本和所述第二目标文本的文本结构相似度;
根据所述文字文本相似度和所述文本结构相似度,确定所述第一目标文本和所述第二目标文本的关联关系。


2.根据权利要求1所述的方法,其特征在于,所述根据识别结果和预设字符类型替换关系生成第一结构化文本;以及根据识别结果和预设字符类型替换关系生成第二结构化文本包括:
按照字符类型对所述第一目标文本进行切割,得到至少一个字符串序列,以使得同一个字符串中的字符具备相同的字符类型,并且相邻字符串中的字符具备不同的字符类型;
基于所述字符串的字符类型和预设字符类型替换关系确定与其唯一对应的替换标识;
将所述字符串替换成与其唯一对应的替换标识,并对替换后的所述替换标识进行拼接,生成所述第一结构化文本;
基于同样的生成方式生成所述第二结构化文本。


3.根据权利要求1所述的方法,其特征在于,所述确定第一目标文本和第二目标文本包括:
获取目标文本集,所述目标文本集中至少两个初始文本;
对所述目标文本集中的所述初始文本进行两两组合,得到至少一个初始文本对;
提取所述初始文本对中各个所述初始文本中的文字字符,形成与所述初始文本一一对应的文字文本;
基于所述初始文本对中两个所述初始文本的文字文本的距离,确定所述初始文本对中两个所述初始文本的文字文本相似度;
基于文字文本相似度大于等于预设文本相似度的所述初始文本对所涉及的所述初始文本,确定所述第一目标文本和所述第二目标文本。


4.根据权利要求3所述的方法,其特征在于,在所述对所述目标文本集中的所述初始文本进行两两组合,得到至少一个初始文本对的步骤之前,所述方法还包括:
按照预设切割方式,对所述目标文本集中各个所述初始文本的文字文本分别进行切割,得到与各个所述初始文本一一对应的切割词集合;
根据各个所述切割词集合中相同切割词的数量,对所述目标文本集中的所述初始文本进行聚类,得到目标聚类类别;
所述对所述目标文本集中的所述初始文本进行两两组合,得到至少一个初始文本对包括:
对所述目标文本集中属于所述目标聚类类别的所述初始文本进行两两组合,得到至少一个初始文本对。


5.根据权利要求4所述的方法,其特征在于,所述基于文字文本相似度大于等于预设文本相似度的所述初始文本对所涉及的所述初始文本,确定所述第一目标文本和所述第二目标文本包括:
将文字文本相似度大于等于预设文本相...

【专利技术属性】
技术研发人员:罗韵吴鸣章文瑶洪伟俊
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1