融合多源数据的Telegram中文群组检索方法、装置及设备制造方法及图纸

技术编号:36690008 阅读:32 留言:0更新日期:2023-02-27 19:56
本发明专利技术公开了一种融合多源数据的Telegram中文群组检索方法、装置及设备,所述方法包括:对获取检索词,并对所述检索词进行Telegram中文群组检索,生成多源融合群组;分析多源融合群组对应的群聊记录集合,得到特征词集合;基于特征词集合筛选所述多源融合群组,得到符合特征群组;对符合特征群组进行关联联想,生成关联联想群组;基于所述多源融合群组与符合特征群组集合,得到Telegram中文群组检索结果。本发明专利技术着重于解决Telegram中文群组检索困难。组检索困难。组检索困难。

【技术实现步骤摘要】
融合多源数据的Telegram中文群组检索方法、装置及设备


[0001]本专利技术涉及信息检索
,特别涉及一种融合多源数据的Telegram中文群组检索方法、装置及设备。

技术介绍

[0002]Telegram是一款在国际范围有着巨大用户量的即时通讯软件,用户可以根据自己的兴趣爱好创建或加入不同的群组,其中,公开群组的聊天信息可被任意用户查看,而无需加入。但是,由于该软件宽松的监管,其中包含着大量涉及违法犯罪的群组,仍然在该软件上进行违法活动。如何准确的定位群组,并及时的掌握违法犯罪信息,对于制止犯罪、打击犯罪有着重要的意义。然而,Telegram官方只提供了英文检索功能,特定主题词相关的中文群组,仍然难以有效的检索。有的开发者通过给Telegram机器人积累群组与标题知识,利用关键词去与知识库中的群组标题匹配,从而实现中文群组检索功能。这种方法虽然可以实现中文检索功能,但这种做法存在几个缺点:
[0003]1)这类方法需要机器人事先遍历大量的群组,积累广泛的知识库;
[0004]2)Telegram群组标题允许随意更改,本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种融合多源数据的Telegram中文群组检索方法,其特征在于,所述方法包括:获取检索词,并对所述检索词进行Telegram中文群组检索,生成多源融合群组;分析所述多源融合群组对应的群聊记录集合,得到特征词集合,并基于所述特征词集合筛选所述多源融合群组,得到符合特征群组V0;基于符合特征群组V
t
‑1对应的群聊记录集合中的分享群组,得到关联群组R
t
‑1;其中,t表示迭代轮数;对所述关联群组R
t
‑1中的每一Telegram中文群组进行联想搜索,生成关联联想群组L
t
‑1;基于所述特征词筛选所述关联群组R
t
‑1与所述关联联想群组L
t
‑1,得到符合特征群组V
t
;在所述符合特征群组V
t
不为空集的情况下,令t=t+1,并返回至所述对所述关联群组R
t
‑1中每一Telegram中文群组的进行联想搜索,生成关联联想群组L
t
‑1;在所述符合特征群组V
t
为空集的情况下,基于所述多源融合群组与符合特征群组集合V,得到Telegram中文群组检索结果;其中,V={V0,

,V
t
‑1}。2.如权利要求1所述的方法,其特征在于,所述对所述检索词进行Telegram中文群组检索,生成多源融合群组,包括:利用多种数据源对检索词进行Telegram中文群组检索,得到多源数据检索群组;基于Telegram所提供的英文群组检索接口,对所述检索词的拼音以及与检索词拼音近似的拼音进行Telegram中文群组搜索,得到检索词联想群组;合并所述多源数据检索群组与检索词联想群组,并进行去重,以得到多源融合群组。3.如权利要求2所述的方法,其特征在于,所述多种数据源包括:谷歌数据源、推特数据源和其他第三方Telegram群组信息检索服务数据源。4.如权利要求3所述的方法,其特征在于,所述利用多种数据源对检索词进行Telegram中文群组检索,得到多源数据检索群组,包括:采用自定义搜索模式定向检索telegram.org范围内的所述检索词,得到谷歌数据源对应的检索结果;利用爬虫技术对推特数据定向搜索检索词,并筛选其中包含telegram群组字段的数据,得到推特数据源对应的检索结果;通过所述其他第三方Telegram检索服务中Telegram robot账户的问答式服务,搜索所述检索词,得到其他第三方Telegram群组信息检索服务数据源对应的检索结果;合并所述谷歌数据源对应的检索结果、所述推特数据源对应的检索结果、以及所述其他第三方Telegram群组信息检索服务数据源对应的检索结果,并进行去重,以得到多源数据检索群组。5.如权利要求2所述的方法,其特征在于,所述基于Telegram所提供的英文群组检索接口,对所述检索词的拼音以及与检索词拼音近似的拼音进行Telegram中文群组搜索,得到检索词联想群组;计算所述检索词的拼音;生成与检索词拼音近似的拼音;基于Telegram所提供的英文群组检索接口,并使用所述检索词的拼音、所述与检索词拼音近似的拼音对群组username进行检索,得到第一联想检索结果;
基于Telegram所提供的英文群组检索接口,并使用所述检索词的拼音对群组title进行检索,得到第二联想检索结果;合并所述第一联想检索结果与第二联想检索结果,并进行去...

【专利技术属性】
技术研发人员:井雅琪郭孟汗佟玲玲段东圣段运强任博雅刘晨侯炜赵万鹏刘生辉
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1