用于发送信息的方法和装置制造方法及图纸

技术编号:23514822 阅读:29 留言:0更新日期:2020-03-18 01:23
本申请实施例公开了用于发送信息的方法和装置。该方法的一具体实施方式包括:获取待测文本集合,其中,待测文本集合包括至少两个待测文本;从待测文本集合中选取待测文本,以及执行以下分组步骤:确定待测文本集合中是否存在与所选取的待测文本的文本关联度超过预设阈值的其他待测文本;响应于确定存在,基于与所选取的待测文本的文本关联度超过预设阈值的其他待测文本和所选取的待测文本,生成文本组;确定文本组中的待测文本个数;确定文本组中的待测文本个数是否大于或等于预设的阈值;响应于确定大于或等于预设的阈值,发送提示信息。该实施方式实现了对相似文本数量超过阈值的文本进行监测。

Methods and devices for transmitting information

【技术实现步骤摘要】
用于发送信息的方法和装置
本申请实施例涉及计算机
,具体涉及用于发送信息的方法和装置。
技术介绍
随着人工智能技术的飞速发展,确定文本之间的相似程度成为自然语言处理技术中必不可少的重要环节。文本相似度计算已经广泛应用于信息检索、数据挖掘、论文鉴定、机器翻译等领域。相关的技术主要通过文本向量化、计算向量之间的相似度或者距离是否达到阈值来判断文本之间是否相似。
技术实现思路
本申请实施例提出了用于发送信息的方法和装置。第一方面,本申请实施例提供了一种用于发送信息的方法,该方法包括:获取待测文本集合,其中,待测文本集合包括至少两个待测文本;从待测文本集合中选取待测文本,以及执行以下分组步骤:确定待测文本集合中是否存在与所选取的待测文本的文本关联度超过预设阈值的其他待测文本;响应于确定存在,基于与所选取的待测文本的文本关联度超过预设阈值的其他待测文本和所选取的待测文本,生成文本组;确定文本组中的待测文本个数;确定文本组中的待测文本个数是否大于或等于预设的阈值;响应于确定大于或等于预设的阈值,发送提示信息。在一些本文档来自技高网...

【技术保护点】
1.一种用于发送信息的方法,包括:/n获取待测文本集合,其中,所述待测文本集合包括至少两个待测文本;/n从所述待测文本集合中选取待测文本,以及执行以下分组步骤:确定所述待测文本集合中是否存在与所选取的待测文本的文本关联度超过预设阈值的其他待测文本;响应于确定存在,基于与所选取的待测文本的文本关联度超过预设阈值的其他待测文本和所选取的待测文本,生成文本组;确定文本组中的待测文本个数;确定文本组中的待测文本个数是否大于或等于预设的阈值;响应于确定大于或等于预设的阈值,发送提示信息。/n

【技术特征摘要】
1.一种用于发送信息的方法,包括:
获取待测文本集合,其中,所述待测文本集合包括至少两个待测文本;
从所述待测文本集合中选取待测文本,以及执行以下分组步骤:确定所述待测文本集合中是否存在与所选取的待测文本的文本关联度超过预设阈值的其他待测文本;响应于确定存在,基于与所选取的待测文本的文本关联度超过预设阈值的其他待测文本和所选取的待测文本,生成文本组;确定文本组中的待测文本个数;确定文本组中的待测文本个数是否大于或等于预设的阈值;响应于确定大于或等于预设的阈值,发送提示信息。


2.根据权利要求1所述的方法,其中,所述确定所述待测文本集合中是否存在与所选取的待测文本的文本关联度超过预设阈值的其他待测文本,包括:
确定哈希值集合中是否存在与所选取的待测文本对应的哈希值之间的汉明距离小于预设距离阈值的其他哈希值,其中,所述哈希值集合中的哈希值是基于所述待测文本集合中的对应待测文本而生成的;
响应于确定存在,确定所述待测文本集合中存在与所选取的待测文本的文本关联度超过预设阈值的其他待测文本。


3.根据权利要求1所述的方法,其中,所述方法还包括:
确定所述待测文本集合中是否存在未被选取的待测文本;
响应于确定所述待测文本集合中存在未被选取的待测文本,从所述待测文本集合中选取未选取过的待测文本,继续执行所述分组步骤。


4.根据权利要求2所述的方法,其中,所述预设距离阈值是1。


5.根据权利要求1-4之一所述的方法,其中,所述获取待测文本集合,包括:
获取目标文本集合,其中,目标文本包括来自目标网站的网页中的文本;
对于所述目标文本集合中的目标文本,响应于确定该目标文本满足预设的删除条件,从所述目标文本集合中删除该目标文本;
将删除满足所述删除条件的目标文本的目标文本集合确定为待测文本集合。


6.一种用于发送信息的装置,包括:
获取单元,被配置成获取待测文本集合,其中,所述待测文本集合包括至少两个待测文本;
发送单元,被配置成从所述待测文本集合中选取待测文本,以及执行以下分组步骤:确定所述待测文本集合中是否存在与所选取的待测文本的文本关联度超过预设阈值...

【专利技术属性】
技术研发人员:黄珊刘俐岑
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1