【技术实现步骤摘要】
一种异常文本确定方法、装置、电子设备和介质
本申请涉及计算机技术,具体涉及人工智能技术,尤其涉及一种异常文本确定方法、装置、电子设备和介质。
技术介绍
随着大数据时代的不断发展,舆情信息的获取量越来越大,将数以万计的信息进行准确分类成为了至关重要的一项,经过文档分类,用户可以快速的找到想要了解的信息,如在舆情方向,用户可以自定义自己需要了解的方向,进而可以只将用户需要的文档推送给用户。而当前由于数据采集过程中会出现很多的垃圾信息如广告,所以导致了很多垃圾文档被误分到了各个类别中,这也直接影响了用户的使用体验。
技术实现思路
本申请实施例提供一种异常文本确定方法、装置、电子设备和介质,能够自动滤除文本簇中异常文本,使得分类更为准确,进而提升了用户体验。第一方面,本申请实施例公开了一种异常文本确定方法,该方法包括:根据文本簇中除上次异常文本之外的其他文本,确定本次簇中心特征;根据所述文本簇中所有文本与所述本次簇中心特征之间的距离,从所述所有文本中选择本次异常文本;根据所述本次异 ...
【技术保护点】
1.一种异常文本确定方法,其特征在于,包括:/n根据文本簇中除上次异常文本之外的其他文本,确定本次簇中心特征;/n根据所述文本簇中所有文本与所述本次簇中心特征之间的距离,从所述所有文本中选择本次异常文本;/n根据所述本次异常文本,确定所述文本簇中的目标异常文本。/n
【技术特征摘要】
1.一种异常文本确定方法,其特征在于,包括:
根据文本簇中除上次异常文本之外的其他文本,确定本次簇中心特征;
根据所述文本簇中所有文本与所述本次簇中心特征之间的距离,从所述所有文本中选择本次异常文本;
根据所述本次异常文本,确定所述文本簇中的目标异常文本。
2.根据权利要求1所述的方法,其特征在于,根据所述本次异常文本,确定所述文本簇中的目标异常文本,包括:
若根据所述本次异常文本,以及文本簇中除所述本次异常文本之外的其他文本,检测到迭代停止事件,则将所述本次异常文本作为所述文本簇中的目标异常文本;或者,
比较所述本次异常文本和所述上次异常文本,并根据比较结果确定所述文本簇中的目标异常文本。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
将与所述本次簇中心特征之间距离最近的本次异常文本,作为第一本次异常文本;
将与所述第一本次异常文本之间距离最近的其他本次异常文本,作为第二本次异常文本;
若所述文本簇中除所述本次异常文本之外的所有其他文本,与所述第一本次异常文本之间距离,均大于所述第一本次异常文本与所述第二本次异常文本之间距离,则生成所述迭代停止事件。
4.根据权利要求3所述的方法,其特征在于,将与所述第一本次异常文本之间距离最近的其他本次异常文本,作为第二本次异常文本之后,还包括:
若所述文本簇中除所述本次异常文本之外的每一其他文本,与所述第一本次异常文本之间距离,小于或等于所述第一本次异常文本与所述第二本次异常文本之间距离,则将该其他文本添加到所述本次异常文本中,并触发下次异常文本确定操作。
5.根据权利要求2所述的方法,其特征在于,根据比较结果确定所...
【专利技术属性】
技术研发人员:刘庚,白敬亭,张伟军,彭云鹏,杨经纬,
申请(专利权)人:百度国际科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。