异常文本识别方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:28623232 阅读:30 留言:0更新日期:2021-05-28 16:19
本发明专利技术涉及人工智能技术领域,提供一种异常文本识别方法、装置、计算机设备及存储介质,包括:对多个待测文本进行聚类,并根据聚类后的多个质心识别出所述多个待测文本中的多个第一问题文本;调用异常文本识别模型识别出所述多个第一问题文本中的多个第二问题文本;提取每个所述第二问题文本的词袋向量,并基于多个所述词袋向量生成问题文本图像;使用目标检测算法对所述问题文本图像进行目标检测,得到多个目标检测框;根据所述多个目标检测框识别所述多个第二问题文本中的异常文本。本发明专利技术能够批量的识别出异常文本,异常文本的识别效果佳且识别效率高。

【技术实现步骤摘要】
异常文本识别方法、装置、计算机设备及存储介质
本专利技术涉及人工智能
,具体涉及一种异常文本识别方法、装置、计算机设备及存储介质。
技术介绍
随着大数据时代的不断发展,内容平台上的文本越来越多,从数以万计的文本中快速的检测出异常文本,对于内容平台是非常重要的,如果将不合规的文本暴露给用户,会给内容平台的声誉带来巨大影响。专利技术人在实现本专利技术的过程中发现,现有的内容平台多通过建立异常词表,基于异常词表来对文本进行匹配,从而确定文本是否为异常文本,该方法需要不断人工添加异常词,导致识别文本异常的效果较差;且需要将文本与异常词表中的异常词进行逐个匹配,导致识别异常文本的效率较差。
技术实现思路
鉴于以上内容,有必要提出一种异常文本识别方法、装置、计算机设备及存储介质,能够批量的识别出异常文本,异常文本的识别效果佳且识别效率高。本专利技术的第一方面提供一种异常文本识别方法,所述方法包括:对多个待测文本进行聚类,并根据聚类后的多个质心识别出所述多个待测文本中的多个第一问题文本;<br>调用异常文本识本文档来自技高网...

【技术保护点】
1.一种异常文本识别方法,其特征在于,所述方法包括:/n对多个待测文本进行聚类,并根据聚类后的多个质心识别出所述多个待测文本中的多个第一问题文本;/n调用异常文本识别模型识别出所述多个第一问题文本中的多个第二问题文本;/n提取每个所述第二问题文本的词袋向量,并基于多个所述词袋向量生成问题文本图像;/n使用目标检测算法对所述问题文本图像进行目标检测,得到多个目标检测框;/n根据所述多个目标检测框识别所述多个第二问题文本中的异常文本。/n

【技术特征摘要】
1.一种异常文本识别方法,其特征在于,所述方法包括:
对多个待测文本进行聚类,并根据聚类后的多个质心识别出所述多个待测文本中的多个第一问题文本;
调用异常文本识别模型识别出所述多个第一问题文本中的多个第二问题文本;
提取每个所述第二问题文本的词袋向量,并基于多个所述词袋向量生成问题文本图像;
使用目标检测算法对所述问题文本图像进行目标检测,得到多个目标检测框;
根据所述多个目标检测框识别所述多个第二问题文本中的异常文本。


2.如权利要求1所述的异常文本识别方法,其特征在于,所述根据所述多个目标检测框识别所述多个第二问题文本中的异常文本包括:
确定每个所述目标检测框中的词袋子向量;
判断每个词袋向量中是否存在与任意一个所述词袋子向量相同的目标词袋子向量;
当目标词袋向量中存在至少一个所述目标词袋子向量时,确定所述目标词袋向量对应的第二问题文本为异常文本。


3.如权利要求1所述的异常文本识别方法,其特征在于,所述调用异常文本识别模型识别出所述多个第一问题文本中的多个第二问题文本包括:
采用异常文本识别模型对所述多个第一问题文本中的每个第一问题文本进行异常概率预测;
获取第一目标异常概率的多个第一候选问题文本、获取第二目标异常概率的多个第二候选问题文本及获取第三目标异常概率的多个第三候选问题文本,其中,所述第一目标异常概率<所述第二目标异常概率<所述第三目标异常概率;
计算每个所述第一候选问题文本与每个所述第二候选问题文本之间的第一文本相似度,及计算每个所述第三候选问题文本与每个所述第二候选问题文本之间的第二文本相似度;
根据每个所述第二候选问题文本对应的多个所述第一文本相似度及多个所述第二文本相似度识别出所述多个第二候选问题文本中的多个第二问题文本。


4.如权利要求3所述的异常文本识别方法,其特征在于,所述根据每个所述第二候选问题文本对应的多个所述第一文本相似度及多个所述第二文本相似度识别出所述多个第二候选问题文本中的多个第二问题文本包括:
对于任意一个第二候选问题文本,获取多个所述第一文本相似度中大于预设相似度阈值的多个第一目标文本相似度,计算所述多个第一目标文本相似度的第一数量;
获取多个所述第二文本相似度中大于所述预设相似度阈值的多个第二目标文本相似度,计算所述多个第二目标文本相似度的第二数量;
计算多个所述第一文本相似度的第三数量,及计算多个所述第二文本相似度的第四数量;
当所述第一数量与所述第三数量的占比小于预设占比阈值,且所述第二数量与所述第四数...

【专利技术属性】
技术研发人员:朱运乔建秀
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1