【技术实现步骤摘要】
一种文本检测方法及装置
本专利技术涉及文本检测
,尤其涉及一种文本检测方法及装置。
技术介绍
随着互联网的出现和发展,文本文献在互联网上的数量发展更加迅猛,文本检测技术已广泛地应用于文件检索、舆情管理等领域,通过检测文本中是否含有用户设置的短语或句子等信息来确定该文本内容中是否含有用户所需的数据内容。目前,常用的文本检测多是基于用户设置的关键词进行匹配,或者是利用自然语言处理技术计算出多个该关键词的近义词,并利用这些词进行文本检测。然而,在很多情况下,尤其是一词多义的情况下,采用现有的检测方式由于很难确定用户设置的关键词的语义,更无法通过简单的近义词进行查找与匹配,因此,通过现有检测方式得到的检测结果依然存在准确性低、适用范围窄的问题。
技术实现思路
鉴于上述问题,本专利技术提出了一种文本检测方法及装置,主要目的在于提高文本检测的准确性。为达到上述目的,本专利技术主要提供如下技术方案:一方面,本专利技术提供一种文本检测方法,具体包括:获取待检测文本;确定目标短语的共现词;利用所述共现词在所述待检测文本中确定待检测段落;利用机器学习模型检测所述待检测段落中是否含有 ...
【技术保护点】
1.一种文本检测方法,其中,所述方法包括:获取待检测文本;确定目标短语的共现词;利用所述共现词在所述待检测文本中确定待检测段落;利用机器学习模型检测所述待检测段落中是否含有与所述目标短语相匹配的内容;根据匹配结果和所述目标短语对应的检测规则确定所述待检测文本是否符合要求。
【技术特征摘要】
1.一种文本检测方法,其中,所述方法包括:获取待检测文本;确定目标短语的共现词;利用所述共现词在所述待检测文本中确定待检测段落;利用机器学习模型检测所述待检测段落中是否含有与所述目标短语相匹配的内容;根据匹配结果和所述目标短语对应的检测规则确定所述待检测文本是否符合要求。2.根据权利要求1所述的方法,其中,利用所述共现词在所述待检测文本中确定待检测段落包括:对于所述目标短语的每个共现词,在所述待检测文本中查找该共现词;每查找到该共现词,根据该共现词在待检测文本中的位置以及预设段落长度确定一个待检测段落;若所述目标短语无共现词,或者,所述目标短语有共现词但所述待检测文本中不存在所述共现词,则将整个待检测文本确定为待检测段落。3.根据权利要求2所述的方法,其中,所述根据该共现词在待检测文本中的位置以及预设段落长度确定一个待检测段落包括:在待检测文本中,在查找到的该共现词前后各取预设长度的文字,得到一个待检测段落;或者,在待检测文本中,取长度等于预设长度且包含查找到的该共现词的段落作为待检测段落。4.根据权利要求1所述的方法,其中,所述利用机器学习模型检测所述待检测文本段落中是否含有与所述目标短语相匹配的内容包括:利用词向量模型检测所述待检测段落中短语的词向量与所述目标短语的词向量的相似度是否达到预设相似值;其中,所述词向量模型是基于神经网络训练得到的用于识别同义词的模型;若达到,则确定所述待检测文本中含有与所述目标短语相匹配的内容。5.根据权利要求1所述的方法,其中,所述确定目标短语的共现词包括...
【专利技术属性】
技术研发人员:杨俊,陈立,
申请(专利权)人:第四范式北京技术有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。