【技术实现步骤摘要】
本公开涉及语言处理领域,尤其涉及一种基于语言处理的文档查重方法及相关设备。
技术介绍
1、目前的文档查重技术中,关键词匹配方法实现简单,适用于完全相同的文本查重,但对于词序变换、同义词替换或文本细微修改等情况则力不从心;n-gram方法通过比较文档中的连续子串,能够识别简单的词序变化或文本修改,相较于关键词匹配更为灵活,但仍难以处理同义词替换或更复杂的语义变更;而基于哈希函数的查重方法通过比较文档内容转化后的哈希值来检测重复,虽计算速度快、适合大规模数据集的查重,但由于存在哈希冲突的可能性,可能会导致误报或漏报,并且仅能检测直接复制的内容,无法处理语义相似性问题。所以,现有的文档查重技术的有效性不高。
技术实现思路
1、本公开提出一种基于语言处理的文档查重方法及相关设备,以在一定程度上解决文档查重技术的有效性不高等技术问题。
2、本公开第一方面,提供了一种基于语言处理的文档查重方法,包括:
3、获取待查文档;
4、对所述待查文档进行特征提取生成待查文本特
5本文档来自技高网...
【技术保护点】
1.一种基于语言处理的文档查重方法,包括:
2.根据权利要求1所述的方法,其中,基于所述待查文本特征和目标特征向量进行比对,得到查重结果,包括:
3.根据权利要求1所述的方法,其中,基于所述待查文本特征和目标特征向量进行比对,得到查重结果,包括:
4.根据权利要求1的方法,其中,所述预设文本特征基于训练好的文本特征模型对所述预设文档库中的预设文档进行特征提取得到;
5.根据权利要求4所述的方法,将所述第一增强样本和所述第二增强样本确定为正样本,其他训练样本为负样本,对所述语言处理模型进行训练,得到训练好的所述文本特征模型
...
【技术特征摘要】
1.一种基于语言处理的文档查重方法,包括:
2.根据权利要求1所述的方法,其中,基于所述待查文本特征和目标特征向量进行比对,得到查重结果,包括:
3.根据权利要求1所述的方法,其中,基于所述待查文本特征和目标特征向量进行比对,得到查重结果,包括:
4.根据权利要求1的方法,其中,所述预设文本特征基于训练好的文本特征模型对所述预设文档库中的预设文档进行特征提取得到;
5.根据权利要求4所述的方法,将所述第一增强样本和所述第二增强样本确定为正样本,其他训练样本为负样本,对所述语言处理模型进行训练,得到训练好的所述文本特征模...
【专利技术属性】
技术研发人员:于海亮,欧清海,董爱强,刘玉玺,张栋栋,刘沿娟,陈宜亮,王一竹,张宏烨,梁恒,柴东桓,赵永平,
申请(专利权)人:北京中电普华信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。