【技术实现步骤摘要】
基于sentence
‑
bert模型和milvus向量数据库的轻量级文本查重方法和系统
[0001]本专利技术涉及文本数据分析处理
,特别涉及一种基于
sentence
‑
bert
模型和
milvus
向量数据库的轻量级文本查重方法和系统
。
技术介绍
[0002]智能查重系统在机构端的应用是为了解决机构在处理大量业务项目申报文件和资料时所面临的重复和抄袭问题
。
其中,评价管理机构实现任务查重的主要目的是确保业务任务评卷工作的公平性
、
准确性和规范性
。
通过任务查重能够实现如下功能:防止抄袭:任务查重可以检测和发现学生在作业
、
试卷等评价任务中的抄袭行为,保证学生的作品原创性和公平竞争;确保评分准确性:任务查重能够帮助评卷人员识别重复的答案或内容,避免因为相同答案而导致评分的不一致性或错误;提高评卷效率:通过任务查重系统,评卷人员可以快速比对和检索大量的学生答案,节省人力和时间成本,提高评卷效率;维护评价的规范性:任务查重有助于保持评价标准的一致性和规范性,减少评卷过程中的主观偏差,提高评价结果的可信度和公信力;数据分析和质量监控:通过任务查重系统,考评办可以对评价数据进行分析和监控,识别重复模式
、
异常情况和作弊行为,从而改进评价方式和提高评价质量
。
总之,任务查重能够确保评卷工作的公正性
、
准确性和规范性, ...
【技术保护点】
【技术特征摘要】
1.
一种基于
sentence
‑
bert
模型和
milvus
向量数据库的轻量级文本查重方法,其特征在于,包含如下内容:基于预训练后的
sentence
‑
bert
模型将考评任务信息进行文本向量化,将考评任务信息向量在
milvus
向量数据库中进行存储,其中,考评任务信息包括考评任务名称;针对目标考评任务信息的待查重请求,基于预训练后的
sentence
‑
bert
模型将请求中的目标考评任务信息进行文本向量化,并基于考评任务信息向量在
milvus
向量数据库中进行查重
。2.
根据权利要求1所述的基于
sentence
‑
bert
模型和
milvus
向量数据库的轻量级文本查重方法,其特征在于,文本向量化之前,还包括:对考评任务信息进行预处理,以去除噪声,其中,预处理包括文本清洗
、
分词及标准化处理
。3.
根据权利要求1或2所述的基于
sentence
‑
bert
模型和
milvus
向量数据库的轻量级文本查重方法,其特征在于,
sentence
‑
bert
模型训练过程,包括:利用带有标注标签的句子对作为训练样本,基于该训练样本对
sentence
‑
bert
模型模型参数进行训练微调,获取预训练后的
sentence
‑
bert
模型,以基于预训练后的
sentence
‑
bert
模型将输入的考评任务信息文本转换为特征向量
。4.
根据权利要求1所述的基于
sentence
‑
bert
模型和
milvus
向量数据库的轻量级文本查重方法,其特征在于,将考评任务信息向量在
milvus
向量数据库中进行存储,包括:首先,在
milvus
向量数据库中创建用于存储考评任务向量的向量字段
、
用于存储考评任务名称的标量字段及用于存储考评任务编号的主键字段;然后,基于向量字段
、
标量字段和主键字段将考评任务信息向量的相关数据存储至
milvus
向量数据库中
。5.
根据权利要求4所述的基于
sentence
‑
bert
模型和
milvus
向量数据库的轻量级文本查重方法,其特...
【专利技术属性】
技术研发人员:杨昊天,陈纪任,王正文,张帆,叶艳,岳修飞,
申请(专利权)人:数字郑州科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。