基于制造技术

技术编号:39811199 阅读:12 留言:0更新日期:2023-12-22 19:28
本发明专利技术涉及文本数据分析处理技术领域,特别涉及一种基于

【技术实现步骤摘要】
基于sentence

bert模型和milvus向量数据库的轻量级文本查重方法和系统


[0001]本专利技术涉及文本数据分析处理
,特别涉及一种基于
sentence

bert
模型和
milvus
向量数据库的轻量级文本查重方法和系统


技术介绍

[0002]智能查重系统在机构端的应用是为了解决机构在处理大量业务项目申报文件和资料时所面临的重复和抄袭问题

其中,评价管理机构实现任务查重的主要目的是确保业务任务评卷工作的公平性

准确性和规范性

通过任务查重能够实现如下功能:防止抄袭:任务查重可以检测和发现学生在作业

试卷等评价任务中的抄袭行为,保证学生的作品原创性和公平竞争;确保评分准确性:任务查重能够帮助评卷人员识别重复的答案或内容,避免因为相同答案而导致评分的不一致性或错误;提高评卷效率:通过任务查重系统,评卷人员可以快速比对和检索大量的学生答案,节省人力和时间成本,提高评卷效率;维护评价的规范性:任务查重有助于保持评价标准的一致性和规范性,减少评卷过程中的主观偏差,提高评价结果的可信度和公信力;数据分析和质量监控:通过任务查重系统,考评办可以对评价数据进行分析和监控,识别重复模式

异常情况和作弊行为,从而改进评价方式和提高评价质量

总之,任务查重能够确保评卷工作的公正性

准确性和规范性,帮助考评办高效

公正地完成评价任务,并为进一步提升评价质量和学生能力提供有力支持

[0003]目前,智能查重系统在机构端的应用主要依赖于自然语言处理
(NLP)、
文本相似度计算

机器学习
(ML)
和数据库管理等相关技术

其中,自然语言处理
(NLP)

NLP
技术是一种用于处理和理解人类语言的技术,在机构端的智能查重系统中,
NLP
技术被广泛应用于文本的分析和处理,它可以帮助系统识别文本中的语法结构

语义信息和关键词,从而实现对文本的自动分析和理解

文本相似度计算:文本相似度计算是智能查重系统中的关键技术之一,它利用
NLP
和机器学习技术,对文本进行向量化表示,并通过计算向量之间的相似度来判断文本之间的相似程度

常用的文本相似度计算方法包括余弦相似度

编辑距离等

机器学习
(ML)
:机器学习技术在智能查重系统中发挥重要作用,通过对大量的文本数据进行训练和学习,系统可以建立模型来识别和判断重复文本

常见的机器学习算法包括支持向量机
(SVM)、
决策树

随机森林等

数据库管理:智能查重系统需要对大量的文本数据进行存储和管理,数据库管理技术可以帮助系统高效地存储

检索和更新文本数据,提高系统的性能和可扩展性

[0004]综上所述,机构端智能查重系统的应用技术主要基于自然语言处理

文本相似度计算

机器学习和数据库管理等相关技术

这些技术的结合和应用,能够有效提高机构处理业务考评项目的效率,并确保相关业务考评任务内容的原创性和合法性,从而推动机构工作的规范化和高效化

但上述技术在实际应用中存在:文本向量化精准程度不理想

无法满足使用有限的资源达到高效的向量相似度计算,进而影响查重方案在工程应用中的实效性


技术实现思路

[0005]为此,本专利技术提供一种基于
sentence

bert
模型和
milvus
向量数据库的轻量级文本查重方法及系统,能够解决现有查重文本向量化精准度

查重实效性等问题

[0006]按照本专利技术所提供的设计方案,一方面,提供一种基于
sentence

bert
模型和
milvus
向量数据库的轻量级文本查重方法,包含如下内容:
[0007]基于预训练后的
sentence

bert
模型将考评任务信息进行文本向量化,将考评任务信息向量在
milvus
向量数据库中进行存储,其中,考评任务信息包括考评任务名称;
[0008]针对目标考评任务信息的待查重请求,基于预训练后的
sentence

bert
模型将请求中的目标考评任务信息进行文本向量化,并基于考评任务信息向量在
milvus
向量数据库中进行查重

[0009]进一步地,文本向量化之前,还包括:
[0010]对考评任务信息进行预处理,以去除噪声,其中,预处理包括文本清洗

分词及标准化处理

[0011]进一步地,
sentence

bert
模型训练过程,包括:
[0012]利用带有标注标签的句子对作为训练样本,基于该训练样本对
sentence

bert
模型模型参数进行训练微调,获取预训练后的
sentence

bert
模型,以基于预训练后的
sentence

bert
模型将输入的考评任务信息文本转换为特征向量

[0013]进一步地,将考评任务信息向量在
milvus
向量数据库中进行存储,包括:
[0014]首先,在
milvus
向量数据库中创建用于存储考评任务向量的向量字段

用于存储考评任务名称的标量字段及用于存储考评任务编号的主键字段;
[0015]然后,基于向量字段

标量字段和主键字段将考评任务信息向量的相关数据存储至
milvus
向量数据库中

[0016]进一步地,将考评任务信息向量在
milvus
向量数据库中进行存储,还包括:
[0017]将主键字段作为索引字段,基于
Mysql
数据库存储索引字段任务编号对应关联的考评任务内容,以利用索引将
milvus
向量数据库存储的考评任务信息和
Mysql
数据库存储的考评任务内容进行查重关联,其中,考评任务内容包含考评任务目标

[0018]进一步地,基于考评本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于
sentence

bert
模型和
milvus
向量数据库的轻量级文本查重方法,其特征在于,包含如下内容:基于预训练后的
sentence

bert
模型将考评任务信息进行文本向量化,将考评任务信息向量在
milvus
向量数据库中进行存储,其中,考评任务信息包括考评任务名称;针对目标考评任务信息的待查重请求,基于预训练后的
sentence

bert
模型将请求中的目标考评任务信息进行文本向量化,并基于考评任务信息向量在
milvus
向量数据库中进行查重
。2.
根据权利要求1所述的基于
sentence

bert
模型和
milvus
向量数据库的轻量级文本查重方法,其特征在于,文本向量化之前,还包括:对考评任务信息进行预处理,以去除噪声,其中,预处理包括文本清洗

分词及标准化处理
。3.
根据权利要求1或2所述的基于
sentence

bert
模型和
milvus
向量数据库的轻量级文本查重方法,其特征在于,
sentence

bert
模型训练过程,包括:利用带有标注标签的句子对作为训练样本,基于该训练样本对
sentence

bert
模型模型参数进行训练微调,获取预训练后的
sentence

bert
模型,以基于预训练后的
sentence

bert
模型将输入的考评任务信息文本转换为特征向量
。4.
根据权利要求1所述的基于
sentence

bert
模型和
milvus
向量数据库的轻量级文本查重方法,其特征在于,将考评任务信息向量在
milvus
向量数据库中进行存储,包括:首先,在
milvus
向量数据库中创建用于存储考评任务向量的向量字段

用于存储考评任务名称的标量字段及用于存储考评任务编号的主键字段;然后,基于向量字段

标量字段和主键字段将考评任务信息向量的相关数据存储至
milvus
向量数据库中
。5.
根据权利要求4所述的基于
sentence

bert
模型和
milvus
向量数据库的轻量级文本查重方法,其特...

【专利技术属性】
技术研发人员:杨昊天陈纪任王正文张帆叶艳岳修飞
申请(专利权)人:数字郑州科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1