一种基于二分类模型的数据集相似性比较方法技术

技术编号：41864009 阅读：59 留言：0更新日期：2024-06-27 18:36

本发明专利技术公开了一种基于二分类模型的数据集相似性比较方法，该方法是通过给定的数据集A和数据集B的数据数量来确定模型训练需要的训练集中的数据条数和测试集中的数据条数；并对数据集进行分层随机采样，确保每个类别的样本都得到充分代表；再将采样后的数据集按之前的操作进行合并；使用损失函数训练模型判断，并使用测试集进行分类，得到准确率；设计相似度函数，并利用准确率列表为在测试集上的准确率计算模型的相似度。本发明专利技术的方法不仅可以应用于发现数据抄袭和侵权问题，还有助于提高模型的泛化能力和知识产权的保护水平，具备广泛的应用前景。这些技术效果使得本发明专利技术在数据领域具有重要意义。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于人工智能、数据分析领域，尤其涉及一种基于二分类模型的数据集相似性比较方法。

技术介绍

1、数据是人工智能算法的基石，越来越多的企业将数据视为企业的宝贵财富。企业可以将数据制作成数据集来进行训练或出售给同行。判断两个数据集是否相似具有重要的意义，一方面，在大规模的数据要素市场中，由于数据的广泛使用和流通，出现数据抄袭的风险也随之增加，损害企业和研究机构的价值成果，评估数据集之间的相似性成为确保数据的原创性和合规性的关键步骤；另一方面，在人工智能任务中的数据选择、训练和泛化方面也具有重要价值，有助于快速发现并扩大可用数据集。

2、很多企业和研究机构为了提高效率和性能，更频繁地利用第三方提供的数据集。然而，这也为数据抄袭嫌疑埋下了隐患。拥有一种初步检测对方数据集是否抄袭的方法以及成为维护自身知识产权的必要手段。

3、通过相似性检测方法，可以有效识别不同数据集之间的相似性程度。这有助于发现潜在的抄袭案例，保护原始数据集的独特性，从而保护提供数据企业的合法权益。通过定期进行相似性检测，可以提高发现抄袭行为的及...

【技术保护点】

1.一种基于二分类模型的数据集相似性比较方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的一种基于二分类模型的数据集相似性比较方法，其特征在于，所述步骤(1)中训练集中的数据条数和测试集中的数据条数的比例为2:8。

3.根据权利要求1所述的一种基于二分类模型的数据集相似性比较方法，其特征在于，所述步骤(2)的训练集和测试集中的数据来自数据集A和数据集B的比例各占50％，同时将来自数据集A的数据的标签设置为0，来自数据集B的标签设置为1。

4.根据权利要求1所述的一种基于二分类模型的数据集相似性比较方法，其特征在于，p>

5.根据权...

【技术特征摘要】

1.一种基于二分类模型的数据集相似性比较方法，其特征在于，该方法包括以下步骤：

3.根据权利要求1所述的一种基于二分类模型的数据集相似性比较方法，其特征在于，所述步骤(2)的训练集和测试集中的数据来自数据集a和数据集b的比例各占50％，同时将来自数据集a的数据的标签设置为0，来自数据集b的标签设置为1。

4.根据权利要求1所述的一种基于二分类模型的数据集相似性比较方法，其特征在于，

5.根据权利要求1所述的一种基于二分类模型的数据集相似性比较方法，其特征在于...

【专利技术属性】
技术研发人员：尹可挺，郭宗豪，马夕喃，茅葭奕，程梓芸，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人