【技术实现步骤摘要】
本专利技术属于人工智能、数据分析领域,尤其涉及一种基于二分类模型的数据集相似性比较方法。
技术介绍
1、数据是人工智能算法的基石,越来越多的企业将数据视为企业的宝贵财富。企业可以将数据制作成数据集来进行训练或出售给同行。判断两个数据集是否相似具有重要的意义,一方面,在大规模的数据要素市场中,由于数据的广泛使用和流通,出现数据抄袭的风险也随之增加,损害企业和研究机构的价值成果,评估数据集之间的相似性成为确保数据的原创性和合规性的关键步骤;另一方面,在人工智能任务中的数据选择、训练和泛化方面也具有重要价值,有助于快速发现并扩大可用数据集。
2、很多企业和研究机构为了提高效率和性能,更频繁地利用第三方提供的数据集。然而,这也为数据抄袭嫌疑埋下了隐患。拥有一种初步检测对方数据集是否抄袭的方法以及成为维护自身知识产权的必要手段。
3、通过相似性检测方法,可以有效识别不同数据集之间的相似性程度。这有助于发现潜在的抄袭案例,保护原始数据集的独特性,从而保护提供数据企业的合法权益。通过定期进行相似性检测,可以提高发现抄袭行为的及
...【技术保护点】
1.一种基于二分类模型的数据集相似性比较方法,其特征在于,该方法包括以下步骤:
2.根据权利要求1所述的一种基于二分类模型的数据集相似性比较方法,其特征在于,所述步骤(1)中训练集中的数据条数和测试集中的数据条数的比例为2:8。
3.根据权利要求1所述的一种基于二分类模型的数据集相似性比较方法,其特征在于,所述步骤(2)的训练集和测试集中的数据来自数据集A和数据集B的比例各占50%,同时将来自数据集A的数据的标签设置为0,来自数据集B的标签设置为1。
4.根据权利要求1所述的一种基于二分类模型的数据集相似性比较方法,其特征在于,
...【技术特征摘要】
1.一种基于二分类模型的数据集相似性比较方法,其特征在于,该方法包括以下步骤:
2.根据权利要求1所述的一种基于二分类模型的数据集相似性比较方法,其特征在于,所述步骤(1)中训练集中的数据条数和测试集中的数据条数的比例为2:8。
3.根据权利要求1所述的一种基于二分类模型的数据集相似性比较方法,其特征在于,所述步骤(2)的训练集和测试集中的数据来自数据集a和数据集b的比例各占50%,同时将来自数据集a的数据的标签设置为0,来自数据集b的标签设置为1。
4.根据权利要求1所述的一种基于二分类模型的数据集相似性比较方法,其特征在于,
5.根据权利要求1所述的一种基于二分类模型的数据集相似性比较方法,其特征在于...
【专利技术属性】
技术研发人员:尹可挺,郭宗豪,马夕喃,茅葭奕,程梓芸,
申请(专利权)人:浙江大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。