面向学术不端场景的用户画像和区块链技术取证方法技术

技术编号：29940808 阅读：18 留言：0更新日期：2021-09-04 19:25

本发明专利技术公开了一种面向学术不端场景的用户画像和区块链技术取证方法。包括将文章信息和用户操作上传到区块链、通过孤立森林计算用户异常指数、利用爬虫程序获取学者基本信息、匹配学者身份、根据身份匹配度和异常指数给用户打上异常标签等步骤。本发明专利技术使用区块链技术弥补了数据的不可靠性，并让其具有不可篡改性；同时利于用户行为的追溯与验证。通过匹配内外部学者资料来检测存在的信息造假可能，对潜在不良意图者进行标签标记，提高了检测准确率；采用孤立森林算法分析行为异常者，为可疑用户打上标签。两方面的结合，既补充了只靠文本特征分析的技术单一性，又使不端行为检测效率得到了提高。率得到了提高。率得到了提高。

全部详细技术资料下载

【技术实现步骤摘要】
面向学术不端场景的用户画像和区块链技术取证方法

[0001]本专利技术涉及智能信息处理和计算机
，具体涉及一种面向学术不端场景的用户画像和区块链技术取证方法。

技术介绍

[0002]随着科学
的飞速发展，世界各地创立并举办了众多的学术会议和出版了大量的学术论文，加速社会了进步。然而因为“学术不端”的低风险性和高收益性的诱因，使得它成为学术界极具危害性的普遍行为，在科研论文的撰写和发表中表现得尤为突出。随着媒体对于学术不端事件的屡屡曝光，引起了社会各界对于学术不端行为问题的关注，如何在学术网站中识别这些具有不端行为的学者成为了亟需解决的问题。
[0003]从目前揭发的诸多学术不端事件来看，其涵盖的种类和具体行为多样化，只靠某一种方法或技术来检测和发现所有的学术不端问题是不现实的。在学术不端的剽窃领域已经有了许多的研究和较为成熟的软件，例如基于语义和字符的剽窃检测，都是从文本载体中提取相关特征并分析，国内目前应用最广泛的学术不端检测系统TMLC，AMLC和SMLC系统就是利用文本特征来进行检测的，但是现有的技术和方法都只关注到了文本这一种形式，主要识别剽窃这一种种类，在作者行为层面的学术不端，例恶意投稿，一稿多投和虚假身份信息等无法识别。
[0004]本专利技术通过用户综合信息为其画像，即打上相应标签来预测具有学术不端行为的用户，并利用区块链技术将用户投稿的文章信息上传到区块链中保存，同时用户的各操作行为也一并打包到相应的区块中，形成安全可靠的数据链，以供追溯与验证。

技术实现思路
r/>[0005]本专利技术公开了一种面向学术不端场景的用户画像和区块链技术取证方法, 用于解决用户在投稿平台中存在的如恶意投稿、一稿多投及虚假身份信息等学术不端问题。
[0006]本专利技术的技术方案如下：一种面向学术不端场景的用户画像和区块链技术取证方法，包括以下步骤：步骤1．将文章信息和用户主要操作上传到区块链；步骤2．追溯区块链中的行为数据，通过孤立森林计算用户异常指数；步骤3．利用爬虫程序获取学者基本信息；步骤4．从合作关系网络中抽取自我中心网络来匹配学者身份；步骤5．结合短文本相似度分析来匹配身份信息；步骤6．根据身份匹配度和异常指数给用户打上异常标签。
[0007]优选的，步骤1中，每当用户投稿新的文章后，在区块链中新增文章区块，将文章的基础数据存入该区块，将用户的各项后续操作加入到该区块的行为列表中，构成不可篡改的记录。
[0008]优选的，所述基础数据包括文章的标题、作者及摘要；所述后续操作包括登录，修
改及发送信息。
[0009]优选的，步骤2中，提取区块链中保存的用户操作数据，再由多个孤立二叉树构成孤立森林，将用户操作数据作为孤立森林的输入计算出用户异常指数，用来评估用户异常概率。
[0010]优选的，步骤3中，使用网络爬虫程序抓取学者公开的基本信息，并将数据将会存入数据库。
[0011]优选的，所述基本信息包括例如姓名、单位、地址及合作者。
[0012]优选的，步骤4中，利用学者间的合作关系，建立以作者为节点，合作关系为边的无向合作关系网络，再从无向合作关系网络中抽取自我中心网络进行学者身份匹配，自我中心网络是指由自身及所有它的直接邻居节点构成的网络。
[0013]优选的，步骤5中，采用文本相似度分析和字符串匹配度结合的方法，识别用户恶意填写的相关信息。
[0014]优选的，所述相关信息包括邮箱、国籍及地址。
[0015]优选的，步骤6中，根据步骤2和步骤5中的计算结果，为学者贴上相应标签，预判具有学术不端倾向的用户。
[0016]本专利技术与传统方法相比，具有如下优点：（1）本专利技术针对在线学术投稿平台中具有的学术不端问题，使用区块链技术弥补了数据的不可靠性，让其具有不可篡改性，防止相关利益人的随意更改；同时，有利于用户行为的追溯与验证。（2）本专利技术采用孤立森林算法分析行为异常者，为可疑用户打上标签，提高检测效率；通过匹配内外部学者资料来检测存在的信息造假可能，对潜在不良意图者进行标签标记，提高了检测准确率；两方面的结合，既补充了只靠文本特征分析的技术单一性，又使不端行为检测效率得到了提高。
附图说明
[0017]图1本专利技术实施例的流程图。
具体实施方式
[0018]为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。
[0019]本实施例公开了一种具体的面向学术不端场景的用户画像和区块链技术取证方法，用于对在线学术投稿平台中学术不端行为的检测与预防，其流程如图1所示，主要步骤如下。
[0020]步骤1．将文章信息和用户主要操作上传到区块链。
[0021]本实施例将用户行为数据与文章信息上传到去中心化的分布式区块链系统中，以保证数据的不可逆和不可伪造性，当前用户投稿文章的标题、摘要、关键字和作者等信息会存储在区块中以供文章的查询与验证，用户的操作行为数据会存放在区块中的行为列表，当产生学术不端情况即可进行追溯，区块与区块之间以哈希码(Hash Code)相连，Hash Code是通过哈希函数生成的一串字符序列，通过它可以区分不同的对象并且具有加密作用，当前区块中会保存上一区块的哈希码，而哈希码又与区块内容紧密联系在一起，所以想
要篡改某一区块的内容则需要同时修改前面所有区块，这在实际中难以操作。
[0022]步骤2．追溯区块链中的行为数据，通过孤立森林计算用户异常指数。
[0023]由于在步骤1中作者的各项操作行为会被记录在区块链中，从而保证了数据的真实性和可靠性，通过从区块链中提取用户这部分的行为数据作为输入，采用孤立森林算法计算出异常指数来评估用户异常概率。
[0024]孤立森林是一种异常检测算法，旨在把异常数值从所有样本中孤立出来从而识别异常行为，其中综合异常指数S公式如下：式1中，x是要检测的样本数据作为函数的输入，S(x)为样本数据x所得到的异常指数，S(x)的值趋于1时则说明该数据越异常，即可为该数据打上异常标签，相反趋于0时则说明正常。
[0025]式1中，E(h(x))可表示为：式2中，h(x)为样本数据x在多个二叉树上的路径长度值，即从叶子节点到根节点的路径，h(i)为样本数据x在第i个二叉树上的路径长度值，k为构建孤立森林所用的二叉树的个数，E(h(x))表示样本数据x在k个二叉树上的路径长度平均值。
[0026]式1中，c(n)是给定样本数量n时的路径长度平均值，用来标准化样本x的路径长度，计算公式为：式3中，n为给出的样本数量，其中H(n
‑
1)可以被估计为ln(n
‑
1)+0.577215，是一调和参数。
[0027]步骤3．利用爬虫程序获取学者基本信息。
[0028]为了分析识别用户信息的伪造部分，需要获取学者在外部的资料信息。使用Java语言本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种面向学术不端场景的用户画像和区块链技术取证方法，其特征在于，包括以下步骤：步骤1．将文章信息和用户主要操作上传到区块链；步骤2．追溯区块链中的行为数据，通过孤立森林计算用户异常指数；步骤3．利用爬虫程序获取学者基本信息；步骤4．从合作关系网络中抽取自我中心网络来匹配学者身份；首先，提取学者的自我中心网络G，G为整个合作关系网中的局部网络拓扑，由某一节点为中心，其多阶邻居节点及其关系构成小型网络，然后，从网络中抽取特征使用改进的Jaccard系数计算相似度，其公式如下，式中，N、M分别为一阶邻居节点集合，
∂
(ω
N
,ω
M
)表示N与M中权值的函数计算，N
ω(max)
为N中最大边权值，M
ω(max)
为M中最大边权值，θ为足够小的实数值，设定阈值，相似度大于阈值即可判断为相同学者；步骤5．结合短文本相似度分析来匹配身份信息；步骤6．根据身份匹配度和异常指数给用户打上异常标签。2.根据权利要求1所述的面向学术不端场景的用户画像和区块链技术取证方法，其特征在于：步骤1中，每当用户投稿新的文章后，在区块链中新增文章区块，将文章的基础数据存入该区块，将用户的各项后续操作加入到该区块的行为列表中，构成不可篡改的记录。3.根据...

【专利技术属性】
技术研发人员：孙星明，武庆民，韩进，周世豪，顾思宇，孟若涵，崔琦，
申请(专利权)人：江苏羽驰区块链科技研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人