基于多模混合深度学习的ICO项目欺诈自动判别方法技术

技术编号:20920014 阅读:37 留言:0更新日期:2019-04-20 10:25
本发明专利技术公开了一种基于多模混合深度学习的ICO项目欺诈自动判别方法,包括步骤:(1)抽取ICO项目的多模信息作为特征输入;(2)构建层次化深度学习网络,基于当前已有的ICO项目作为训练样本对深度学习模型进行训练;(3)将需要判别的ICO项目特征输入已训练好的层次化深度学习模型,如输出为0则判别该项目为欺诈项目,否则判别该项目为非欺诈项目。依此本发明专利技术可以解决自动判别ICO新项目是否为欺诈项目的问题,添补当前针对该问题的方法欠缺,同时能够帮助投资者判别欺诈性的ICO项目使其免受资金损失,可以协助监管部门进行ICO项目欺诈的自动预警。

An Automatic Fraud Discrimination Method for ICO Projects Based on Multimode Hybrid Deep Learning

The invention discloses an automatic discrimination method for ICO project fraud based on multi-mode hybrid in-depth learning, which includes steps: (1) extracting the multi-mode information of ICO project as feature input; (2) constructing a hierarchical in-depth learning network, training the in-depth learning model based on the existing ICO project as training sample; (3) inputting the features of ICO project that need to be discriminated into the trained level. If the output is 0, the in-depth learning model can discriminate the project as a fraudulent project, otherwise it can discriminate the project as a non-fraudulent project. The invention can solve the problem of automatically distinguishing whether a new ICO project is a fraudulent project or not, supplement the shortcomings of current methods for this problem, help investors to distinguish fraudulent ICO projects so as to avoid capital losses, and assist supervisory departments in automatic early warning of ICO project fraud.

【技术实现步骤摘要】
基于多模混合深度学习的ICO项目欺诈自动判别方法
本专利技术属于ICO项目欺诈判别
,具体涉及一种基于多模混合深度学习的ICO项目欺诈自动判别方法。
技术介绍
ICO全称为InitialCoinOffering,亦即首次代币发售或区块链众筹,其实质为区块链行业的一种融资模式。加密货币(如BTC、ETH、NEO等)正吸引着越来越多人的关注,与中心化电子货币和中心化银行系统相反,大多数数字代币不需要任何授权;这些去中心化系统通过区块链运转,区块链是一个开放、持续增长的分布式账本。具体而言,发行方通过发行基于区块链技术产生的代币(Token)来进行融资,投资方支付法定货币(如美元、人民币等)或虚拟货币(如比特币、以太币等)给发行方并获得相应比例的代币。具有代表性的ICO项目有比特币、以太币项目等,比特币自2009年发行以来,其价格由单枚不足0.01元蹿升至2018年的单枚43000元以上;与此类似,以太币自2015年发行至2018年,短短两年多的时间内其价格由初始的单枚不足30元上升至单枚2100元以上。以比特币和以太币为代表的代币的成功与暴利使得代币行业迅猛发展,截止目前全球已产生约2000个数字货币ICO项目,市场投资总额高达4万亿人民币以上。与证券行业的IPO(InitialPublicOffering)显著不同的是,ICO只受区块链中的共识算法制约,而不受国家法律的监管;ICO发行的代币基于区块链技术,不存在中心化机构,不受国别地域限制,任何国家的任何个人或机构都可以自由参与交易。国内以ICO模式,通过首次代币发行,进行区块链项目融资的活动大量涌现;早期投资者通过向项目发起人支付比特币或以太币等主流虚拟货币,以获得项目发起方基于区块链技术初始产生的加密数字代币,并期待代币将来在交易机构交易后,价格升值带来巨大潜在收益。当前众多的ICO项目中存在不少以区块链之名欺诈投资者的项目,如何在琳琅满目的ICO项目中自动甄别出哪些ICO项目是欺诈性的具有重大的社会价值与经济价值;尽管ICO项目可以提供公平的投资机会,众筹的便捷性给肆无忌惮的企业创造了使用ICO进行拉高出货的机会,也就是说ICO的发起人抬高了众筹加密货币的价格(俗称拉盘),然后迅速出售加密货币来获利(俗称砸盘);此外,加密货币的去中心化本质对政府监管带来了极大的挑战。具体而言,提出ICO项目欺诈自动判别的必要性体现在以下三点:首先,ICO项目往往涉及金额巨大,单个项目基本在一亿元人民币以上;其次,ICO项目不受国别和法律约束,一般不需要注册经营牌照,没有国家信任背书,投资者需要自担风险,而ICO的大部分投资者为爱好者或不专业的投资人员;第三,当前亟缺针对ICO项目欺诈性的自动甄别方法。
技术实现思路
鉴于上述,本专利技术提供了一种基于多模混合深度学习的ICO项目欺诈自动判别方法,该方法采用层次化的深度学习模型,输入ICO项目的多模信息包括项目基本信息、GitHub代码信息和白皮书信息,输出为ICO项目的欺诈性判别结果。一种基于多模混合深度学习的ICO项目欺诈自动判别方法,包括如下步骤:(1)抽取ICO项目的多模信息作为特征输入,所述ICO项目包括已有的ICO项目以及需要判别的ICO项目;(2)构建层次化的深度学习网络模型,基于当前已有的ICO项目特征作为训练样本对该深度学习网络模型进行训练;所述深度学习网络模型从输入到输出依次由layer1层、LSTM(长短期记忆网络)、layer2层、layer3层、两个全连接层以及Softmax层依次连接构成;其中,layer1、layer2、layer3层为隐藏层,神经单元个数可按需调整,激活函数使用Relu函数;LSTM层作用为将项目基本信息描述文字、白皮书等序列化文字转化为一个高维向量特征表示;全连接层的作用为逐层提取更高阶语义特征向量;Softmax层作用为获得目标输入项目属于欺诈或非欺诈项目两个类别的概率;(3)将需要判别的ICO项目特征输入至已训练好的深度学习网络模型,输出即为该ICO项目的欺诈性判别结果,输出结果为0则表示该ICO项目判别为欺诈项目,输出结果为1则表示该ICO项目判别为非欺诈项目。进一步地,所述步骤(1)的具体实现过程如下:1.1将ICO项目相关信息组织成三种类别:项目基本信息、GitHub代码信息和白皮书信息;1.2整合项目基本信息,并抽取该类信息的特征向量作为第一类特征向量;1.3统计ICO项目在GitHub中的代码文件个数、代码长度、最长代码文件长度、最短代码文件长度、平均代码文件长度、代码文件长度的方差、代码被查看次数作为人工提取的特征向量,即第二类特征向量;1.4使用章节将白皮书信息切分为多段,利用Doc2Vec模型将每一段抽取为300维的向量,抽取后得到的多个向量按照其对应段在白皮书中的顺序进行排列组成有序向量,同时统计白皮书的词数、平均词长度、章节数、词长方差、前50个高频词的出现次数作为人工提取的特征向量,即第三类特征向量。所述项目基本信息包括项目所属类别、项目简介、项目拟融资金额、项目虚拟币分配方案、项目核心团队、项目关键字,项目所属类别包括金融服务、博彩、医疗、社交网络、娱乐、保险、区块链底层平台技术、宗教、支付、其他,项目核心团队为项目排名前20的核心成员,项目关键字为排名前5的关键词;对于项目简介则利用开源项目Gensim的Doc2Vec模型进行抽取得到300维的向量,对于项目关键字则利用开源项目Gensim的Word2Vec模型进行抽取得到5个20维的向量,进而将这两部分向量排列组成有序向量;项目所属类别、项目拟融资金额、项目虚拟币分配方案、项目核心团队均使用人工提取的方法得到对应的特征向量。进一步地,所述项目基本信息的特征向量包括基于项目简介、关键词提取的有序向量以及基于人工提取的特征向量,其中有序向量通过layer1层顺序输入至对应的LSTM,人工提取的特征向量与对应layer2层的输出连接后输入至layer3层。进一步地,所述GitHub代码信息的特征向量仅包含人工提取的特征向量,其直接输入至layer3层,layer3层的输出经过两个全连接层(FullyConnectedLayer)和一个Softmax层输出分类结果的概率分布。进一步地,所述白皮书信息的特征向量包括基于白皮书文档提取的有序向量以及基于人工提取的特征向量,其中有序向量通过layer1层顺序输入至对应的LSTM,人工提取的特征向量与对应layer2层的输出连接后输入至layer3层。进一步地,所述步骤(2)的具体实现过程如下:2.1对于发行时间距今超过一年的ICO项目,将每个ICO项目关于项目基本信息、GitHub代码信息和白皮书信息的三类特征向量作为输入,使用深度学习网络模型进行有监督训练;2.2对于有监督训练中的标签设置方法为:若ICO项目在发行一年后失败或一年后价格变得低于发行价的0.2%,则认为该项目为欺诈项目,设置标签为0,否则设置标签为1。进一步地,所述步骤(3)中将需要判别的ICO项目特征输入至已训练好的深度学习网络模型,Softmax层输出该ICO项目为欺诈和非欺诈项目的概率,如欺诈概率高于非欺诈概率则最终输出结果为0,否则最终输出结果为1。本专利技术方法可以解决本文档来自技高网
...

【技术保护点】
1.一种基于多模混合深度学习的ICO项目欺诈自动判别方法,包括如下步骤:(1)抽取ICO项目的多模信息作为特征输入,所述ICO项目包括已有的ICO项目以及需要判别的ICO项目;(2)构建层次化的深度学习网络模型,基于当前已有的ICO项目特征作为训练样本对该深度学习网络模型进行训练;所述深度学习网络模型从输入到输出依次由layer1层、LSTM、layer2层、layer3层、两个全连接层以及Softmax层依次连接构成;(3)将需要判别的ICO项目特征输入至已训练好的深度学习网络模型,输出即为该ICO项目的欺诈性判别结果,输出结果为0则表示该ICO项目判别为欺诈项目,输出结果为1则表示该ICO项目判别为非欺诈项目。

【技术特征摘要】
1.一种基于多模混合深度学习的ICO项目欺诈自动判别方法,包括如下步骤:(1)抽取ICO项目的多模信息作为特征输入,所述ICO项目包括已有的ICO项目以及需要判别的ICO项目;(2)构建层次化的深度学习网络模型,基于当前已有的ICO项目特征作为训练样本对该深度学习网络模型进行训练;所述深度学习网络模型从输入到输出依次由layer1层、LSTM、layer2层、layer3层、两个全连接层以及Softmax层依次连接构成;(3)将需要判别的ICO项目特征输入至已训练好的深度学习网络模型,输出即为该ICO项目的欺诈性判别结果,输出结果为0则表示该ICO项目判别为欺诈项目,输出结果为1则表示该ICO项目判别为非欺诈项目。2.根据权利要求1所述的ICO项目欺诈自动判别方法,其特征在于:所述步骤(1)的具体实现过程如下:1.1将ICO项目相关信息组织成三种类别:项目基本信息、GitHub代码信息和白皮书信息;1.2整合项目基本信息,并抽取该类信息的特征向量作为第一类特征向量;1.3统计ICO项目在GitHub中的代码文件个数、代码长度、最长代码文件长度、最短代码文件长度、平均代码文件长度、代码文件长度的方差、代码被查看次数作为人工提取的特征向量,即第二类特征向量;1.4使用章节将白皮书信息切分为多段,利用Doc2Vec模型将每一段抽取为300维的向量,抽取后得到的多个向量按照其对应段在白皮书中的顺序进行排列组成有序向量,同时统计白皮书的词数、平均词长度、章节数、词长方差、前50个高频词的出现次数作为人工提取的特征向量,即第三类特征向量。3.根据权利要求2所述的ICO项目欺诈自动判别方法,其特征在于:所述项目基本信息包括项目所属类别、项目简介、项目拟融资金额、项目虚拟币分配方案、项目核心团队、项目关键字,项目所属类别包括金融服务、博彩、医疗、社交网络、娱乐、保险、区块链底层平台技术、宗教、支付、其他,项目核心团队为项目排名前20的核心成员,项目关键字为排名前5的关键词;对于项目简介则利用开源项目Gensim的Doc2Vec模型...

【专利技术属性】
技术研发人员:黄步添刘振广王从礼杨红星石太彬俞之贝
申请(专利权)人:杭州云象网络技术有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1