一种基于自然语言处理的人机验证方法和系统技术方案

技术编号：24169597 阅读：37 留言：0更新日期：2020-05-16 02:31

提出一种基于自然语言处理的人机验证方法和系统，通过若干方法获取用于进行人机验证的中文/英文语料；利用现有的语料库单词转换为多维词向量来分析单词与单词之间的关系，挖掘语料库中单词的联系；利用现有的一部分语料库凭借词向量构建人机验证模型；将用户输入的验证答案输入模型进行判断；将人类输入结果作为标签、训练集进行交叉验证，进行训练合并至原有验证集。基于自然语言处理的人机验证系统及方法对用户进行人机验证，降低互联网受到恶意攻击的风险，可用于登陆、注册等网络场景下对用户进行人机验证并生成自然语言训练语料集。

A man machine verification method and system based on natural language processing

全部详细技术资料下载

【技术实现步骤摘要】
一种基于自然语言处理的人机验证方法和系统
本专利技术涉及安全防护和自然语言处理
，特别是指一种基于自然语言处理的人机验证方法和系统。
技术介绍
即使现在互联网已经渗透到我们生活的方方面面，但它依然只是现实的物理世界在虚拟的网络空间上按比特信息编码后的投射。这就意味着自动化程序同样可以模仿人的行为，同时，因为机器速度更快且不知疲倦，它会被用于批量在论坛、网站、App中发布营销信息。而且，在监管不足的情况下，利润更高的行业往往底线更低。一些自动化程序还会尝试以「撞库」的方式窃取用户帐号、密码，给网站带来巨大的安全隐患。验证码正是为了解决这样的问题而生的。它也是个自动化程序，不过存在目的是区分用户到底是机器人还是真实的人。这些验证码有一个共同的原则：人类很容易识别，但对计算机来说非常困难。其次，验证码本身就被被称为一种「图灵测试」，所以它在设计之初就有促进人工智能发展的初衷。目前的人机验证机制大多通过图像识别等方式来提供验证，而对于图像的人工智能技术已经日趋完善。然而，市面上仍然存在打码机器人众多、人机验证识别度低和自然语言处理类型人机识别验证缺失等问题。
技术实现思路
本专利技术的主要目的在于克服现有技术中的上述缺陷，提出一种基于自然语言处理的人机验证方法和系统。本专利技术采用如下技术方案：一种基于自然语言处理的人机验证方法，其特征在于，包括如下步骤：S1：构建验证集的语料库；S2：根据语料库构建词向量模型；S3：根据语料库和词向量...

【技术保护点】
1.一种基于自然语言处理的人机验证方法，其特征在于，包括如下步骤：/nS1：构建验证集的语料库；/nS2：根据语料库构建词向量模型；/nS3：根据语料库和词向量模型构建人机验证模型；/nS4：对验证集采用模板法随机生成验证码；/nS5：将采集到的验证答案输入人机验证模型,判断是否满足要求，若否，则重复该步骤，若是，则验证通过。/n

【技术特征摘要】
1.一种基于自然语言处理的人机验证方法，其特征在于，包括如下步骤：
S1：构建验证集的语料库；
S2：根据语料库构建词向量模型；
S3：根据语料库和词向量模型构建人机验证模型；
S4：对验证集采用模板法随机生成验证码；
S5：将采集到的验证答案输入人机验证模型,判断是否满足要求，若否，则重复该步骤，若是，则验证通过。

2.如权利要求1所述的一种基于自然语言处理的人机验证方法，其特征在于，步骤S1具体包括如下：
S11：使用Scrapy框架爬取网络上的资讯、小说、百科和论文获得文本语料；
S12：下载基于维基百科、百度百科和搜狗提供的文本语料；
S13：对所有文本语料进行文本清洗；
S14：使用Jieba对清洗后的文本语料进行分词操作；
S15：通过现有语料标注或人工标注构建所述语料库。

3.如权利要求1所述的一种基于自然语言处理的人机验证方法，其特征在于,步骤S2中，采用Word2Vec构建词向量模型。

4.如权利要求1所述的一种基于自然语言处理的人机验证方法，其特征在于,步骤S3中，具体包括：
S31：采用所述词向量模型计算验证集中语料的文本向量距离，其包含杰卡德系数、TF-IDF词袋模型和编辑距离；
S32：获取验证集中文本词性和句子成分。

5.如权利要求4所述的一种基于自然语言处理的人机验证方法，其特征在于,步骤S31具体包括：
S311：计算杰卡德系数，比较验证集的文本语料之间的相似性与差异性；
S312：计算步骤S2获得的TF矩阵中两个向量的相似度；
S313：计算TF-IDF系数，在词频TF的基础上再加入IDF逆文档频率的信息；
S314：计算验证集中不同文本语料之间的编辑距离。

6.如权利要求4所述的一种基于自然语言处理的人机验证方法，其特征在于,步骤S32具体包括：
S321：通过语料...

【专利技术属性】
技术研发人员：潘玉彪，杨祉，吴晨皓，
申请(专利权)人：华侨大学，
类型：发明
国别省市：福建;35

全部详细技术资料下载我是这个专利的主人