当前位置: 首页 > 专利查询>华侨大学专利>正文

一种基于自然语言处理的人机验证方法和系统技术方案

技术编号:24169597 阅读:37 留言:0更新日期:2020-05-16 02:31
提出一种基于自然语言处理的人机验证方法和系统,通过若干方法获取用于进行人机验证的中文/英文语料;利用现有的语料库单词转换为多维词向量来分析单词与单词之间的关系,挖掘语料库中单词的联系;利用现有的一部分语料库凭借词向量构建人机验证模型;将用户输入的验证答案输入模型进行判断;将人类输入结果作为标签、训练集进行交叉验证,进行训练合并至原有验证集。基于自然语言处理的人机验证系统及方法对用户进行人机验证,降低互联网受到恶意攻击的风险,可用于登陆、注册等网络场景下对用户进行人机验证并生成自然语言训练语料集。

A man machine verification method and system based on natural language processing

【技术实现步骤摘要】
一种基于自然语言处理的人机验证方法和系统
本专利技术涉及安全防护和自然语言处理
,特别是指一种基于自然语言处理的人机验证方法和系统。
技术介绍
即使现在互联网已经渗透到我们生活的方方面面,但它依然只是现实的物理世界在虚拟的网络空间上按比特信息编码后的投射。这就意味着自动化程序同样可以模仿人的行为,同时,因为机器速度更快且不知疲倦,它会被用于批量在论坛、网站、App中发布营销信息。而且,在监管不足的情况下,利润更高的行业往往底线更低。一些自动化程序还会尝试以「撞库」的方式窃取用户帐号、密码,给网站带来巨大的安全隐患。验证码正是为了解决这样的问题而生的。它也是个自动化程序,不过存在目的是区分用户到底是机器人还是真实的人。这些验证码有一个共同的原则:人类很容易识别,但对计算机来说非常困难。其次,验证码本身就被被称为一种「图灵测试」,所以它在设计之初就有促进人工智能发展的初衷。目前的人机验证机制大多通过图像识别等方式来提供验证,而对于图像的人工智能技术已经日趋完善。然而,市面上仍然存在打码机器人众多、人机验证识别度低和自然语言处理类型人机识别验证缺失等问题。
技术实现思路
本专利技术的主要目的在于克服现有技术中的上述缺陷,提出一种基于自然语言处理的人机验证方法和系统。本专利技术采用如下技术方案:一种基于自然语言处理的人机验证方法,其特征在于,包括如下步骤:S1:构建验证集的语料库;S2:根据语料库构建词向量模型;S3:根据语料库和词向量模型构建人机验证模型;S4:对验证集采用模板法随机生成验证码;S5:将采集到的验证答案输入人机验证模型,判断是否满足要求,若否,则重复该步骤,若是,则验证通过。优选的,步骤S1具体包括如下:S11:使用Scrapy框架爬取网络上的资讯、小说、百科和论文获得文本语料;S12:下载基于维基百科、百度百科和搜狗提供的文本语料;S13:对所有文本语料进行文本清洗;S14:使用Jieba对清洗后的文本语料进行分词操作;S15:通过现有语料标注或人工标注构建所述语料库。优选的,步骤S2中,采用Word2Vec构建词向量模型。优选的,步骤S3中,具体包括:S31:采用所述词向量模型计算验证集中语料的文本向量距离,其包含杰卡德系数、TF-IDF词袋模型和编辑距离;S32:获取验证集中文本词性和句子成分。优选的,步骤S31具体包括:S311:计算杰卡德系数,比较验证集的文本语料之间的相似性与差异性;S312:计算步骤S2获得的TF矩阵中两个向量的相似度;S313:计算TF-IDF系数,在词频TF的基础上再加入IDF逆文档频率的信息;S314:计算验证集中不同文本语料之间的编辑距离。优选的,步骤S32具体包括:S321:通过语料库的文本语料得到文本语料中各分词的词性及句子成分;S322:通过语料统计,得到语料库中未曾记录的词语的起始概率、发射概率和转移概率;S323:使用Viterbi算法,将对输入的句子进行分词转化得到语料库中词性标注种类和个数。优选的,步骤S4具体包括:S41:随机从验证集中抽取一个句子;S42:对抽取到的句子自动进行句子结构的划分,形式为<Ei,R,Ej>,Ei、Ej为实体,R为关系;S43:依据句子结构划分借助已有的问题模板进行问题生成。优选的,步骤S5具体包括:S51:判断用户输入的验证答案是否符合自然语法;S52:判断用户输入验证答案和抽取的句子相似度是否达到80%;S53:若达到相似的要求,则验证通过;否则,返回步骤S4。优选的,还包括步骤S6,利用PCR回归建模,通过交叉验证对验证集进行优化、合并,具体包括如下:S61:服务器存储收集来的各种通过人机验证的语料;S62:选取通过次数较多的语料,输入到PCR回归模型中进行交叉验证结果正确性;S63:将通过交叉验证的语料输入训练好的TF-IDF词袋模型进行训练;S64:将通过交叉验证的语料合并至已有验证集。一种基于自然语言处理的人机验证系统,其特征在于,应用上述的一种基于自然语言处理的人机验证方法,包括:验证集模块,设有验证集,其包括语料库和词向量模型;验证码生成模块,对验证集采用模板法随机生成验证码;人机界面模块,提供操作界面以供显示验证码和输入验证答案;人机验证模型模块,用于根据输入的验证答案,判断是否满足要求。由上述对本专利技术的描述可知,与现有技术相比,本专利技术具有如下有益效果:1、降低互联网受到恶意攻击的风险,可用于登陆、注册等网络场景下对用户进行人机验证,有效防止了机器人爬虫。2、生成并公开自然语言训练语料集用于自然语言处理领域促进当代人工智能产业发展。附图说明图1为本专利技术流程图。以下结合附图和具体实施例对本专利技术作进一步详述。具体实施方式以下通过具体实施方式对本专利技术作进一步的描述。本专利技术的一种基于自然语言处理的人机验证系统及方法,包括以下步骤:(1)验证集语料库的构建;(2)验证集语料的词向量模型的构建;(3)人机验证自然语言处理模型的构建;(4)利用模板法随机生成验证码;(5)将采集到的验证答案进行人机识别分析;(6)利用PCR回归建模,通过交叉验证对验证集进行优化、合并。参见图1,一种基于自然语言处理的人机验证方法,包括如下步骤:S1:构建验证集的语料库。其具体包括如下:S11:使用Scrapy框架爬取网络上的资讯、小说、百科和论文获得文本语料;S12:下载基于维基百科、百度百科和搜狗提供的文本语料;S13:对所有文本语料进行文本清洗。文本清洗包括文本标准化、符后标准化、停词去除、词性分析、命名实体、变形标准化等。S14:使用Jieba对清洗后的文本语料进行分词操作。S15:通过现有语料标注或人工标注构建所述语料库。S2:根据语料库构建词向量模型,具体的,本专利技术采用Word2Vec构建词向量模型。S3:根据语料库和词向量模型构建人机验证模型。其具体包括:S31:采用词向量模型计算验证集中语料的文本向量距离,其包含杰卡德系数、TF-IDF词袋模型和编辑距离。TF-IDF词袋模型中包含TF-IDF系数及余弦相似度。本步骤具体包括:S311:计算杰卡德系数,比较验证集的文本语料之间的相似性与差异性;S312:计算步骤S2获得的TF矩阵中两个向量的相似度,即采用Word2Vec构建的两个单词的词向量;S313:计算TF-IDF系数,在词频TF的基础上再加入IDF逆文档频率的信息;S314:计算验证集中不同文本语料之间的编辑距离。S32:获取验证集中文本词性(863词性本文档来自技高网...

【技术保护点】
1.一种基于自然语言处理的人机验证方法,其特征在于,包括如下步骤:/nS1:构建验证集的语料库;/nS2:根据语料库构建词向量模型;/nS3:根据语料库和词向量模型构建人机验证模型;/nS4:对验证集采用模板法随机生成验证码;/nS5:将采集到的验证答案输入人机验证模型,判断是否满足要求,若否,则重复该步骤,若是,则验证通过。/n

【技术特征摘要】
1.一种基于自然语言处理的人机验证方法,其特征在于,包括如下步骤:
S1:构建验证集的语料库;
S2:根据语料库构建词向量模型;
S3:根据语料库和词向量模型构建人机验证模型;
S4:对验证集采用模板法随机生成验证码;
S5:将采集到的验证答案输入人机验证模型,判断是否满足要求,若否,则重复该步骤,若是,则验证通过。


2.如权利要求1所述的一种基于自然语言处理的人机验证方法,其特征在于,步骤S1具体包括如下:
S11:使用Scrapy框架爬取网络上的资讯、小说、百科和论文获得文本语料;
S12:下载基于维基百科、百度百科和搜狗提供的文本语料;
S13:对所有文本语料进行文本清洗;
S14:使用Jieba对清洗后的文本语料进行分词操作;
S15:通过现有语料标注或人工标注构建所述语料库。


3.如权利要求1所述的一种基于自然语言处理的人机验证方法,其特征在于,步骤S2中,采用Word2Vec构建词向量模型。


4.如权利要求1所述的一种基于自然语言处理的人机验证方法,其特征在于,步骤S3中,具体包括:
S31:采用所述词向量模型计算验证集中语料的文本向量距离,其包含杰卡德系数、TF-IDF词袋模型和编辑距离;
S32:获取验证集中文本词性和句子成分。


5.如权利要求4所述的一种基于自然语言处理的人机验证方法,其特征在于,步骤S31具体包括:
S311:计算杰卡德系数,比较验证集的文本语料之间的相似性与差异性;
S312:计算步骤S2获得的TF矩阵中两个向量的相似度;
S313:计算TF-IDF系数,在词频TF的基础上再加入IDF逆文档频率的信息;
S314:计算验证集中不同文本语料之间的编辑距离。


6.如权利要求4所述的一种基于自然语言处理的人机验证方法,其特征在于,步骤S32具体包括:
S321:通过语料...

【专利技术属性】
技术研发人员:潘玉彪杨祉吴晨皓
申请(专利权)人:华侨大学
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1