一种基于NLP的专利自动识别分类的方法技术

技术编号:20680928 阅读:20 留言:0更新日期:2019-03-27 18:52
本发明专利技术提供了一种自动专利识别分类技术,目的是为了减少人工识别提高准确率。所述方法包括:首先在专利局上爬取特定领域下的所需数据,根据所需数据分析出匹配模式,根据匹配模式来对待匹配识别的专利进行一个语义标注,根据语义标注和规范形成xml文档描述专利。解析Xml文档,最后各个层面上的dom元素的相同率来对专利进行一个分类识别。其分为以下几个部分:网络爬虫数据清洗部分,自然语言处理部分,模式匹配生成xml文档部分。

【技术实现步骤摘要】
一种基于NLP的专利自动识别分类的方法
本专利技术属于计算机自然语言处理领域,尤其涉及自然语言处理和机器学习领域。
技术介绍
自然语言处理研究领域是作为人工智能的应用发展起来的。最早的自然语言处理方面的研究工作是机器翻译,20世纪60年代,国外对机器翻译曾有大规模的研究,工作普遍采用基于规则的方法,或者基于知识库的方法,在限定领域取得成功但人们低估了自然语言的复杂性,在开放领域遇到很大的困难。随着大规模词典和真实语料库的研制,给自然语言处理领域的研究带来了巨大变化,基于语料库的统计自然语言学习逐渐成为一种重要的方法自然语言处理系统,它能够面向大规模真实文本的处理,使得研制的系统开始面向实用。随着互联网的普及,为自然语言处理领域提供了强有力的应用牵引和海量语言资源自然语言处理技术和信息检索技术结合,使得自然语言处理技术的应用领域大大扩大。到现在Web2.0的普及,网络上积累了规模巨大的UserGeneratedContent,为自然语言处理技术的发展提供了新的资源和技术创新的源泉,例如Wikipedia、社区问答资源等,为建立大规模知识库奠定基础,使得基于知识的方法在开放域自然语言处理处理任务中的应用成为可能,同时基于知识的方法和基于统计的方法的融合受到关注。目前,自然语言处理包含了七大模块:句法语义分析、信息抽取、文本挖掘、机器翻译、信息检索、问答系统、对话系统。随着信息社会的不断发展,人们所产出的知识以几何级数递增。在当今知识管理体系中,文档仍为一个主要的知识存在形式,它包括了图书、报纸、期刊和万维网上数以亿一记的各种格式文本文件。这种非结构化的文档中的知识很难为一些工具所利用以达到快速获取信息的目的,因此我们十分需要一种有效的从非结构化、半结构化文档中获取知识的方法,用这些有效的知识对一个非结构化的文档进行有效的筛选。常见的信息抽取方案有基于网页结构、基于文档结构的,也有基于文档内容分析的,但缺乏领域语义的支持。所以根据专利文档的特点,研究国内外经典的语义标注方法,提出了一种基于自然语言处理的给定文档自动语义标注方法,用于从给定文档中自动的抽取出语义信息,生成结构化文档的行为很有必要。根据产生的结构化文档在当下,对专利有一定的描述,对于专利的识别分类判断主要是靠人工来进行的,这样的话,海量数据的筛选,一方面浪费了大量的人力资源,另一方面通过人的识别得也不一定准确,有一定的误差,所以一种基于自然语言处理(nlp)的自动识别分类技术应运而生。
技术实现思路
本专利技术创建一种对申请专利文档的语义标注,根据语义标注创建出特定描述,再根据特定描述来对申请专利文档的识别个归类,从而达到一个提高识别效率,减少人力资源的目的。为了实现上述目的,本专利技术的技术方案:一种基于NLP的专利自动识别分类的方法包括以下几个有效信息:大量的数据源,包括数据源为专利网上已呈现出来的专利和自己的部分待审核的伪造专利数据。专利网上的数据可以通过爬虫来实现,伪造专利数据可以修改部分真实专利内容,让他变成非专利。专利文档的特点:1、文档结构相对固定2、被标注文档涉及到的命名体识别相当专业,不被一般的词表锁包含。3、文档撰写的结构固定。4、句法结构严谨,用词规范。通用词表,领域词表,专利词表,用于给特定领域专利文档进行分词,预处理等等。模式匹配模块,根据一定的规则,对预处理的数据进行一个匹配得到结果。语义标注生成模块:根据模式模式匹配出的数据,生成语义标注。Xml文件生成模块:根据语义标注生成xml文件,对该文档进行一个描述。其中,数据源来源于专利网上的某一领域的专利,本次实验以安全信息领域相关。通过python对其数据进行爬取,得到大量的专利的说明文档。其中,文档结构固定使得有一部分信息提取方便,而且其中的专利名称是帮助我们对专利分类的重要依据。术语的专业性让我们能够针对专利的领域来选取不同的领域术语表,从而在命名实体识别过程中提高准确率。文档撰写结构固定、句法结构严谨、用词规范的特点有利于我们发现其中的模式。专利知识的确定性让我们可以顺利对语义信息建模并实现提取。其中,通用词表可以对文档的基本词汇进行分词,领域词表和专利词表可以对该领域下的文档进行一个分词标注,这样才能达到一个更好的预处理效果。其中,我们通过利用文档的语言特点来对其进行自然语言处理,从而识别出文档中含有的语义,最终映射到相应的专利语义模型中。对于每种语义的识别我们都必须通过文本的语法分析从而匹配相应的模式来实现。其中,通过我们的标注生成模块,语义信息被转化为符合规范的一格式的文件被存储,形成一个具有dom树的xml文件。其中,通过生成xml文件模块,对Dom树的制定元素信息进行分析,达到一个专利识别分类的效果。一种基于NLP的专利自动识别分类的实现方法,包括如下步骤:网络爬虫,获取特定领域专利数据。对网络爬虫的数据进行一个清洗,得到有用的信息安全领域的专利。根据通用词典,领域词典,和专利词典,对爬取的文档进行预处理。根据部分预处理后文档的特点,分析出抽取模式,这是训练的过程。根据抽取模式,对剩下的文件进行一个分析,得到dom文档树,形成xml文件。对Xml文件里面的关键文件元素的特点进行分析,最后再根据自己的规则,对新来得专利文件进行一个识别好分类。调解上面一步的分类规则的参数,增大准确性。重复上面一步,形成一个通用的准确识别分类方法。其中爬虫的规则准确导致第一步获取的信息源的准确,从而影响后续识别分类的准确性。其中通用词典,领域词典,和专利词典可以在网上进行搜索,越准确的预料,导致后续的结果越准。其中抽取模式的分析是问题的关键,根据专利文档的特点进行分析,得到关键描述词,根据描述词的前后词的关系进一步得到该领域下的所描述的问题的特点。其中DOM树的xml文件,格式更清晰,得到的信息更加明了,可以一目了然的了解文档的层次结构,和该专利的属性。其中,根据专利属性给专利分类识别的方法自行设计,暂时比较简单,主要难点是在于专利的语义标注。本专利技术的有益效果:本专利技术的模块和方法通过对专利局的数据进行清洗训练,得到一个有效的匹配模式,再根据这个匹配模式对制定待匹配的文档进行一个筛选,这个筛选工程是利用匹配得到的语义标注生成一个xml文档,根据xml文档对专利的描述然后用自己设定的方法,对文档进行识别和分类,看他是否是属于专利,并且看他是否以前有人申请过等等。大大的减少了人为操作,节省人力资源,同时提高了筛选的准确性。附图说明图1是本专利技术的整体结构。图2是本专利技术网络爬虫数据源获取的过程。图3是本专利技术的nlp语义标注的过程。图4是分类模型的训练和筛选的过程。具体实施方式为了使本专利技术的目的,技术方案和优点更加清楚明白,以下结合附图对本专利技术做进一步说明。如图1所示,一种基于NLP的专利自动识别分类的系统结构示意图,由图可知包括预处理:该模块主要包含了4个部分,经过预处理后得到的是一个精简的描述安全领域的文本文件,同时也能得到描述的具体哪一个安全领域(网页内容提取:主要是把给描述某一个安全领域专利大致提取,所有的内容都提取下来。结构分析:对提取下来的内容进行结构分析。基本属性提取:根据分析结果,运用规则库里面的规则对内容进行初略的筛选。专利名称发现:发现这篇文章描述了哪一个类型专利。)本文档来自技高网
...

【技术保护点】
1.一种基于NLP的专利自动识别分类的方法,其包含了如下的几个模块:网络爬虫,获取特定领域专利数据。网络爬虫模块:对网络爬虫的数据进行一个清洗,得到有用的信息安全领域的专利。自然语言处理模块:1)根据通用词典,领域词典,和专利词典,对爬取的文档进行预处理。2)根据部分预处理后文档的特点,分析出抽取模式,这是训练的过程。结果分析模块:1)根据抽取模式,对剩下的文件进行一个分析,得到dom文档树,形成xml文件。2)对Xml文件里面的关键文件元素的特点进行分析,最后再根据自己的规则,对新来得专利文件进行一个识别分类。。

【技术特征摘要】
1.一种基于NLP的专利自动识别分类的方法,其包含了如下的几个模块:网络爬虫,获取特定领域专利数据。网络爬虫模块:对网络爬虫的数据进行一个清洗,得到有用的信息安全领域的专利。自然语言处理模块:1)根据通用词典,领域词典,和专利词典,对爬取的文档进行预处理。2)根据部分预处理后文档的特点,分析出抽取模式,这是训练的过程。结果分析模块:1)根据抽取模式,对剩下的文件进行一个分析,得到dom文档树,形成xml文件。2)对Xml文件里面的关键文件元素的特点进行分析,最后再根据自己的规则,对新来得专利文件进行一个识别分类。。2.根据权利要求1所述的爬虫模块,需要根据网站的特征分析并得到所需要的文档描述文件。3.根据权利要求1所述的自然语言处理的预处理部分,所得专利其特征在于,可以分为头文件,说明书摘要,说明书,以及权力要求书四个部分。头部信息有很多,需存放到一个MAP中,其他基本信息用STRING来进行描述。并且调用国际IPC专利分类标准查找分类的含...

【专利技术属性】
技术研发人员:不公告发明人
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1