一种基于NLP的专利自动识别分类的方法技术

技术编号:20680928 阅读:29 留言:0更新日期:2019-03-27 18:52
本发明专利技术提供了一种自动专利识别分类技术,目的是为了减少人工识别提高准确率。所述方法包括:首先在专利局上爬取特定领域下的所需数据,根据所需数据分析出匹配模式,根据匹配模式来对待匹配识别的专利进行一个语义标注,根据语义标注和规范形成xml文档描述专利。解析Xml文档,最后各个层面上的dom元素的相同率来对专利进行一个分类识别。其分为以下几个部分:网络爬虫数据清洗部分,自然语言处理部分,模式匹配生成xml文档部分。

【技术实现步骤摘要】
一种基于NLP的专利自动识别分类的方法
本专利技术属于计算机自然语言处理领域,尤其涉及自然语言处理和机器学习领域。
技术介绍
自然语言处理研究领域是作为人工智能的应用发展起来的。最早的自然语言处理方面的研究工作是机器翻译,20世纪60年代,国外对机器翻译曾有大规模的研究,工作普遍采用基于规则的方法,或者基于知识库的方法,在限定领域取得成功但人们低估了自然语言的复杂性,在开放领域遇到很大的困难。随着大规模词典和真实语料库的研制,给自然语言处理领域的研究带来了巨大变化,基于语料库的统计自然语言学习逐渐成为一种重要的方法自然语言处理系统,它能够面向大规模真实文本的处理,使得研制的系统开始面向实用。随着互联网的普及,为自然语言处理领域提供了强有力的应用牵引和海量语言资源自然语言处理技术和信息检索技术结合,使得自然语言处理技术的应用领域大大扩大。到现在Web2.0的普及,网络上积累了规模巨大的UserGeneratedContent,为自然语言处理技术的发展提供了新的资源和技术创新的源泉,例如Wikipedia、社区问答资源等,为建立大规模知识库奠定基础,使得基于知识的方法在开放域自然语言处理本文档来自技高网...

【技术保护点】
1.一种基于NLP的专利自动识别分类的方法,其包含了如下的几个模块:网络爬虫,获取特定领域专利数据。网络爬虫模块:对网络爬虫的数据进行一个清洗,得到有用的信息安全领域的专利。自然语言处理模块:1)根据通用词典,领域词典,和专利词典,对爬取的文档进行预处理。2)根据部分预处理后文档的特点,分析出抽取模式,这是训练的过程。结果分析模块:1)根据抽取模式,对剩下的文件进行一个分析,得到dom文档树,形成xml文件。2)对Xml文件里面的关键文件元素的特点进行分析,最后再根据自己的规则,对新来得专利文件进行一个识别分类。。

【技术特征摘要】
1.一种基于NLP的专利自动识别分类的方法,其包含了如下的几个模块:网络爬虫,获取特定领域专利数据。网络爬虫模块:对网络爬虫的数据进行一个清洗,得到有用的信息安全领域的专利。自然语言处理模块:1)根据通用词典,领域词典,和专利词典,对爬取的文档进行预处理。2)根据部分预处理后文档的特点,分析出抽取模式,这是训练的过程。结果分析模块:1)根据抽取模式,对剩下的文件进行一个分析,得到dom文档树,形成xml文件。2)对Xml文件里面的关键文件元素的特点进行分析,最后再根据自己的规则,对新来得专利文件进行一个识别分类。。2.根据权利要求1所述的爬虫模块,需要根据网站的特征分析并得到所需要的文档描述文件。3.根据权利要求1所述的自然语言处理的预处理部分,所得专利其特征在于,可以分为头文件,说明书摘要,说明书,以及权力要求书四个部分。头部信息有很多,需存放到一个MAP中,其他基本信息用STRING来进行描述。并且调用国际IPC专利分类标准查找分类的含...

【专利技术属性】
技术研发人员:不公告发明人
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1