【技术实现步骤摘要】
一种基于NLP的专利自动识别分类的方法
本专利技术属于计算机自然语言处理领域,尤其涉及自然语言处理和机器学习领域。
技术介绍
自然语言处理研究领域是作为人工智能的应用发展起来的。最早的自然语言处理方面的研究工作是机器翻译,20世纪60年代,国外对机器翻译曾有大规模的研究,工作普遍采用基于规则的方法,或者基于知识库的方法,在限定领域取得成功但人们低估了自然语言的复杂性,在开放领域遇到很大的困难。随着大规模词典和真实语料库的研制,给自然语言处理领域的研究带来了巨大变化,基于语料库的统计自然语言学习逐渐成为一种重要的方法自然语言处理系统,它能够面向大规模真实文本的处理,使得研制的系统开始面向实用。随着互联网的普及,为自然语言处理领域提供了强有力的应用牵引和海量语言资源自然语言处理技术和信息检索技术结合,使得自然语言处理技术的应用领域大大扩大。到现在Web2.0的普及,网络上积累了规模巨大的UserGeneratedContent,为自然语言处理技术的发展提供了新的资源和技术创新的源泉,例如Wikipedia、社区问答资源等,为建立大规模知识库奠定基础,使得基于知识的方法 ...
【技术保护点】
1.一种基于NLP的专利自动识别分类的方法,其包含了如下的几个模块:网络爬虫,获取特定领域专利数据。网络爬虫模块:对网络爬虫的数据进行一个清洗,得到有用的信息安全领域的专利。自然语言处理模块:1)根据通用词典,领域词典,和专利词典,对爬取的文档进行预处理。2)根据部分预处理后文档的特点,分析出抽取模式,这是训练的过程。结果分析模块:1)根据抽取模式,对剩下的文件进行一个分析,得到dom文档树,形成xml文件。2)对Xml文件里面的关键文件元素的特点进行分析,最后再根据自己的规则,对新来得专利文件进行一个识别分类。。
【技术特征摘要】
1.一种基于NLP的专利自动识别分类的方法,其包含了如下的几个模块:网络爬虫,获取特定领域专利数据。网络爬虫模块:对网络爬虫的数据进行一个清洗,得到有用的信息安全领域的专利。自然语言处理模块:1)根据通用词典,领域词典,和专利词典,对爬取的文档进行预处理。2)根据部分预处理后文档的特点,分析出抽取模式,这是训练的过程。结果分析模块:1)根据抽取模式,对剩下的文件进行一个分析,得到dom文档树,形成xml文件。2)对Xml文件里面的关键文件元素的特点进行分析,最后再根据自己的规则,对新来得专利文件进行一个识别分类。。2.根据权利要求1所述的爬虫模块,需要根据网站的特征分析并得到所需要的文档描述文件。3.根据权利要求1所述的自然语言处理的预处理部分,所得专利其特征在于,可以分为头文件,说明书摘要,说明书,以及权力要求书四个部分。头部信息有很多,需存放到一个MAP中,其他基本信息用STRING来进行描述。并且调用国际IPC专利分类标准查找分类的含...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。