一种自然语言信息处理方法及系统技术方案

技术编号:16427903 阅读:41 留言:0更新日期:2017-10-21 22:46
本发明专利技术公开了一种自然语言信息处理方法及系统。方法包括获取原始网页;对所述原始网页进行分析,提取网页中的自然语言信息;从所述自然语言信息中获取指定行业的文字信息;对所述文字信息进行清理;对清理后的所述文字信息进行结构化处理;根据结构化处理后的信息对指定行业进行分析。本发明专利技术采用成熟的网络爬虫技术,从海量的网络公共信息中抓取特定行业的文字信息。经过文字清理、结构化处理技术将海量的、杂乱的信息变成结构化的,可统计分析的数据,并用于分析选定行业的现状、分析社会对选定行业的各种看法态度看法等,指导行业发展,修正行业的方向,为行业的相关企业提供的决策上的依据,助力企业发展。

A natural language information processing method and system

The invention discloses a natural language information processing method and system. Methods include access to the original web page; the original page analysis, natural language information extraction in web pages; access to the specified industry from the natural language information in text information; to clean up the text information; on the text information of the structure after cleaning treatment; according to the analysis of the designated industry structure after processing the information. The invention adopts mature network crawler technology to capture the text information of the specific industry from the massive network public information. After cleaning, the structured text processing technology will be messy mass of information, a structured, can be used for statistical analysis of the data, and the status quo, analysis of the selected industry analysis for selected industries of various views of social attitudes, guiding the development of the industry, correct direction of the industry, for Industry related enterprises on the basis of the decision and help the development of enterprises.

【技术实现步骤摘要】
一种自然语言信息处理方法及系统
本专利技术涉及互联网
,尤其涉及一种自然语言信息处理方法及系统。
技术介绍
随着信息网络技术的发展,互联网中出现越来越多形式各异的数据资源。从海量异构的网络数据中准确高效地发现并获取用户所需的数据信息,需要对网络数据进行有效地组织管理。信息组织是指按照一定的规则来描述信息资源或信息对象,以便于能被需要它们的人高效地利用。信息检索则是指为了个人或他人的需要,去发现适当的信息资源或信息对象。信息组织和信息检索是一对互逆过程。信息检索的涵义满足信息用户的信息需求而建立的、存贮经过加工了的信息集合,拥有特定的存贮、检索与传送的技术装备,提供一定存贮与检索方法及检索服务功能的一种相对独立的服务实体包括人和检索工作单位,统称为信息检索系统InformationRetrievalSystem,简称IRS。如何对互联网中的各种信息进行分析处理,得到特定行业的分析数据成为亟待解决的问题。
技术实现思路
有鉴于此,本专利技术提供了一种自然语言信息处理方法,包括:获取原始网页;对所述原始网页进行分析,提取网页中的自然语言信息;从所述自然语言信息中获取指定行业的文字信息;对所述文字信息进行清理;对清理后的所述文字信息进行结构化处理;根据结构化处理后的信息对指定行业进行分析。进一步地,从所述自然语言信息中获取指定行业的文字信息之后,还包括:将所述文字信息存储到Hadoop系统中。进一步地,所述对所述文字信息进行清理,包括:删除文字信息中的广告信息。进一步地,所述对清理后的所述文字信息进行结构化处理之后,还包括:将结构化处理后的信息存储到Hadoop系统中的Hbase数据库。进一步地,所述根据结构化处理后的信息对指定行业进行分析包括:从Hbase数据库中获取结构化处理后的信息;从所述结构化处理后的信息中提取所述指定行业的现状信息、社会对所述指定行业的看法信息。本专利技术还提供了一种自然语言信息处理系统,包括:网页获取模块,用于获取原始网页;自然语言提取模块,用于对所述原始网页进行分析,提取网页中的自然语言信息;指定信息提取模块,用于从所述自然语言信息中获取指定行业的文字信息;清理模块,用于对所述文字信息进行清理;结构化处理模块,用于对清理后的所述文字信息进行结构化处理;分析模块,用于根据结构化处理后的信息对指定行业进行分析。进一步地,还包括:第一存储模块,用于将所述文字信息存储到Hadoop系统中。进一步地,所述清理模块包括:广告删除单元,用于删除文字信息中的广告信息。进一步地,还包括:第二存储模块,用于将结构化处理后的信息存储到Hadoop系统中的Hbase数据库。进一步地,所述分析模块包括:获取单元,用于从Hbase数据库中获取结构化处理后的信息;分析单元,用于从所述结构化处理后的信息中提取所述指定行业的现状信息、社会对所述指定行业的看法信息。综上所述,本专利技术通过获取原始网页;对所述原始网页进行分析,提取网页中的自然语言信息;从所述自然语言信息中获取指定行业的文字信息;对所述文字信息进行清理;对清理后的所述文字信息进行结构化处理;根据结构化处理后的信息对指定行业进行分析。本专利技术使用成熟的大数据存储系——Hadoop系统、Hbase数据库,为大数据的存储、操作提供便捷的服务。采用成熟的网络爬虫技术,从海量的网络公共信息中抓取特定行业的文字信息。经过文字清理、结构化处理技术将海量的、杂乱的信息变成结构化的,可统计分析的数据,并用于分析选定行业的现状、分析社会对选定行业的各种看法态度看法等,指导行业发展,修正行业的方向,为行业的相关企业提供的决策上的依据,助力企业发展。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。图1是根据本专利技术实施例的自然语言信息处理方法的计算机终端的硬件结构框图;图2是根据本专利技术实施例的自然语言信息处理方法流程图;图3是根据本专利技术实施例的自然语言信息处理系统的交互图;图4是根据本专利技术实施例的自然语言信息处理系统的结构框图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。实施例1根据本专利技术实施例,提供了一种自然语言信息处理方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例,图1是根据本专利技术实施例的自然语言信息处理方法的计算机终端的硬件结构框图。如图1所示,计算机终端100可以包括一个或多个(图中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端100还可包括比图1中所示更多或者更少的组件,或者具有与图2所示不同的配置。存储器104可用于存储应用软件的软件程序以及模块,如本专利技术实施例中的短文本分类方法对应的程序指令/模块,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的短文本分类方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端100。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端100的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(NetworkInterfaceController,简称为NIC),其可通过基站与其他网络设备相连从而可与互本文档来自技高网
...
一种自然语言信息处理方法及系统

【技术保护点】
一种自然语言信息处理方法,其特征在于,包括:获取原始网页;对所述原始网页进行分析,提取网页中的自然语言信息;从所述自然语言信息中获取指定行业的文字信息;对所述文字信息进行清理;对清理后的所述文字信息进行结构化处理;根据结构化处理后的信息对指定行业进行分析。

【技术特征摘要】
1.一种自然语言信息处理方法,其特征在于,包括:获取原始网页;对所述原始网页进行分析,提取网页中的自然语言信息;从所述自然语言信息中获取指定行业的文字信息;对所述文字信息进行清理;对清理后的所述文字信息进行结构化处理;根据结构化处理后的信息对指定行业进行分析。2.根据权利要求1所述的自然语言信息处理方法,其特征在于,从所述自然语言信息中获取指定行业的文字信息之后,还包括:将所述文字信息存储到Hadoop系统中。3.根据权利要求1所述的自然语言信息处理方法,其特征在于,所述对所述文字信息进行清理,包括:删除文字信息中的广告信息。4.根据权利要求1所述的自然语言信息处理方法,其特征在于,所述对清理后的所述文字信息进行结构化处理之后,还包括:将结构化处理后的信息存储到Hadoop系统中的Hbase数据库。5.根据权利要求4所述的自然语言信息处理方法,其特征在于,所述根据结构化处理后的信息对指定行业进行分析包括:从Hbase数据库中获取结构化处理后的信息;从所述结构化处理后的信息中提取所述指定行业的现状信息、社会对所述指定行业的看法信息。6.一种自然语言信息处理系...

【专利技术属性】
技术研发人员:张爱国
申请(专利权)人:广州诚予国际市场信息研究有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1