The invention discloses a natural language information processing method and system. Methods include access to the original web page; the original page analysis, natural language information extraction in web pages; access to the specified industry from the natural language information in text information; to clean up the text information; on the text information of the structure after cleaning treatment; according to the analysis of the designated industry structure after processing the information. The invention adopts mature network crawler technology to capture the text information of the specific industry from the massive network public information. After cleaning, the structured text processing technology will be messy mass of information, a structured, can be used for statistical analysis of the data, and the status quo, analysis of the selected industry analysis for selected industries of various views of social attitudes, guiding the development of the industry, correct direction of the industry, for Industry related enterprises on the basis of the decision and help the development of enterprises.
【技术实现步骤摘要】
一种自然语言信息处理方法及系统
本专利技术涉及互联网
,尤其涉及一种自然语言信息处理方法及系统。
技术介绍
随着信息网络技术的发展,互联网中出现越来越多形式各异的数据资源。从海量异构的网络数据中准确高效地发现并获取用户所需的数据信息,需要对网络数据进行有效地组织管理。信息组织是指按照一定的规则来描述信息资源或信息对象,以便于能被需要它们的人高效地利用。信息检索则是指为了个人或他人的需要,去发现适当的信息资源或信息对象。信息组织和信息检索是一对互逆过程。信息检索的涵义满足信息用户的信息需求而建立的、存贮经过加工了的信息集合,拥有特定的存贮、检索与传送的技术装备,提供一定存贮与检索方法及检索服务功能的一种相对独立的服务实体包括人和检索工作单位,统称为信息检索系统InformationRetrievalSystem,简称IRS。如何对互联网中的各种信息进行分析处理,得到特定行业的分析数据成为亟待解决的问题。
技术实现思路
有鉴于此,本专利技术提供了一种自然语言信息处理方法,包括:获取原始网页;对所述原始网页进行分析,提取网页中的自然语言信息;从所述自然语言信息中获取指定行业的文字信息;对所述文字信息进行清理;对清理后的所述文字信息进行结构化处理;根据结构化处理后的信息对指定行业进行分析。进一步地,从所述自然语言信息中获取指定行业的文字信息之后,还包括:将所述文字信息存储到Hadoop系统中。进一步地,所述对所述文字信息进行清理,包括:删除文字信息中的广告信息。进一步地,所述对清理后的所述文字信息进行结构化处理之后,还包括:将结构化处理后的信息存储到Hadoop ...
【技术保护点】
一种自然语言信息处理方法,其特征在于,包括:获取原始网页;对所述原始网页进行分析,提取网页中的自然语言信息;从所述自然语言信息中获取指定行业的文字信息;对所述文字信息进行清理;对清理后的所述文字信息进行结构化处理;根据结构化处理后的信息对指定行业进行分析。
【技术特征摘要】
1.一种自然语言信息处理方法,其特征在于,包括:获取原始网页;对所述原始网页进行分析,提取网页中的自然语言信息;从所述自然语言信息中获取指定行业的文字信息;对所述文字信息进行清理;对清理后的所述文字信息进行结构化处理;根据结构化处理后的信息对指定行业进行分析。2.根据权利要求1所述的自然语言信息处理方法,其特征在于,从所述自然语言信息中获取指定行业的文字信息之后,还包括:将所述文字信息存储到Hadoop系统中。3.根据权利要求1所述的自然语言信息处理方法,其特征在于,所述对所述文字信息进行清理,包括:删除文字信息中的广告信息。4.根据权利要求1所述的自然语言信息处理方法,其特征在于,所述对清理后的所述文字信息进行结构化处理之后,还包括:将结构化处理后的信息存储到Hadoop系统中的Hbase数据库。5.根据权利要求4所述的自然语言信息处理方法,其特征在于,所述根据结构化处理后的信息对指定行业进行分析包括:从Hbase数据库中获取结构化处理后的信息;从所述结构化处理后的信息中提取所述指定行业的现状信息、社会对所述指定行业的看法信息。6.一种自然语言信息处理系...
【专利技术属性】
技术研发人员:张爱国,
申请(专利权)人:广州诚予国际市场信息研究有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。