当前位置: 首页 > 专利查询>蔡亮华专利>正文

词汇信息处理方法及系统技术方案

技术编号:4945820 阅读:209 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种词汇信息处理方法及系统,其中方法包括:从互联网上获取待测量词汇信息,将待测量词汇信息生成标准化数据;按照设定条件从标准化数据中抽取部分数据,形成抽取数据;对抽取数据进行切词匹配,形成切词数据,对切词数据进行聚类处理,并将聚类处理后的切词数据分类存储;对分类存储后的切词数据分别进行词汇语义信息解析,计算词汇语义信息的比重值,根据比重值计算切词数据的词汇语义参数;对词汇语义参数进行综合测量,获取评测结果。本发明专利技术提供的词汇信息处理方法及系统,通过将待测量词汇信息进行聚类处理,对待测量词汇信息进行客观分类和评测,实现对特定主题综合的全方位评测,避免互联网用户对特定主题带有主观片面的评价。

【技术实现步骤摘要】

本专利技术涉及网络技术,尤其涉及一种基于互联网的词汇信息处理方法及系统
技术介绍
随着网络技术的迅速发展,互联网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine)作为辅助人们检索信息的工具成为用户访问互联网的入口和指南。网络爬虫作为搜索引擎的重要组成,是一个自动提取网页的程序,用于为搜索引擎从互联网上下载网页。 传统网络爬虫从一个或若干初始网页的统一资源定位符(UniformResourceLocator,以下简称URL)开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入URL队列,直到满足系统设定的停止搜索条件。此外,所有被网络爬虫抓取的网页将会被存储,通过对所抓取的网页进行分析、过滤后,建立索引,以便用户对相关信息的查询和检索。 现有技术中,搜索引擎仅仅能够向用户提供网络爬虫所抓取的网页信息,并不能抓取用户所想要的仅与特定主题相关的信息,用户仍需要对网络爬虫所抓取的网页信息进行甄别,并且该甄别过程具有较高的主观性。此外,当用户通过搜索引擎检索到特定主题(比如某一具体事件或者某一具体人物)的相关信息时,用户只能获取关于该网页的点击频次、媒体曝光度等简单的关于该特定主题的评价结果,该评价结果只能表现出该具体事件在互联网环境下的关注热度,用户并不能针对该具体事件在互联网环境下的关注热度得知针对该具体事件相关信息的客观的全方位的评测,从而对该特定主题的评价带有主观的、片面的评价。
技术实现思路
本专利技术的目的在于提供一种词汇信息处理方法及系统,对互联网上发布的信息进行客观的全方位评测,避免了互联网用户对特定主题带有主观的、片面的评价。 为实现上述目的,本专利技术提供了一种词汇信息处理方法,包括以下步骤 从互联网上获取待测量词汇信息,将所述待测量词汇信息生成标准化数据,所述标准化数据采用二维数据表的格式存储; 按照设定条件从所述标准化数据中抽取部分数据,形成抽取数据; 对所述抽取数据进行切词匹配,形成切词数据,对所述切词数据进行聚类处理,并将聚类处理后的所述切词数据分类存储; 对分类存储后的切词数据分别进行词汇语义信息解析,计算词汇语义信息的比重值,根据所述比重值计算所述切词数据的词汇语义参数; 对所述词汇语义参数进行综合测量,获取评测结果。 所述从互联网上获取待测量词汇信息,将所述待测量词汇信息生成标准化数据具体为4 根据所述待测量词汇的词汇语义进行自动检索,从互联网上获取待测量词汇信息; 将所述待测量词汇信息下载到本地数据库; 将下载到所述本地数据库的待测量词汇信息生成所述标准化数据。 所述对所述抽取数据进行切词匹配,形成切词数据具体为 在本地词库中查找所述抽取数据所对应的字符串,比较所述抽取数据所对应的字符串与所述本地词库中的字符串,将所述抽取数据生成切词数据。 对所述切词数据进行聚类处理采用K-Means聚类方法,或者Kohonen神经网络聚类方法。 所述对分类存储后的切词数据进行词汇语义信息解析具体为 根据预先设置的语义数据库中存储的字符串的语义,解释对所述分类存储后的切词数据所对应的字符串的词汇语义,获取词汇语义参数,并计算词汇语义信息的比重值。 本专利技术词汇信息处理方法通过所获取的某一特定主题的待测量词汇信息进行聚类处理,将待测量词汇信息进行客观分类,并计算分类后的词汇语义信息在每一类别中的比重值,根据词汇语义信息的比重值计算每一类别的词汇语义参数,通过对每一类别中的词汇语义参数的评测,进一步获取某一特定主题的客观综合的全方位评测,避免了互联网用户对该特定主题带有主观的、片面的评价。 为实现上述目的,本专利技术还提供了一种词汇信息处理系统,包括 获取模块,用于从互联网上获取待测量词汇信息,并将所述待测量词汇信息生成标准化数据,其中,标准化数据采用二维数据表的格式存储; 抽取模块,用于按照设定条件从所述获取模块中的标准化数据抽取部分数据,形成抽取数据; 词频聚类模块,用于对所述抽取模块的抽取数据进行切词匹配,形成切词数据,对所述切词数据进行聚类处理,并将聚类处理后的所述切词数据分类存储; 词汇语义解析模块,用于对所述词频聚类模块中分类存储后的切词数据进行词汇语义信息解析,计算词汇语义信息的比重值,根据所述比重值计算所述切词数据的词汇语义参数; 语义测量模块,用于对所述词汇语义解析模块的词汇语义参数进行测量,获取评测结果。 所述获取模块包括 自动检索单元,用于自动检索从互联网上获取待测量词汇信息; 本地数据库,用于保存从所述自动检索单元获取的待测量词汇信息,并将所述待测量词汇信息生成标准化数据。 所述词频聚类模块包括 切词单元,用于在本地词库中查找所述抽取数据所对应的字符串,比较所述抽取数据所对应的字符串与所述本地词库中的字符串,将所述抽取数据生成切词数据; 聚类单元,用于对所述切词数据进行聚类处理; 存储单元,用于存储所述聚类单元聚类处理后的所述切词数据。 所述存储单元包括至少两个存储子单元。 所述词汇语义解析模块包括 语义解析单元,设置有语义数据库,用于对所述词频聚类模块中分类存储后的切词数据进行词汇语义信息解析; 语义测量单元,用于计算词汇语义信息的比重值,根据所述比重值计算所述切词数据的词汇语义; 记录单元,用于记录所述词频聚类模块中未记录的切词数据,并将记录的所述切词数据反馈给所述语义解析单元。 本专利技术提供的一种词汇信息处理系统,通过词频聚类模块将所获取的待测量词汇信息进行聚类处理,词汇语义解析模块对词频聚类模块中分类存储后的切词数据进行词汇语义信息解析,计算词汇语义信息的比重值,根据所述比重值计算所述切词数据的词汇语义参数,通过将切词数据进行分类,客观判断待测量词汇信息的类别,实现了对待测量词汇信息进行客观综合的全方位评测。附图说明 图1为本专利技术词汇信息处理方法实施例一的流程示意图 图2为本专利技术词汇信息处理方法实施例二的流程示意图 图3为本专利技术词汇信息处理系统实施例一的结构示意图 图4为本专利技术词汇信息处理系统实施例二的结构示意图,具体实施例方式下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。图1为本专利技术词汇信息处理方法实施例一的流程示意图,如图1所示,本实施例包括以下步骤 步骤101、从互联网上获取待测量词汇信息,将待测量词汇信息生成标准化数据,标准化数据采用二维数据表的格式存储。 在步骤101中,可以通过网络爬虫从互联网上获取待测量词汇信息,待测量词汇信息是关于某一特定主题的信息;具体的操作是网络爬虫从一个URL开始,获取初始网页,并不断从网页上抽取新的URL,从而能够从互联网上获取大量、丰富的词汇信息。其中,URL既可以为普通的网页也可以为门户网站;若为普通的网页,网络爬虫可以直接从网页内容中获取待测量词汇信息,若为门户网站,网络爬虫可以从门户网站主页的新闻标题中获取待测量词汇信息的关键词。标准化数据采用二维数据表的格式存储,该二维数据表的具体结构如表l所示。 表1<table>table see original document page 6</column></row><table><table>table see本文档来自技高网...

【技术保护点】
一种词汇信息处理方法,其特征在于,包括以下步骤:从互联网上获取待测量词汇信息,将所述待测量词汇信息生成标准化数据,所述标准化数据采用二维数据表的格式存储;按照设定条件从所述标准化数据中抽取部分数据,形成抽取数据;对所述抽取数据进行切词匹配,形成切词数据,对所述切词数据进行聚类处理,并将聚类处理后的所述切词数据分类存储;对分类存储后的切词数据分别进行词汇语义信息解析,计算词汇语义信息的比重值,根据所述比重值计算所述切词数据的词汇语义参数;对所述词汇语义参数进行综合测量,获取评测结果。

【技术特征摘要】
一种词汇信息处理方法,其特征在于,包括以下步骤从互联网上获取待测量词汇信息,将所述待测量词汇信息生成标准化数据,所述标准化数据采用二维数据表的格式存储;按照设定条件从所述标准化数据中抽取部分数据,形成抽取数据;对所述抽取数据进行切词匹配,形成切词数据,对所述切词数据进行聚类处理,并将聚类处理后的所述切词数据分类存储;对分类存储后的切词数据分别进行词汇语义信息解析,计算词汇语义信息的比重值,根据所述比重值计算所述切词数据的词汇语义参数;对所述词汇语义参数进行综合测量,获取评测结果。2. 根据权利要求1所述的词汇信息处理方法,其特征在于,所述从互联网上获取待测 量词汇信息,将所述待测量词汇信息生成标准化数据具体为根据所述待测量词汇的词汇语义进行自动检索,从互联网上获取待测量词汇信息; 将所述待测量词汇信息下载到本地数据库;将下载到所述本地数据库的待测量词汇信息生成所述标准化数据。3. 根据权利要求1所述的词汇信息处理方法,其特征在于,所述对所述抽取数据进行 切词匹配,形成切词数据具体为在本地词库中查找所述抽取数据所对应的字符串,比较所述抽取数据所对应的字符串与所述本地词库中的字符串,将所述抽取数据生成切词数据。4. 根据权利要求1所述的词汇信息处理方法,其特征在于,对所述切词数据进行聚类 处理采用K-Means聚类方法,或者Kohonen神经网络聚类方法。5. 根据权利要求1所述的词汇信息处理方法,其特征在于,所述对分类存储后的切词 数据进行词汇语义信息解析具体为根据预先设置的语义数据库中存储的字符串的语义,解释所述分类存储后的切词数据 所对应的字符串的词汇语义,获取词汇语义参数,并计算词汇语义信息的比重值。6. —种词汇信息处理系统,其特征在于,包括获取模块,用于从互联网上获取待测量词汇信息,并将所述待测量词汇信息生成标准 化数...

【专利技术属性】
技术研发人员:蔡亮华庞然胡新宇
申请(专利权)人:蔡亮华
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1