词汇信息处理方法及系统技术方案

技术编号：4945820 阅读：209 留言：0更新日期：2012-04-11 18:40

本发明专利技术涉及一种词汇信息处理方法及系统，其中方法包括：从互联网上获取待测量词汇信息，将待测量词汇信息生成标准化数据；按照设定条件从标准化数据中抽取部分数据，形成抽取数据；对抽取数据进行切词匹配，形成切词数据，对切词数据进行聚类处理，并将聚类处理后的切词数据分类存储；对分类存储后的切词数据分别进行词汇语义信息解析，计算词汇语义信息的比重值，根据比重值计算切词数据的词汇语义参数；对词汇语义参数进行综合测量，获取评测结果。本发明专利技术提供的词汇信息处理方法及系统，通过将待测量词汇信息进行聚类处理，对待测量词汇信息进行客观分类和评测，实现对特定主题综合的全方位评测，避免互联网用户对特定主题带有主观片面的评价。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及网络技术，尤其涉及一种基于互联网的词汇信息处理方法及系统。
技术介绍
随着网络技术的迅速发展，互联网成为大量信息的载体，如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine)作为辅助人们检索信息的工具成为用户访问互联网的入口和指南。网络爬虫作为搜索引擎的重要组成，是一个自动提取网页的程序，用于为搜索引擎从互联网上下载网页。传统网络爬虫从一个或若干初始网页的统一资源定位符(UniformResourceLocator,以下简称URL)开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入URL队列，直到满足系统设定的停止搜索条件。此外，所有被网络爬虫抓取的网页将会被存储，通过对所抓取的网页进行分析、过滤后，建立索引，以便用户对相关信息的查询和检索。现有技术中，搜索引擎仅仅能够向用户提供网络爬虫所抓取的网页信息，并不能抓取用户所想要的仅与特定主题相关的信息，用户仍需要对网络爬虫所抓取的网页信息进行甄别，并且该甄别过程具有较高的主观性。此外，当用户通过搜索引擎检索到特定主题(比如某一具体事件或者某一具体人物)的相关信息时，用户只能获取关于该网页的点击频次、媒体曝光度等简单的关于该特定主题的评价结果，该评价结果只能表现出该具体事件在互联网环境下的关注热度，用户并不能针对该具体事件在互联网环境下的关注热度得知针对该具体事件相关信息的客观的全方位的评测，从而对该特定主题的评价带有主观的、片面的评价。
技术实现思路
本专利技术的目的在于提供一种词汇信息处理方法及系统，对互联网上发布的信息进行...

【技术保护点】
一种词汇信息处理方法，其特征在于，包括以下步骤：从互联网上获取待测量词汇信息，将所述待测量词汇信息生成标准化数据，所述标准化数据采用二维数据表的格式存储；按照设定条件从所述标准化数据中抽取部分数据，形成抽取数据；对所述抽取数据进行切词匹配，形成切词数据，对所述切词数据进行聚类处理，并将聚类处理后的所述切词数据分类存储；对分类存储后的切词数据分别进行词汇语义信息解析，计算词汇语义信息的比重值，根据所述比重值计算所述切词数据的词汇语义参数；对所述词汇语义参数进行综合测量，获取评测结果。

【技术特征摘要】
一种词汇信息处理方法，其特征在于，包括以下步骤从互联网上获取待测量词汇信息，将所述待测量词汇信息生成标准化数据，所述标准化数据采用二维数据表的格式存储；按照设定条件从所述标准化数据中抽取部分数据，形成抽取数据；对所述抽取数据进行切词匹配，形成切词数据，对所述切词数据进行聚类处理，并将聚类处理后的所述切词数据分类存储；对分类存储后的切词数据分别进行词汇语义信息解析，计算词汇语义信息的比重值，根据所述比重值计算所述切词数据的词汇语义参数；对所述词汇语义参数进行综合测量，获取评测结果。2. 根据权利要求1所述的词汇信息处理方法，其特征在于，所述从互联网上获取待测量词汇信息，将所述待测量词汇信息生成标准化数据具体为根据所述待测量词汇的词汇语义进行自动检索，从互联网上获取待测量词汇信息；将所述待测量词汇信息下载到本地数据库；将下载到所述本地数据库的待测量词汇信息生成所述标准化数据。3. 根据权利要求1所述的词汇信息处理方法，其特征在于，所述对所述抽取数据进行切词匹配，形成切词数据具体为在本地词库中查找所述抽取数据所对应的字符串，比较所述抽取数据所对应的字符串与所述本地词库中的字符串，将所述抽取数据生成切词数据。4. 根据权利要求1所述的词汇信息处理方法，其特征在于，对所述切词数据进行聚类处理采用K-Means聚类方法，或者Kohonen神经网络聚类方法。5. 根据权利要求1所述的词汇信息处理方法，其特征在于，所述对分类存储后的切词数据进行词汇语义信息解析具体为根据预先设置的语义数据库中存储的字符串的语义，解释所述分类存储后的切词数据所对应的字符串的词汇语义，获取词汇语义参数，并计算词汇语义信息的比重值。6. —种词汇信息处理系统，其特征在于，包括获取模块，用于从互联网上获取待测量词汇信息，并将所述待测量词汇信息生成标准化数...

【专利技术属性】
技术研发人员：蔡亮华，庞然，胡新宇，
申请(专利权)人：蔡亮华，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人