一种基于微博分类的信息抽取方法技术

技术编号：11076155 阅读：90 留言：0更新日期：2015-02-25 14:35

本发明专利技术涉及一种基于微博分类的信息抽取方法，所述方法包括：(1)获取分类标签；(2)整理目标标签；(3)根据分类和目标标签对博文循环进行标签提取；(4)对提取的标签进行过滤和消歧。本发明专利技术用于分类微博内的二级过滤标签抽取。快速全面的找到所有标签，并进行过滤筛选，获得准确目标标签。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于一种微博信息抽取方法，具体讲涉及。
技术介绍
微博即微型博客(Micro-blog)，是一种基于互联网终端通过关注机制分享简短信息的广播式的社交网络平台，兼具社交网络与媒体特征。随着微博技术的不断发展，越来越多的用户喜欢在微博上发表自己对某件事或某个问题的观点看法。为了方便用户快速准确的找到自己感兴趣的微博，需要抽取博文内容信息以多维归类。例如可以滤出有关美食类的微博，但是不同区域不同品味人喜欢的美食也不尽相同。因此需要对归类博文做进一步的信息抽取，做多维划分，便于二级搜索。面向微博的信息抽取，是指从充满噪音的、零碎的、非结构化的微博内容的自由文本中提取有价值的结构化的信息，以利于从微博内容中有效地获取信息。现有的抽取方法分为传统抽取方法和开放式抽取方法。传统抽取方法，是面向特定领域和针对特定关系类型，主流方法是数据驱动的统计方法。命名实体识别方法分为基于规则的和基于数据驱动的。关系抽取是把一组实体组合为一条记录。典型的方法有基于马尔科夫逻辑网方法。面向整个互联网的开放式抽取方法対领域、试题类型和关系类型都没有任何限制。开放式信息抽取的目标实体可以是任何名词短语，目标关系是在学习过程中自动发现的。突出特点是采用领域无关知识库，通过自主监督学习的方法，自动标注训练集、训练模型。现有的传统抽取方法需要事先建立模型，根据模型和命名实体抽取信息。开放式信息抽取方法的目标关系是自动学习过程。这两种抽取方法都需要人工先标注样本，提取命名实体，建立模型，且更适用与长文本信息抽取。将所抽取结果用来做进一步的数据分析。...
一种基于微博分类的信息抽取方法

【技术保护点】
一种基于微博分类的信息抽取方法，其特征在于，所述方法包括：(1)获取分类标签；(2)整理目标标签；(3)根据分类和目标标签对博文循环进行标签提取；(4)对提取的标签进行过滤和消歧。

【技术特征摘要】
1.一种基于微博分类的信息抽取方法，其特征在于，所述方法包括: (1)获取分类标签； (2)整理目标标签； (3)根据分类和目标标签对博文循环进行标签提取； (4)对提取的标签进行过滤和消歧。2.如权利要求1所述的一种基于微博分类的信息抽取方法，其特征在于，所述步骤(I)分类标签包括美食类博文地区标签、旅游类博文的地区标签和景点标签、有奖转发类博文的奖品标签、电影类博文的电影名和星座类博文的标签。3.如权利要求1所述的一种基于微博分类的信息抽取方法，其特征在于，所述步骤(2)包括整理不同分类和目标标签需要的词典。4.如权利要求1所述的一种基于微博分类的信息抽取方法，其特征在于，所述步骤(2)包括整理目标词典，加载存储Key。5.如权利要求1所述的一种基于微博分类的信息抽取方法，其特征在于，所述步骤(3)根据分类从博文循环查找目标Key并提取。6.如权利要求1所述的一种基于微博分类的信息抽取方法，其特征在于，所述步骤(4)包括根据分类和目标标签选取最终标签。7.如权利要求1所述的一种基于微博分类的信息抽取方法，其特征在于，所述步骤(4)包括(4.1)筛选 Key ； (4.2)滤掉不合格及无法提取的Key博文； (4.3)标注提取的Key。8.如权利要求1所述的一种基于微博分类的信息抽取方法，其特征在于，美食类博文地区标签的提取包括 1.1对匹配地区Key数据的加载； 1.2从博文中...

【专利技术属性】
技术研发人员：冯晓燕，
申请(专利权)人：北京中搜网络技术股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人