一种基于微博分类的信息抽取方法技术

技术编号:11076155 阅读:90 留言:0更新日期:2015-02-25 14:35
本发明专利技术涉及一种基于微博分类的信息抽取方法,所述方法包括:(1)获取分类标签;(2)整理目标标签;(3)根据分类和目标标签对博文循环进行标签提取;(4)对提取的标签进行过滤和消歧。本发明专利技术用于分类微博内的二级过滤标签抽取。快速全面的找到所有标签,并进行过滤筛选,获得准确目标标签。

【技术实现步骤摘要】

本专利技术属于一种微博信息抽取方法,具体讲涉及。
技术介绍
微博即微型博客(Micro-blog),是一种基于互联网终端通过关注机制分享简短信息的广播式的社交网络平台,兼具社交网络与媒体特征。随着微博技术的不断发展,越来越多的用户喜欢在微博上发表自己对某件事或某个问题的观点看法。为了方便用户快速准确的找到自己感兴趣的微博,需要抽取博文内容信息以多维归类。例如可以滤出有关美食类的微博,但是不同区域不同品味人喜欢的美食也不尽相同。因此需要对归类博文做进一步的信息抽取,做多维划分,便于二级搜索。 面向微博的信息抽取,是指从充满噪音的、零碎的、非结构化的微博内容的自由文本中提取有价值的结构化的信息,以利于从微博内容中有效地获取信息。现有的抽取方法分为传统抽取方法和开放式抽取方法。 传统抽取方法,是面向特定领域和针对特定关系类型,主流方法是数据驱动的统计方法。命名实体识别方法分为基于规则的和基于数据驱动的。关系抽取是把一组实体组合为一条记录。典型的方法有基于马尔科夫逻辑网方法。 面向整个互联网的开放式抽取方法対领域、试题类型和关系类型都没有任何限制。开放式信息抽取的目标实体可以是任何名词短语,目标关系是在学习过程中自动发现的。突出特点是采用领域无关知识库,通过自主监督学习的方法,自动标注训练集、训练模型。 现有的传统抽取方法需要事先建立模型,根据模型和命名实体抽取信息。开放式信息抽取方法的目标关系是自动学习过程。这两种抽取方法都需要人工先标注样本,提取命名实体,建立模型,且更适用与长文本信息抽取。将所抽取结果用来做进一步的数据分析。而基于分类的微博信息抽取,是对类内数据做第多维度抽取。是确定维度和抽取目标的抽取,具有一定的确定性。另外,博文篇幅较短,所能提供的信息有限,且变化快,模型的有效使用期较短,故不适合。
技术实现思路
针对现有技术的不足,本专利技术提出,目的是针对各种微博分类数据提取各分类需要的标签。基于微博分类数据,采用词头Hash法存储词典,能够快速从博文中找到所有的Key词。并对匹配Key进行优先消歧处理。准确快速抽取出所需信息。 本专利技术的目的是采用下述技术方案实现的: —种基于微博分类的信息抽取方法,其改进之处在于,所述方法包括: (I)获取分类标签; (2)整理目标标签; (3)根据分类和目标标签对博文循环进行标签提取; (4)对提取的标签进行过滤和消歧。 优选的,所述步骤(I)分类标签包括美食类博文地区标签、旅游类博文的地区标签和景点标签、有奖转发类博文的奖品标签、电影类博文的电影名和星座类博文的标签。 优选的,所述步骤(2)包括整理不同分类和目标标签需要的词典。 优选的,所述步骤(2)包括整理目标词典,加载存储Key。 优选的,所述步骤(3)根据分类从博文循环查找目标Key并提取。 优选的,所述步骤(4)包括根据分类和目标标签选取最终标签。 优选的,所述步骤⑷包括 (4.1)筛选 Key ; (4.2)滤掉不合格及无法提取的Key博文; (4.3)标注提取的Key。 优选的,美食类博文的地区标签的提取包括 1.1对匹配地区Key数据的加载; 1.2从博文中循环查找目标Key ; 1.3对于地区Key采取的选取策略; 1.4对提取的省级标签和市级标签分别标注。 优选的,旅游类博文的地区标签和景点标签的提取包括: 2.1加载词表; 2.2 匹配景点 Key ; 2.3 匹配地区 Key; 2.4选择景点和地区决策。 优选的,有奖转发类博文的奖品标签提取包括: 3.1加载获奖开始词表和获奖结束词表; 3.2根据词表从博文串中提取获奖开始词和获奖结束词之间的串,循环提取; 3.3标注奖品串。 优选的,电影类博文的电影名提取包括: 4.1加载电影词表并实时更新; 4.2从博文串中提取信息,并从词表中匹配电影名和电影的上映时间,循环提取; 4.3从博文中提取时间,滤掉未来时间与当前时间不符合博文; 4.4根据提取的电影的上映时间,滤掉的博文是未来时态情况; 4.5对于时间合格的数据,标注电影个数和电影名。 优选的,星座类博文的分类标签提取包括: 5.1判断博文是运势博文或TOP博文; 5.2运势博文,提取运势分类和星座; 5.3T0P博文,则提取参与排序的星座; 5.4标注分类标签和星座标签。 与现有技术比,本专利技术的有益效果为: 本专利技术用于分类微博内的二级过滤标签抽取。快速全面的找到所有标签,并进行过滤筛选,获得准确目标标签。目前应用该方法做信息抽取的分类有(有奖转发的奖品串、旅游的地区标签和景点标签、美食的地区标签、星座的运势标签和星座标签、电影的电影名标签)。该方法效果显著、独立性好、可扩展性强。具体体现有在: 1、针对不同的分类和目标标签可设定不同的词表,分类间相互独立,便于扩展。 2、实行速度快,效果显著。 3、可以根据需求实施更新词典,可操控性强大。 【附图说明】 图1为本专利技术提供的示意图。 图2为本专利技术提供的流程图。 【具体实施方式】 下面结合附图对本专利技术的【具体实施方式】作进一步的详细说明。 基于微博分类的信息抽取是方便用户对分类数据进行内部过滤。本专利技术分为四个阶段。 第一阶段,通过调研,得到每个分类需要的标签。 第二阶段,根据目标标签进行整理各类词典,不同的分类和目标标签需要的词典各不相同。 第三阶段,根据分类和目标标签对博文循环进行标签提取。 第四阶段,对提取的标签进行过滤和消歧,根据分类和目标标签的不同,最终标签的选方法各不相同。整体流程见图2。 本专利技术具体共对五个分类做了信息提取,具体的提取过程各不相同,下面分为五个模块逐一具体介绍。 第一个模块是美食类博文的地区标签。 第二个模块是旅游类博文的地区标签和景点标签的提取,并过滤掉无标签的数据。第三个模块是有奖转发类博文的奖品串提取。 第四模块是电影类博文的电影个数和电影名提取。 第五模块是星座类博文的标签提取,这里包括星座运势类标签(分为:日运势、周运势、月运势、年运势、12星座标签)提取和星座Top榜单的12星座提取。有效数据提取具体步骤如下: 1、美食类博文的地区标签的提取 该模块的主要工作是从美食类的博文串中提取到地区标签,包括省级标签和市级标签。 1.1要进行匹配的地区Key数据的加载 一条Key数据包括:省+市+区/县+路/街道+地名/店名,加载在一个KeyHash里,每条数据的词头(截取一个字节作为词头)存在词头Hash里,保存词长。 1.2用博文中字符挨个去词头Hash中查找,找到词头后,从大到小,依次截词头长度的词去KeyHash里查找。循环查找,直至找到所有的地区Key词。 1.3对于地区Key采取的选取策略 Key词优先级:省级 > 市级 > 区级 > 县级 > 街道/路级 > 地名/店名/电话。在级别相同的情况下:街道和路,优先选择长的Key对应的省级和市级;地名、店名和电话,在对应省市出现歧义的情况下,不做处理。 1.4将提取到得省级标签和市级标签分别标注。 如果只提取到了市级标签,则比对所对应本文档来自技高网
...
一种基于微博分类的信息抽取方法

【技术保护点】
一种基于微博分类的信息抽取方法,其特征在于,所述方法包括:(1)获取分类标签;(2)整理目标标签;(3)根据分类和目标标签对博文循环进行标签提取;(4)对提取的标签进行过滤和消歧。

【技术特征摘要】
1.一种基于微博分类的信息抽取方法,其特征在于,所述方法包括: (1)获取分类标签; (2)整理目标标签; (3)根据分类和目标标签对博文循环进行标签提取; (4)对提取的标签进行过滤和消歧。2.如权利要求1所述的一种基于微博分类的信息抽取方法,其特征在于,所述步骤(I)分类标签包括美食类博文地区标签、旅游类博文的地区标签和景点标签、有奖转发类博文的奖品标签、电影类博文的电影名和星座类博文的标签。3.如权利要求1所述的一种基于微博分类的信息抽取方法,其特征在于,所述步骤(2)包括整理不同分类和目标标签需要的词典。4.如权利要求1所述的一种基于微博分类的信息抽取方法,其特征在于,所述步骤(2)包括整理目标词典,加载存储Key。5.如权利要求1所述的一种基于微博分类的信息抽取方法,其特征在于,所述步骤(3)根据分类从博文循环查找目标Key并提取。6.如权利要求1所述的一种基于微博分类的信息抽取方法,其特征在于,所述步骤(4)包括根据分类和目标标签选取最终标签。7.如权利要求1所述的一种基于微博分类的信息抽取方法,其特征在于,所述步骤(4)包括(4.1)筛选 Key ; (4.2)滤掉不合格及无法提取的Key博文; (4.3)标注提取的Key。8.如权利要求1所述的一种基于微博分类的信息抽取方法,其特征在于,美食类博文地区标签的提取包括 1.1对匹配地区Key数据的加载; 1.2从博文中...

【专利技术属性】
技术研发人员:冯晓燕
申请(专利权)人:北京中搜网络技术股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1