当前位置: 首页 > 专利查询>徐子涵专利>正文

标签提取方法及系统技术方案

技术编号:13835196 阅读:82 留言:0更新日期:2016-10-15 15:09
本发明专利技术提供了一种标签提取方法及系统,属于语言识别技术领域,能够实现更为准确的标签提取。该标签提取方法包括:从数据库中获取评论;标注所述评论中词语的词性;根据词性标注结果,提取每条评论中的关键词;基于所提取的关键词,生成包含该关键词的短语。本发明专利技术实施例可应用于复杂度较高的音乐、商品等事物的标签提取。

【技术实现步骤摘要】

本专利技术涉及语言识别
,具体而言,涉及一种标签提取方法及系统
技术介绍
随着信息技术的不断发展,各个类型的文本信息都开始以计算机可读的形式存在,许多领域的信息都呈现出爆炸式增长,因此如何在海量的信息当中,快速并准确的提取对用户有用的信息是一个重要的问题。标签提取就是一种解决上述问题的有效手段,标签是对文章、音乐、商品等事物信息的精炼,使用户能够方便、快捷的了解事物的重要信息,从而提高信息访问的效率。目前,关于标签提取的技术主要包括关键词提取技术和情感分析技术。其中,关键词提取技术主要包括机器学习、词频计算、建立词关系树等;情感分析的方法分为基于统计分类和基于规则分类两种。关键词提取技术主要应用于广告推荐、新闻阅读、论文索引等,适合进行大数据量文本的关键词提取,所提取出的关键词通常都是单独的词语。但很少涉及到提取短语级别的关键词,所以并不能解决复杂度较高的音乐、商品等事物中的标签提取问题。情感分析依赖于构建情感词典,然而音乐、商品等事物的评论具有多样性,既可能包括情感词,也会包括其他无关情感的词汇。因此,情感分析由于其自身的局限性,也无法确保准提取出的标签的准确性。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种标签提取方法及系统,能够实
现更为准确的标签提取。第一方面,本专利技术实施例提供了一种标签提取方法,包括:从数据库中获取评论;标注所述评论中词语的词性;根据词性标注结果,提取每条评论中的关键词;基于所提取的关键词,生成包含该关键词的短语。结合第一方面,本专利技术实施例提供了第一方面的第一种可能的实施方式,其中,所述提取每条评论中的关键词,具体为:对于每条评论,提取其中所有的形容词,作为关键词。结合第一方面,本专利技术实施例提供了第一方面的第二种可能的实施方式,其中,所述基于所提取的关键词,生成包含该关键词的短语,具体包括:提取形容词所在的字符串内的名词;将所提取的名词与对应的形容词进行组合,生成短语。结合第一方面,本专利技术实施例提供了第一方面的第三种可能的实施方式,其中,所述基于所提取的关键词,生成包含该关键词的短语,具体包括:提取形容词所在的字符串内的所有副词;删除其中的多余副词;将未删除的副词与对应的形容词进行组合,生成短语。结合第一方面,本专利技术实施例提供了第一方面的第四种可能的实施方式,其中,该方法还包括:将所生成的短语作为标签存入数据库中。第二方面,本专利技术实施例还提供一种标签提取系统,包括:获取模块,用于从数据库中获取评论;标注模块,用于标注所述评论中词语的词性;提取模块,用于根据词性标注结果,提取每条评论中的关键词;生成模块,用于基于所提取的关键词,生成包含该关键词的短语。结合第二方面,本专利技术实施例提供了第二方面的第一种可能的实施方式,其中,所述提取模块具体用于:对于每条评论,根据词性标注结果,提取其中所有的形容词,作为关键词。结合第二方面,本专利技术实施例提供了第二方面的第二种可能的实施方式,其中,所述生成模块具体用于:提取形容词所在的字符串内的名词;将所提取的名词与对应的形容词进行组合,生成短语。结合第二方面,本专利技术实施例提供了第二方面的第三种可能的实施方式,其中,所述生成模块具体用于:提取形容词所在的字符串内的所有副词;删除其中的多余副词;将未删除的副词与对应的形容词进行组合,生成短语。结合第二方面,本专利技术实施例提供了第二方面的第四种可能的实施方式,其中,该系统还包括存入模块,用于将所生成的短语作为标签存入数据库中。本专利技术带来了以下有益效果:本专利技术实施例提供的技术方案中,首先从数据库中获取对目标事物的全部评论,然后标注评论中每个词的词性。再根据词性标注的结果,提取每条评论中的关键词,通常是以其中的形容词作为关键词。最后,基于所提取出的形容词,生成包含有该形容词的短语,并以该短语作为目标事物的标签。综上所述,通过采用本专利技术实施例提供的技术方案,能够提取出短语形式的标签,因此对于复杂度较高的音乐、商品等事物,能够实现更为准确的标签提取。本专利技术的其他特征和优点将在随后的说明书中阐述,并且,部分地从
说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1示出了本专利技术实施例所提供的标签提取方法的流程图;图2示出了本专利技术实施例所提供的标签提取系统的示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例提供的一种标签提取方法及系统,可以应用于复杂度较高的事物的标签提取,以实现更为准确的标签提取。实施例一:本专利技术实施例提供了一种标签提取方法,可应用于复杂度较高的音乐、商品等事物的标签提取。本实施例中以音乐作为标签提取的目标。目前,基于已知音乐关键词的检索方法已不能满足数字化多媒体信息检索的需要,而基于内容的多媒体检索技术对设备及用户本身的要求又比较高,所以基于音乐情感的检索技术应运而生。论坛中带交互性的音乐评论是典型的音乐情感表达形式。从海量网络信息中得到音乐的情感等属性,并将结果合理地返回给依据情感搜索的用户是一个创新性的解决方案。当然,在其他实施方式中,也可以将其他事物作为标签提取的目标。如图1所示,该标签提取方法包括以下步骤:S1:从数据库中获取评论。针对标签提取的目标,也就是某一首乐曲,在数据库中获取关于该乐曲的所有评论。上述的数据库可以仅仅是某一个交互性的评论平台的数据库。例如某一个音乐论坛中对于该乐曲的所有交互性的评论,或者某一个音乐播放器平台中对于该乐曲的所有交互性的评论。此外,上述的数据库也可以包括多个交互性的评论平台中的数据库的汇总,或者说全网范围内所能访问的所有数据库。S2:标注评论中词语的词性。具体的,可以利用复旦自然语言处理模型包,标注所获取的评论中的词语的词性,将各个词语区分为名词、动词、形容词、副词等。自然语言处理(Natural Language Processing,简称NLP)是计算机科学领域与人工智能领域中的一项重要技术,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一项融语言学、计算机科学、数学于一体的科学技术。因此,这一
的研究涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般的对自然语言进行处理,而在于研制能本文档来自技高网
...

【技术保护点】
一种标签提取方法,其特征在于,包括:从数据库中获取评论;标注所述评论中词语的词性;根据词性标注结果,提取每条评论中的关键词;基于所提取的关键词,生成包含该关键词的短语。

【技术特征摘要】
1.一种标签提取方法,其特征在于,包括:从数据库中获取评论;标注所述评论中词语的词性;根据词性标注结果,提取每条评论中的关键词;基于所提取的关键词,生成包含该关键词的短语。2.根据权利要求1所述的标签提取方法,其特征在于,所述提取每条评论中的关键词,具体为:对于每条评论,提取其中所有的形容词,作为关键词。3.根据权利要求2所述的标签提取方法,其特征在于,所述基于所提取的关键词,生成包含该关键词的短语,具体包括:提取形容词所在的字符串内的名词;将所提取的名词与对应的形容词进行组合,生成短语。4.根据权利要求2所述的标签提取方法,其特征在于,所述基于所提取的关键词,生成包含该关键词的短语,具体包括:提取形容词所在的字符串内的所有副词;删除其中的多余副词;将未删除的副词与对应的形容词进行组合,生成短语。5.根据权利要求1所述的标签提取方法,其特征在于,还包括:将所生成的短语作为标签存入数据库中。...

【专利技术属性】
技术研发人员:徐子涵
申请(专利权)人:徐子涵
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1