通用标签挖掘方法、装置、服务器及介质制造方法及图纸

技术编号:17879036 阅读:206 留言:0更新日期:2018-05-06 00:49
本发明专利技术实施例公开了一种通用标签挖掘方法、装置、服务器及介质,所述方法包括:将包含标签占位符以及所述标签占位符的属性的标签种子规则与历史搜索信息进行匹配,确定匹配的标签;组合已有的标签种子规则和匹配得到的标签,以构建新的搜索序列集合;对所述新的搜索序列集合中包含的各搜索序列作泛化处理得到新的标签种子规则,并返回执行所述新的标签种子规则与历史搜索信息匹配操作确定新的标签,直至标签和标签种子规则满足收敛条件。本发明专利技术实施例提供的方法能够挖掘出更加全面、深刻的标签,并且整体标签挖掘的流程不依赖垂类网站,可以使用相同的流程对各种类型网页进行标签挖掘,大大降低了开发工作时间,满足了用户的具体化需求。

Universal label mining method, device, server and medium

An embodiment of the invention discloses a common label mining method, device, server and medium. The method includes: matching the label seed rule containing the label placeholder and the label placeholder's label seed rule with the historical search information to determine the matching label; combining the existing label seed rules and matching The tag to build a new set of search sequences; generalize the search sequences contained in the new search sequence set to get new label seed rules, and return the new label seed rules and historical search information matching operations to determine new labels until the label and label seed rules are met. Convergence conditions. The method provided by the invention provides a more comprehensive and profound label, and the whole label mining process is not dependent on the drooping web site. The same process can be used to label various types of web pages, which greatly reduces the development time and meets the specific needs of the users.

【技术实现步骤摘要】
通用标签挖掘方法、装置、服务器及介质
本专利技术实施例涉及互联网技术,尤其涉及一种通用标签挖掘方法、装置、服务器及介质。
技术介绍
随着互联网的发展,服务平台能够供用户查询想要的资源。目前,当用户使用搜索词查询资源时,通常通过搜索词中的标签确定与用户搜索词匹配的资源列表。目前关于标签挖掘的方式有两种,一种是基于垂类网站的结构化抽取,大部分领域在互联网上存在一些优质的垂类网站,上面很可能已经建设了常规的标签属性,比如歌曲的曲风,电影的分类等等。另一种是基于实体的其他文本属性抽取,如从电影的摘要中依据句法结构,依存关系等特征建立抽取模型,抽取出标签。但是基于垂类网站的结构化抽取标签不够通用,对于没有垂类站点的冷门领域,或者垂站上没有标签属性的情况则无法适用,并且通过垂类网站的结构中挖掘出的标签多为一些常规名词类标签,无法满足更加具体的问答需求。基于实体的其他文本属性抽取标签,由于实体的文本属性本身不够丰富,对于一些用户主观类标签无法挖掘。
技术实现思路
本专利技术实施例提供了一种通用标签挖掘方法、装置、服务器及介质,以实现使用相同的流程对各种类型网页进行标签挖掘,降低开发工作时间,满足用户的具体化需求。第一方面,本专利技术实施例提供了一种通用标签挖掘方法,包括:将包含标签占位符以及所述标签占位符的属性的标签种子规则与历史搜索信息进行匹配,确定匹配的标签;组合已有的标签种子规则和匹配得到的标签,以构建新的搜索序列集合;对所述新的搜索序列集合中包含的各搜索序列作泛化处理得到新的标签种子规则,并返回执行所述新的标签种子规则与历史搜索信息匹配操作确定新的标签,直至标签和标签种子规则满足收敛条件。第二方面,本专利技术实施例还提供了一种通用标签挖掘装置,包括:标签匹配模块,用于将包含标签占位符以及所述标签占位符的属性的标签种子规则与历史搜索信息进行匹配,确定匹配的标签;序列构建模块,用于组合已有的标签种子规则和匹配得到的标签,以构建新的搜索序列集合;标签更新模块,用于对所述新的搜索序列集合中包含的各搜索序列作泛化处理得到新的标签种子规则,并返回执行所述新的标签种子规则与历史搜索序列匹配操作确定新的标签,直至标签和标签种子规则满足收敛条件。第三方面,本专利技术实施例还提供了一种服务器,所述服务器包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本专利技术任意实施例所提供的通用标签挖掘方法。第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本专利技术任意实施例所提供的通用标签挖掘方法。本专利技术实施例通过将包含标签占位符以及标签占位符的属性的标签种子规则与历史搜索信息进行匹配,确定匹配的标签;组合已有的标签种子规则和匹配得到的标签,以构建新的搜索序列集合;对新的搜索序列集合中包含的各搜索序列作泛化处理得到新的标签种子规则,并返回执行新的标签种子规则与历史搜索信息匹配操作确定新的标签,直至标签和标签种子规则满足收敛条件,能够挖掘出更加全面、深刻的标签,并且整体标签挖掘的流程不依赖垂类网站,可以对所有领域所有实体的标签采用相同的流程挖掘,大大降低了开发工作时间,满足了用户的具体化需求。附图说明图1是本专利技术实施例一中的通用标签挖掘方法的流程图;图2是本专利技术实施例二中的通用标签挖掘方法的流程图;图3是本专利技术实施例三中的通用标签挖掘方法的流程图;图4是本专利技术实施例四中的通用标签挖掘方法的流程图;图5是本专利技术实施例五中的通用标签挖掘装置的结构示意图;图6是本专利技术实施例六中的服务器的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1是本专利技术实施例一中的通用标签挖掘方法的流程图,本实施例可适用于针对不同领域、不同实体及各种不同类型的网站进行标签挖掘的情形。该方法可以由通用标签挖掘装置执行,该通用标签挖掘装置可以采用软件和/或硬件的方式实现,例如,该通用标签挖掘装置可配置于服务器中。如图1所示,该方法具体包括:S110、将包含标签占位符以及所述标签占位符的属性的标签种子规则与历史搜索信息进行匹配,确定匹配的标签。在本实施例中,标签是知识图谱中用来描述实体特征的属性,在产品上一般用来满足泛需求问答,例如:“关于爱情的电影”中的“爱情”就是一个标签。除此之外,标签还可以定义地更加广泛,除了可以是上述诸如“爱情”这样的常规名词外,还可以是一个短语,例如:“适合失恋时听的音乐”,其中“适合失恋时听”就是一个标签。或者一个主谓宾完整的句子,例如:“主角是吸血鬼的小说”,其中“主角是吸血鬼”就是一个标签。占位符是先占有一个固定的位置,并且可以在该位置上添加内容的符号。在本实施例中,标签占位符可以是为标签占位的符号。标签占位符的属性定义了标签的属性,可以是词性或短语结构。一般来说,词性可以分为实词和虚词两类,实词是表示实在意义的词,包括:名词、动词、形容词、数词、量词和代词;虚词是不表示实在意义而表示语法意义的词,包括:副词、介词、连词、助词、叹词和拟声词。短语结构包括主谓短语、偏正短语、动宾短语、并列短语、后补短语、介宾短语、的字短语等。以上文提到的“爱情”为例,该标签占位符的属性为名词。可选的,标签种子规则指包含有标签占位符及标签占位符属性的规则,例如“关于××的电影,××的词性是名词”。其中“××”是标签占位符,“名词”为规定的标签占位符的属性。历史搜索信息包含历史搜索序列以及历史搜索系列对应的历史搜索结果。标签种类众多,在任何领域,都无法使用人工穷举的方式将标签一一列举出来,并且人工列举标签的方式也不一定能够覆盖高点击量的搜索序列。因此在本实施例中,从搜索序列出发,利用人工构建的包含有标签占位符及标签占位符属性的标签种子规则,将标签种子规则与历史搜索序列及历史搜索结果进行匹配,确定与标签种子规则匹配的标签。例如,构建“关于××的电影,××的词性是名词”这样的种子标签规则,将其与历史搜索信息进行匹配,当历史搜索序列中包含有“关于刘德华的电影”时,确定与该标签种子规则匹配的标签为“刘德华”;当历史搜索序列中包含有“关于爱情的电影”时,确定标签为“爱情”,直到遍历所有历史搜索序列为止。可选的,为了减少标签匹配的计算量并提高准确度,可以利用标签种子规则从历史搜索日志文件中筛选出满足预设条件的标签集合,其中预设条件包括:历史搜索结果中的页面点击量符合预设阈值,历史搜索序列长度符合预设要求等。需要说明的是,进行标签匹配时需要考虑标签的词性特征,例如“高考”和“适合高考”是两个不同的标签。还要考虑标签历史搜索序列中可能包含非标签、多个标签的情况。针对历史搜索序列中可能包含有非标签的情况,可以通过预先设置标签或标签种子规则黑名单,在标签匹配阶段剔除黑名单中的标签,提高标签挖掘的准确性和效率。针对历史搜索序列中可能包含有多个标签的情况,可以在标签匹配时将多个标签进行拆分,以“校园青春励志电影”为例,将其拆分为“校园”、“青春”和“励志”三个标签。但是为了保证高点本文档来自技高网...
通用标签挖掘方法、装置、服务器及介质

【技术保护点】
一种通用标签挖掘方法,其特征在于,包括:将包含标签占位符以及所述标签占位符的属性的标签种子规则与历史搜索信息进行匹配,确定匹配的标签;组合已有的标签种子规则和匹配得到的标签,以构建新的搜索序列集合;对所述新的搜索序列集合中包含的各搜索序列作泛化处理得到新的标签种子规则,并返回执行所述新的标签种子规则与历史搜索信息匹配操作确定新的标签,直至标签和标签种子规则满足收敛条件。

【技术特征摘要】
1.一种通用标签挖掘方法,其特征在于,包括:将包含标签占位符以及所述标签占位符的属性的标签种子规则与历史搜索信息进行匹配,确定匹配的标签;组合已有的标签种子规则和匹配得到的标签,以构建新的搜索序列集合;对所述新的搜索序列集合中包含的各搜索序列作泛化处理得到新的标签种子规则,并返回执行所述新的标签种子规则与历史搜索信息匹配操作确定新的标签,直至标签和标签种子规则满足收敛条件。2.根据权利要求1所述的方法,其特征在于,所述对所述新的搜索序列集合中包含的各搜索序列作泛化处理得到新的标签种子规则,包括:确定所述新的搜索序列集合中包含的各搜索序列的同义搜索序列,并从所述同义搜索序列中抽取得到新的标签种子规则。3.根据权利要求2所述的方法,其特征在于,所述确定所述新的搜索序列集合中包含的各搜索序列的同义搜索序列,并从所述同义搜索序列中抽取得到新的标签种子规则,包括:针对新的搜索序列集合中的每一搜索序列,若该搜索序列的已点击搜索结果页面与其他搜索序列的已点击搜索结果页面中的相同页面数量大于数量阈值,则将其他搜索序列确定为该搜索序列的同义搜索序列,并依据该搜索序列中包含的标签从同义搜索序列中抽取得到新的标签种子规则。4.根据权利要求1所述的方法,其特征在于,在返回执行所述新的标签种子规则与历史搜索信息匹配操作确定新的标签,直至标签和标签种子规则满足收敛条件之后,还包括:将依据得到的标签和标签种子规则确定的搜索序列所对应的网页作为语料库;从标签所对应的语料库中得到所述标签所关联的实体。5.根据权利要求4所述的方法,其特征在于,在从标签所对应的语料库中得到所述标签所关联的实体之后,还包括:依据所述实体在所述标签对应的语料库中的频次,所述语料库所属网站的权重,以及将所述实体、所述标签和领域作为搜索词得到的搜索结果与实体和标签的关联度,确定标签与标签所关联的实体之间的置信度;依据所述置信度调整标签所关联的实体。6.根据权利要求4所述的方法,其特征在于,在从标签所对应的语料库中得到所述标签所关联的实体之后,还包括:依据第一标签关联的实体集与第二标签关联的实体集之间的关系,确定第一标签与第二标签之间的关系,其中第一标签与第二标签之间的关系是同义关系或上下位关系。7.根据权利要求4所述的方法,其特征在于,在从标签所对应的语料库中得到所述标签所关联的实体之后,还包括:将标签种子规则和已有实体进行组合得到实体搜索序列;依据所述实体搜索序列的搜索结果中实体的上下文文本,确定实体关联的标签。8.一种通用标签挖掘装置,其特征在于,包括:标签匹配模块,用于将包含标签占位符以及所述标签占位符的属性的标签种子规则与历史搜索信息进行匹配,确定匹配的标签;序列构建模块,用于组合已有的标签种子规则和匹配...

【专利技术属性】
技术研发人员:冯欣伟曹徐平张一麟李莹
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1