An embodiment of the invention discloses a common label mining method, device, server and medium. The method includes: matching the label seed rule containing the label placeholder and the label placeholder's label seed rule with the historical search information to determine the matching label; combining the existing label seed rules and matching The tag to build a new set of search sequences; generalize the search sequences contained in the new search sequence set to get new label seed rules, and return the new label seed rules and historical search information matching operations to determine new labels until the label and label seed rules are met. Convergence conditions. The method provided by the invention provides a more comprehensive and profound label, and the whole label mining process is not dependent on the drooping web site. The same process can be used to label various types of web pages, which greatly reduces the development time and meets the specific needs of the users.
【技术实现步骤摘要】
通用标签挖掘方法、装置、服务器及介质
本专利技术实施例涉及互联网技术,尤其涉及一种通用标签挖掘方法、装置、服务器及介质。
技术介绍
随着互联网的发展,服务平台能够供用户查询想要的资源。目前,当用户使用搜索词查询资源时,通常通过搜索词中的标签确定与用户搜索词匹配的资源列表。目前关于标签挖掘的方式有两种,一种是基于垂类网站的结构化抽取,大部分领域在互联网上存在一些优质的垂类网站,上面很可能已经建设了常规的标签属性,比如歌曲的曲风,电影的分类等等。另一种是基于实体的其他文本属性抽取,如从电影的摘要中依据句法结构,依存关系等特征建立抽取模型,抽取出标签。但是基于垂类网站的结构化抽取标签不够通用,对于没有垂类站点的冷门领域,或者垂站上没有标签属性的情况则无法适用,并且通过垂类网站的结构中挖掘出的标签多为一些常规名词类标签,无法满足更加具体的问答需求。基于实体的其他文本属性抽取标签,由于实体的文本属性本身不够丰富,对于一些用户主观类标签无法挖掘。
技术实现思路
本专利技术实施例提供了一种通用标签挖掘方法、装置、服务器及介质,以实现使用相同的流程对各种类型网页进行标签挖掘,降低开发工作时间,满足用户的具体化需求。第一方面,本专利技术实施例提供了一种通用标签挖掘方法,包括:将包含标签占位符以及所述标签占位符的属性的标签种子规则与历史搜索信息进行匹配,确定匹配的标签;组合已有的标签种子规则和匹配得到的标签,以构建新的搜索序列集合;对所述新的搜索序列集合中包含的各搜索序列作泛化处理得到新的标签种子规则,并返回执行所述新的标签种子规则与历史搜索信息匹配操作确定新的标签,直至标签和标 ...
【技术保护点】
一种通用标签挖掘方法,其特征在于,包括:将包含标签占位符以及所述标签占位符的属性的标签种子规则与历史搜索信息进行匹配,确定匹配的标签;组合已有的标签种子规则和匹配得到的标签,以构建新的搜索序列集合;对所述新的搜索序列集合中包含的各搜索序列作泛化处理得到新的标签种子规则,并返回执行所述新的标签种子规则与历史搜索信息匹配操作确定新的标签,直至标签和标签种子规则满足收敛条件。
【技术特征摘要】
1.一种通用标签挖掘方法,其特征在于,包括:将包含标签占位符以及所述标签占位符的属性的标签种子规则与历史搜索信息进行匹配,确定匹配的标签;组合已有的标签种子规则和匹配得到的标签,以构建新的搜索序列集合;对所述新的搜索序列集合中包含的各搜索序列作泛化处理得到新的标签种子规则,并返回执行所述新的标签种子规则与历史搜索信息匹配操作确定新的标签,直至标签和标签种子规则满足收敛条件。2.根据权利要求1所述的方法,其特征在于,所述对所述新的搜索序列集合中包含的各搜索序列作泛化处理得到新的标签种子规则,包括:确定所述新的搜索序列集合中包含的各搜索序列的同义搜索序列,并从所述同义搜索序列中抽取得到新的标签种子规则。3.根据权利要求2所述的方法,其特征在于,所述确定所述新的搜索序列集合中包含的各搜索序列的同义搜索序列,并从所述同义搜索序列中抽取得到新的标签种子规则,包括:针对新的搜索序列集合中的每一搜索序列,若该搜索序列的已点击搜索结果页面与其他搜索序列的已点击搜索结果页面中的相同页面数量大于数量阈值,则将其他搜索序列确定为该搜索序列的同义搜索序列,并依据该搜索序列中包含的标签从同义搜索序列中抽取得到新的标签种子规则。4.根据权利要求1所述的方法,其特征在于,在返回执行所述新的标签种子规则与历史搜索信息匹配操作确定新的标签,直至标签和标签种子规则满足收敛条件之后,还包括:将依据得到的标签和标签种子规则确定的搜索序列所对应的网页作为语料库;从标签所对应的语料库中得到所述标签所关联的实体。5.根据权利要求4所述的方法,其特征在于,在从标签所对应的语料库中得到所述标签所关联的实体之后,还包括:依据所述实体在所述标签对应的语料库中的频次,所述语料库所属网站的权重,以及将所述实体、所述标签和领域作为搜索词得到的搜索结果与实体和标签的关联度,确定标签与标签所关联的实体之间的置信度;依据所述置信度调整标签所关联的实体。6.根据权利要求4所述的方法,其特征在于,在从标签所对应的语料库中得到所述标签所关联的实体之后,还包括:依据第一标签关联的实体集与第二标签关联的实体集之间的关系,确定第一标签与第二标签之间的关系,其中第一标签与第二标签之间的关系是同义关系或上下位关系。7.根据权利要求4所述的方法,其特征在于,在从标签所对应的语料库中得到所述标签所关联的实体之后,还包括:将标签种子规则和已有实体进行组合得到实体搜索序列;依据所述实体搜索序列的搜索结果中实体的上下文文本,确定实体关联的标签。8.一种通用标签挖掘装置,其特征在于,包括:标签匹配模块,用于将包含标签占位符以及所述标签占位符的属性的标签种子规则与历史搜索信息进行匹配,确定匹配的标签;序列构建模块,用于组合已有的标签种子规则和匹配...
【专利技术属性】
技术研发人员:冯欣伟,曹徐平,张一麟,李莹,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。