一种业务对象的标签标记方法、装置、服务器和存储介质制造方法及图纸

技术编号:20176961 阅读:36 留言:0更新日期:2019-01-23 00:27
本发明专利技术实施例公开了一种业务对象的标签标记方法、装置、服务器和存储介质。该方法包括:从业务对象中提取文本信息,并写入文本集合中;从所述文本信息中提取候选词组,所述候选词组中的候选词具有特征依存关系;在所述文本集合的范围内,分别对所述候选词组计算所述候选词之间的相关度;基于所述相关度从所述候选词组中选择目标候选词组;将所述目标候选词组中的所述候选词标记为所述业务对象的标签信息。无需用户手动选择合适的词作为业务对象的标签,降低了工作量、并提高了效率。

A Label Marking Method, Device, Server and Storage Medium for Business Objects

The embodiment of the present invention discloses a label marking method, device, server and storage medium for business objects. The method includes: extracting text information from the business object and writing it into the text set; extracting candidate phrases from the text information, the candidate phrases in the candidate phrases have characteristic dependencies; calculating the correlation between the candidate phrases within the scope of the text set; and selecting items from the candidate phrases based on the correlation degree. Label candidate phrases; mark the candidate words in the target candidate phrases as the label information of the business object. Users do not need to manually select appropriate words as the label of business objects, which reduces the workload and improves efficiency.

【技术实现步骤摘要】
一种业务对象的标签标记方法、装置、服务器和存储介质
本专利技术实施例涉及自然语言处理的技术,尤其涉及一种业务对象的标签标记方法、装置、服务器和存储介质。
技术介绍
随着网络科技的快速发展,在不同的业务领域中产生了大量的业务对象,例如,直播间、商品、电影,等等。这些业务对象存在相关的一些文本信息,如用户评论、标题、介绍等,目前,基于词频、最大熵等方式从这些文本信息选择合适的词,标记为业务对象的标签,方便用户搜索业务对象以及平台推荐相关的业务对象。但是,对于直播间等业务对象,存在大量无意义的文本信息,导致文本信息的精确性较低,导致选择的词多为一些无意义的词,代表性较低,不适合作为标签。因此,对于直播间等业务对象,需要手动选择合适的词作为业务对象的标签,导致工作量大、效率低。
技术实现思路
本专利技术实施例提供一种业务对象的标签标记方法、装置、服务器和存储介质,以解决在业务对象存在大量无意义的文本信息时,手动选择合适的词作为业务对象的标签,导致工作量大、效率低的问题。第一方面,本专利技术实施例提供了一种业务对象的标签标记方法,包括:从业务对象中提取文本信息,并写入文本集合中;从所述文本信息中提本文档来自技高网...

【技术保护点】
1.一种业务对象的标签标记方法,其特征在于,包括:从业务对象中提取文本信息,并写入文本集合中;从所述文本信息中提取候选词组,所述候选词组中的候选词具有特征依存关系;在所述文本集合的范围内,分别对所述候选词组计算所述候选词之间的相关度;基于所述相关度从所述候选词组中选择目标候选词组;将所述目标候选词组中的所述候选词标记为所述业务对象的标签信息。

【技术特征摘要】
1.一种业务对象的标签标记方法,其特征在于,包括:从业务对象中提取文本信息,并写入文本集合中;从所述文本信息中提取候选词组,所述候选词组中的候选词具有特征依存关系;在所述文本集合的范围内,分别对所述候选词组计算所述候选词之间的相关度;基于所述相关度从所述候选词组中选择目标候选词组;将所述目标候选词组中的所述候选词标记为所述业务对象的标签信息。2.根据权利要求1所述的方法,其特征在于,所述业务对象为直播间,所述从业务对象中提取文本信息,并写入文本集合中,包括:提取在所述直播间中发布的弹幕信息;将所述弹幕信息作为文本信息写入文本集合中。3.根据权利要求1所述的方法,其特征在于,所述从所述文本信息中提取候选词组,包括:识别所述文本信息中各个词语之间的依存关系;若所述依存关系对应的词组符合指定的语法结构,则确定所述依存关系为特征依存关系;将所述特征依存关系对应的词组作为候选词生成候选词组。4.根据权利要求3所述的方法,其特征在于,所述特征依存关系包括直接依存关系和间接依存关系;所述直接依存关系包括如下的至少一种语法结构:形容词修饰词amod、名词主语nsubj、直接宾语dobj、副词修饰advmod;所述间接依存关系包括如下的至少一种语法结构:形容词amod与名词主语nsubj、名词主语nsubj与直接宾语dobj。5.根据权利要求1-4任一项所述的方法,其特征在于,所述在所述文本集合的范围内,分别对所述候选词组计算所述候选词之间的相关度,包括:在所述文本集合中,将所述文本信息的词组转换为词向量空间;在所述词向量空间中,计算所述候选词组中的所述候选词在同一个文本信息中的共现率;在所述词向量空间中,计算所述候选词组中所述候选词之间的相似度;结合所述共现率与所述相似度计算所述候选词组中所述候选词之间的相关度。6.根据权利要求5所述的方法,其...

【专利技术属性】
技术研发人员:徐乐乐
申请(专利权)人:武汉斗鱼网络科技有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1