The invention discloses a method for generating a text label word, a system and a device thereof, wherein the method comprises the following steps: extracting text labels in words, according to the extracted labels, as well as the default label word, generating interrelated label words; then according to the relation between each packet label word, to label words the polymerization was carried out in the dictionary and find the label in the word presupposition can be completely covered by the aggregated packet label word, combined type label words; according to the combination of words and word tag label generation and mapping relationship between presupposition, words in the text in the label. The text label word generation method, system and device provided by the invention are highly operative, and can generate corresponding tag words quickly and independently according to actual needs, without professional intervention.
【技术实现步骤摘要】
文本标签词的生成方法、系统及装置
本专利技术涉及文本分类
,特别涉及一种文本标签词的生成方法、系统及装置。
技术介绍
现有的对于一段文本,生成标签词的主要方法是:首先对文本进行分词,然后利用分类算法,将文本划分为某一个类别,从而为这段文本生成对应的类别标签词。这种方法对操作人员的专业度要求较高,对于非专业人员来讲,很难快速、独立的根据实际需求,为一类文本生成相应的标签词。
技术实现思路
基于此,本专利技术提供了一种文本标签词的生成方法、系统及装置,通过向词典中添加标签词以及标签词之间关系,就可以快速为文本标注上满足需求的标签词,方法简单,可操作性强。利用本专利技术提供的文本标签词的生成方法及系统,非技术人员可快速独立的根据实际需求,为文本生成相应的标签词,无需专业人员介入。本专利技术提供的文本标签词的生成方法,包括以下步骤:提取文本中的标签词;根据提取的所述标签词,以及预设的标签词关系,生成相互关联的分组标签词;按照各个所述分组标签词之间的关联关系,对所述分组标签词进行聚合,并在预设的标签词词典中查找能够被本文完全覆盖的聚合后的所述分组标签词,得到组合型标签词;根据所述组合型标签词以及所述预设的标签词关系,在文本中生成映射标签词。作为一种可实施方式,在提取文本中的标签词之前,还包括以下步骤:根据文本内容,在标签词词典中添加标签词和标签词关系。作为一种可实施方式,提取文本中的标签词,包括以下步骤:利用标签词词典中新添加的标签词,对文本进行分词,提取文本中的标签词。作为一种可实施方式,根据提取的所述标签词,以及预设的标签词关系,依次生成相互关联的分组标签词, ...
【技术保护点】
一种文本标签词的生成方法,其特征在于,包括以下步骤:提取文本中的标签词;根据提取的所述标签词,以及预设的标签词关系,生成相互关联的分组标签词;按照各个所述分组标签词之间的关联关系,对所述分组标签词进行聚合,并在预设的标签词词典中查找能够被本文完全覆盖的聚合后的所述分组标签词,得到组合型标签词;根据所述组合型标签词以及所述预设的标签词关系,在文本中生成映射标签词。
【技术特征摘要】
1.一种文本标签词的生成方法,其特征在于,包括以下步骤:提取文本中的标签词;根据提取的所述标签词,以及预设的标签词关系,生成相互关联的分组标签词;按照各个所述分组标签词之间的关联关系,对所述分组标签词进行聚合,并在预设的标签词词典中查找能够被本文完全覆盖的聚合后的所述分组标签词,得到组合型标签词;根据所述组合型标签词以及所述预设的标签词关系,在文本中生成映射标签词。2.根据权利要求1所述的文本标签词的生成方法,其特征在于,在提取文本中的标签词之前,还包括以下步骤:根据文本内容,在标签词词典中添加标签词和标签词关系。3.根据权利要求1所述的文本标签词的生成方法,其特征在于,提取文本中的标签词,包括以下步骤:利用标签词词典中新添加的标签词,对文本进行分词,提取文本中的标签词。4.根据权利要求1所述的文本标签词的生成方法,其特征在于,根据提取的所述标签词,以及预设的标签词关系,依次生成相互关联的分组标签词,包括以下步骤:根据提取的所述标签词,以及所述预设的标签词关系,生成上层标签词;根据提取的所述标签词、生成的上层标签词,以及所述预设的标签词关系,生成同义标签词;根据提取的所述标签词、生成的上层标签词、生成的同义标签词,以及所述预设的标签词关系,生成修饰标签词。5.根据权利要求1至4任一项所述的文本标签词的生成方法,其特征在于,按照分组标签词之间的关联关系,对所述分组标签词进行聚合,并在预设的标签词词典中查找能够被本文完全覆盖的聚合后的所述分组标签词,得到组合型标签词,包括以下步骤:根据所述标签词、上层标签词、同义标签词、以及修饰标签词之间的关联关系进行分组;根据各组之间的关联关系,将所有能够关联起来的分组进行关联;根据分组关联结果,在预设的标签词词典中查找被本文完全覆盖的标签词,得到所述组合型标签词。6.一种文本标签词的生成系统,其特征在于,包括标签词提取模块、标签词分组模块、标签词聚合模块以及标签词生成模块;所述标签词提取模块,用于提取文本中的标签词;所述标签词分组模块,用于根据提取的所述标签词,以及预设的标...
【专利技术属性】
技术研发人员:尹越,
申请(专利权)人:杭州有赞科技有限公司,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。