文本标签词的生成方法、系统及装置制造方法及图纸

技术编号:17734021 阅读:49 留言:0更新日期:2018-04-18 11:28
本发明专利技术公开了一种文本标签词的生成方法、系统及装置,其中方法包括:提取文本中的标签词,根据提取的标签词,以及预设的标签词关系,生成相互关联的分组标签词;进而按照各个分组标签词之间的关联关系,对分组标签词进行聚合,并在预设的标签词词典中查找能够被本文完全覆盖的聚合后的分组标签词,得到组合型标签词;最后根据组合型标签词以及预设的标签词关系,在文本中生成映射标签词。本发明专利技术提供的文本标签词的生成方法、系统以及装置,可操作性强,能够快速、独立地根据实际需求,为文本生成相应的标签词,无需专业人员介入。

The method, system and device for the generation of text label words

The invention discloses a method for generating a text label word, a system and a device thereof, wherein the method comprises the following steps: extracting text labels in words, according to the extracted labels, as well as the default label word, generating interrelated label words; then according to the relation between each packet label word, to label words the polymerization was carried out in the dictionary and find the label in the word presupposition can be completely covered by the aggregated packet label word, combined type label words; according to the combination of words and word tag label generation and mapping relationship between presupposition, words in the text in the label. The text label word generation method, system and device provided by the invention are highly operative, and can generate corresponding tag words quickly and independently according to actual needs, without professional intervention.

【技术实现步骤摘要】
文本标签词的生成方法、系统及装置
本专利技术涉及文本分类
,特别涉及一种文本标签词的生成方法、系统及装置。
技术介绍
现有的对于一段文本,生成标签词的主要方法是:首先对文本进行分词,然后利用分类算法,将文本划分为某一个类别,从而为这段文本生成对应的类别标签词。这种方法对操作人员的专业度要求较高,对于非专业人员来讲,很难快速、独立的根据实际需求,为一类文本生成相应的标签词。
技术实现思路
基于此,本专利技术提供了一种文本标签词的生成方法、系统及装置,通过向词典中添加标签词以及标签词之间关系,就可以快速为文本标注上满足需求的标签词,方法简单,可操作性强。利用本专利技术提供的文本标签词的生成方法及系统,非技术人员可快速独立的根据实际需求,为文本生成相应的标签词,无需专业人员介入。本专利技术提供的文本标签词的生成方法,包括以下步骤:提取文本中的标签词;根据提取的所述标签词,以及预设的标签词关系,生成相互关联的分组标签词;按照各个所述分组标签词之间的关联关系,对所述分组标签词进行聚合,并在预设的标签词词典中查找能够被本文完全覆盖的聚合后的所述分组标签词,得到组合型标签词;根据所述组合型标签词以及所述预设的标签词关系,在文本中生成映射标签词。作为一种可实施方式,在提取文本中的标签词之前,还包括以下步骤:根据文本内容,在标签词词典中添加标签词和标签词关系。作为一种可实施方式,提取文本中的标签词,包括以下步骤:利用标签词词典中新添加的标签词,对文本进行分词,提取文本中的标签词。作为一种可实施方式,根据提取的所述标签词,以及预设的标签词关系,依次生成相互关联的分组标签词,包括以下步骤:根据提取的所述标签词,以及所述预设的标签词关系,生成上层标签词;根据提取的所述标签词、生成的上层标签词,以及所述预设的标签词关系,生成同义标签词;根据提取的所述标签词、生成的上层标签词、生成的同义标签词,以及所述预设的标签词关系,生成修饰标签词。作为一种可实施方式,按照分组标签词之间的关联关系,对所述分组标签词进行聚合,并在预设的标签词词典中查找能够被本文完全覆盖的聚合后的所述分组标签词,得到组合型标签词,包括以下步骤:根据所述标签词、上层标签词、同义标签词、以及修饰标签词之间的关联关系进行分组;根据各组之间的关联关系,将所有能够关联起来的分组进行关联;根据分组关联结果,在预设的标签词词典中查找被本文完全覆盖的标签词,得到所述组合型标签词。本专利技术提供的文本标签词的生成系统,包括标签词提取模块、标签词分组模块、标签词聚合模块以及标签词生成模块;所述标签词提取模块,用于提取文本中的标签词;所述标签词分组模块,用于根据提取的所述标签词,以及预设的标签词关系,生成相互关联的分组标签词;所述标签词聚合模块,用于按照各个所述分组标签词之间的关联关系,对所述分组标签词进行聚合,并在预设的标签词词典中查找能够被本文完全覆盖的聚合后的所述分组标签词,得到组合型标签词;所述标签词生成模块,用于根据所述组合型标签词以及所述预设的标签词关系,在文本中生成映射标签词。作为一种可实施方式,本专利技术的文本标签词的生成系统,还包括添加模块;所述添加模块,用于根据文本内容,在词典中添加标签词和标签词关系。作为一种可实施方式,所述标签词分组模块包括上层标签词生成单元、同义标签词生成单元、以及修饰标签词生成单元;所述上层标签词生成单元,用于根据提取的所述标签词,以及所述预设的标签词关系,生成上层标签词;所述同义标签词生成单元,用于根据提取的所述标签词、生成的上层标签词,以及所述预设的标签词关系,生成同义标签词;所述修饰标签词生成单元,用于根据提取的所述标签词、生成的上层标签词、生成的同义标签词,以及所述预设的标签词关系,生成修饰标签词。作为一种可实施方式,所述标签词聚合模块包括分组单元、关联单元以及查找单元;所述分组单元,用于根据所述标签词、上层标签词、同义标签词、以及修饰标签词之间的关联关系进行分组;所述关联单元,用于根据各组之间的关联关系,将所有能够关联起来的分组进行关联;所述查找单元,用于根据分组关联结果,在预设的标签词词典中查找被本文完全覆盖的标签词,得到所述组合型标签词。本专利技术提供的文本标签词的生成装置,包括存储器以及连接所述存储器的处理器;所述处理器用于提取文本中的标签词,并根据提取的所述标签词,以及存储器中预设的标签词关系,生成相互关联的分组标签词;按照各个所述分组标签词之间的关联关系,对所述分组标签词进行聚合,并在预设的标签词词典中查找能够被本文完全覆盖的聚合后的所述分组标签词,得到组合型标签词;根据所述组合型标签词以及所述预设的标签词关系,在文本中生成映射标签词。本专利技术相比于现有技术的有益效果在于:本专利技术提供的文本标签词的生成方法、系统以及装置,通过提取文本中的标签词,根据提取的标签词,以及预设的标签词关系,生成相互关联的分组标签词;进而按照各个分组标签词之间的关联关系,对分组标签词进行聚合,并在预设的标签词词典中查找能够被本文完全覆盖的聚合后的分组标签词,得到组合型标签词;最后根据组合型标签词以及预设的标签词关系,在文本中生成映射标签词。其可操作性强,能够快速、独立地根据实际需求,为文本生成相应的标签词,无需专业人员介入。附图说明图1为本专利技术实施例一提供的文本标签词的生成方法的流程示意图;图2为本专利技术另一实施例提供的文本标签词的生成方法的流程示意图;图3为本专利技术实施例二提供的文本标签词的生成系统的结构示意图。具体实施方式以下结合附图,对本专利技术上述的和另外的技术特征和优点进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术的部分实施例,而不是全部实施例。参见图1,本专利技术实施例一提供了一种文本标签词的生成方法,包括以下步骤:S100,提取文本中的标签词。标签词词典中存储有标签词和标签词关系。在上述步骤S100提取文本中的标签词之前,还可以包括以下步骤:根据文本内容,在标签词词典中添加标签词和标签词关系。标签词和标签词关系可以存储在一个词典中,也可以位于不同的词典中,例如,标签词添加在标签词词典中,标签词关系则添加在标签词关系词典中。本实施例,首先需要向预先设置的词典中添加目标标签词以及标签词关系,已明确生成的标签的要求或者期望。具体的,可以利用标签词词典中新添加的标签词,对文本进行分词,从而提取文本中的标签词。S200,根据提取的标签词,以及预设的标签词关系,生成相互关联的分组标签词。提取的标签词可能会有多个,基于原始提取的标签词,再根据预设的标签词关系,例如上层关系、同义关系、或修饰关系等等,可以生成多个相互关联的分组标签词。具体地,作为一种可实施方式,步骤S200可以通过以下步骤来实现:S210,根据提取的标签词,以及预设的标签词关系,生成上层标签词;S220,根据提取的标签词、生成的上层标签词,以及预设的标签词关系,生成同义标签词;S230,根据提取的标签词、生成的上层标签词、生成的同义标签词,以及预设的标签词关系,生成修饰标签词。一个原始的标签词与其上层标签词对应为一组,同理,一个原始的标签词与其同义标签词对应为一组,一个原始的标签词与其修饰标签词对应为一组,这样便可生成相互关联的分组标签词。此处需要说明的是,根据文本内容,实际预设的标签词关系不局限于本文档来自技高网...
文本标签词的生成方法、系统及装置

【技术保护点】
一种文本标签词的生成方法,其特征在于,包括以下步骤:提取文本中的标签词;根据提取的所述标签词,以及预设的标签词关系,生成相互关联的分组标签词;按照各个所述分组标签词之间的关联关系,对所述分组标签词进行聚合,并在预设的标签词词典中查找能够被本文完全覆盖的聚合后的所述分组标签词,得到组合型标签词;根据所述组合型标签词以及所述预设的标签词关系,在文本中生成映射标签词。

【技术特征摘要】
1.一种文本标签词的生成方法,其特征在于,包括以下步骤:提取文本中的标签词;根据提取的所述标签词,以及预设的标签词关系,生成相互关联的分组标签词;按照各个所述分组标签词之间的关联关系,对所述分组标签词进行聚合,并在预设的标签词词典中查找能够被本文完全覆盖的聚合后的所述分组标签词,得到组合型标签词;根据所述组合型标签词以及所述预设的标签词关系,在文本中生成映射标签词。2.根据权利要求1所述的文本标签词的生成方法,其特征在于,在提取文本中的标签词之前,还包括以下步骤:根据文本内容,在标签词词典中添加标签词和标签词关系。3.根据权利要求1所述的文本标签词的生成方法,其特征在于,提取文本中的标签词,包括以下步骤:利用标签词词典中新添加的标签词,对文本进行分词,提取文本中的标签词。4.根据权利要求1所述的文本标签词的生成方法,其特征在于,根据提取的所述标签词,以及预设的标签词关系,依次生成相互关联的分组标签词,包括以下步骤:根据提取的所述标签词,以及所述预设的标签词关系,生成上层标签词;根据提取的所述标签词、生成的上层标签词,以及所述预设的标签词关系,生成同义标签词;根据提取的所述标签词、生成的上层标签词、生成的同义标签词,以及所述预设的标签词关系,生成修饰标签词。5.根据权利要求1至4任一项所述的文本标签词的生成方法,其特征在于,按照分组标签词之间的关联关系,对所述分组标签词进行聚合,并在预设的标签词词典中查找能够被本文完全覆盖的聚合后的所述分组标签词,得到组合型标签词,包括以下步骤:根据所述标签词、上层标签词、同义标签词、以及修饰标签词之间的关联关系进行分组;根据各组之间的关联关系,将所有能够关联起来的分组进行关联;根据分组关联结果,在预设的标签词词典中查找被本文完全覆盖的标签词,得到所述组合型标签词。6.一种文本标签词的生成系统,其特征在于,包括标签词提取模块、标签词分组模块、标签词聚合模块以及标签词生成模块;所述标签词提取模块,用于提取文本中的标签词;所述标签词分组模块,用于根据提取的所述标签词,以及预设的标...

【专利技术属性】
技术研发人员:尹越
申请(专利权)人:杭州有赞科技有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1