The invention is applied to computer technology, an annotation method, word tag words based on device, server and storage medium are provided. The method includes: in the input text document for the annotation of words, words by pre trained classifier, in default of known words and related known words to be annotated query thesaurus that will set the known words related to the annotation of words by word tag, tag word annotation words treat mark the words by way of supervision and training the classifier obtained by supervised methods, training classifier will be known as words, word tag word, word tag annotation words for automatic annotation based on, effectively improve the efficiency of the annotation word tagging, reduces the annotation of human tagging consumption, effectively improve the standard to be The accuracy and recall of annotation of words and expressions.
【技术实现步骤摘要】
基于词标签的词语标注方法、装置、服务器及存储介质
本专利技术属于计算机
,尤其涉及一种基于词标签的词语标注方法、装置、服务器及存储介质。
技术介绍
在社交媒体发达的今天,从微博、Facebook等网络新媒体中派生出来许多新生词语,这些新生词语越来越多地被运用在我们的实际生活中。在网络新媒体的新生词语诞生之初,人们难以及时地获得这些新生词语的标注,因为在字典或网络百科(如维基百科)中,这些新生词语的词条还没创立,而且人工创立每个新生词语的词条需要做大量繁琐的工作。目前,对于词语标注的研究多集中于词性标注(Partofspeechtagging,POS),即预设好几个类(如人物、地点、机构名称等),然后把目标词划分到其中一类或几类。词性标注的方法比较成熟,准确度也较高。然而,对于网络新媒体待标注词语而言,仅将它们划分到有限的类中,不足以理解它们的意思,特别是许多网络新媒体待标注词语都是与热门事件相关的。词标签方法已广泛运用在如照片描述、文档描述等领域,但在词语标注中的研究还非常有限。现有用标签词标注词语的方法使用的是非监督算法,该算法基于微博数据,将每个已知词和 ...
【技术保护点】
一种基于词标签的词语标注方法,其特征在于,所述方法包括下述步骤:在输入的文本文档中查找待标注词语;通过预先训练好的词语分类器,在预设的已知词库中查询与所述待标注词语相关的已知词,所述词语分类器通过有监督方式训练得到;将所述相关的已知词设置为所述待标注词语的标签词,以通过所述标签词对所述待标注词语进行标注。
【技术特征摘要】
1.一种基于词标签的词语标注方法,其特征在于,所述方法包括下述步骤:在输入的文本文档中查找待标注词语;通过预先训练好的词语分类器,在预设的已知词库中查询与所述待标注词语相关的已知词,所述词语分类器通过有监督方式训练得到;将所述相关的已知词设置为所述待标注词语的标签词,以通过所述标签词对所述待标注词语进行标注。2.如权利要求1所述的方法,其特征在于,在输入的文本文档中查找待标注词语的步骤之前,所述方法还包括:在预先构建的训练数据集中查找样本词语;在预设的词条注释库中查询所述样本词语的注释,提取所述注释的关键词,将在所述已知词库中出现过的所述关键词设置为所述样本词语的标签词;分别计算所述样本词语与所述已知词库中每个已知词的关系特征,根据所述关系特征和所述样本词语的标签词,训练得到所述词语分类器。3.如权利要求2所述的方法,其特征在于,在预设的词条注释库中查询所述样本词语的注释,提取所述注释的关键词,将在所述已知词库中出现过的所述关键词设置为所述样本词语的标签词的步骤,包括:在所述词条注释库中查询所述样本词语的注释,对所述注释进行分词处理和词性标注,在所述词性标注后的所述注释中提取候选标签词;根据所述注释的每部分内容对应的自定义权重、在所述注释的每部分内容中所述候选标签词出现的频率,计算所述候选标签词对应的百科词频;根据所述已知词库计算所述候选标签词对应的逆向档案频率,根据所述候选标签词对应的所述百科词频、所述逆向档案频率,计算所述候选标签词的关键词分数;当所述候选标签词的关键词分数超过预设分数阈值时,将所述候选标签词设置为所述样本词语的标签词。4.如权利要求3所述的方法,其特征在于,根据所述注释的每部分内容对应的自定义权重、在所述注释的每部分内容中所述候选标签词出现的频率,计算所述候选标签词对应的百科词频的步骤,包括:根据所述注释中每部分内容的自定义权重,对所述注释的每部分内容的权重进行重新定义,对所述注释的第j部分内容的权重进行重新定义的公式为:其中,所述βj为所述注释中第j部分内容的自定义权重,所述pj为所述第j部分内容,所述为所述注释,所述αj为对所述第j部分内容的权重进行重新定义后得到的值;根据所述注释中每部分内容重新定义后的权重、所述注释的每部分内容中所述候选标签词出现的频率,计算所述候选标签词对应的百科词频,计算公式为:其中,所述为所述第i个候选标签词wi的百科词频,所述wk为所述第k个候选标签词,所述f(wi,pj)和所述f(wk,pj)分别为在所述第j部...
【专利技术属性】
技术研发人员:梁予之,曲强,
申请(专利权)人:深圳先进技术研究院,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。