System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 文本标签确定方法及装置制造方法及图纸_技高网

文本标签确定方法及装置制造方法及图纸

技术编号:40326276 阅读:13 留言:0更新日期:2024-02-09 14:20
本申请提供了一种文本标签确定方法及装置,其中,该方法包括:使用分布式表示模型对文本进行向量化处理,将所述文本转化为维度大于预设维度的文本向量;对所述文本向量进行多层次聚类分析,得到文本聚类结果,并利用词频逆文本频率方法来对所述文本聚类结果进行关键词提取,获取所述文本聚类结果对应的标签候选词;依据预先基于所述文本获得的词与词之间的相似矩阵,确定所述文本聚类结果对应的标签候选词中每两个相似标签候选词的出现次数,并筛选出所述出现次数大于预设次数阈值的至少一对所述标签候选词,生成标签重组词;基于标签重组词来确定所述文本的文本标签。本申请解决了依据词频等进行标签提取、提取出的标签准确度不高的技术问题。

【技术实现步骤摘要】

本申请涉及计算机,具体而言,涉及一种文本标签确定方法及装置


技术介绍

1、在标签提取的过程中,一种常见的方法是依据词频等统计信息进行标签提取。这种方法基于文本中词汇的频率来确定哪些词汇可能代表文本的主题或内容,从而作为标签。标签的词频通常是从文本中提取的单词、短语或者词汇的出现频率。然而,尽管这种方法简单易行,但是它也存在一些问题和限制。

2、首先,基于词频的标签提取方法忽视了词语之间的语义关系。即便某个词汇在文本中频繁出现,但它可能并不具有代表性或者关联性,不能准确地反映文本的主题。而有些词汇可能在文本中出现次数较少,但它们可能是文本主题的关键词,却被忽略掉了。

3、其次,基于词频的标签提取方法容易受到文本长度的影响。较长的文本可能包含更多的词汇,使得词频较高的词汇数量相对较多,但并不一定代表这些词汇是最具代表性的标签。相反,较短的文本可能词汇数量较少,导致词频较高的词汇更容易被选为标签,可能忽视了文本的全面性和多样性。

4、针对上述的问题,目前尚未提出有效的解决方案。


技术实现思路

1、本申请实施例提供了一种文本标签确定方法及装置,以至少解决依据词频等进行标签提取、提取出的标签准确度不高的技术问题。

2、根据本申请实施例的一个方面,提供了一种文本标签确定方法,包括:使用分布式表示模型对文本进行向量化处理,将所述文本转化为维度大于预设维度的文本向量;对所述文本向量进行多层次聚类分析,得到文本聚类结果,并利用词频逆文本频率方法来对所述文本聚类结果进行关键词提取,获取所述文本聚类结果对应的标签候选词;依据预先基于所述文本获得的词与词之间的相似矩阵,确定所述文本聚类结果对应的每两个相似标签候选词的出现次数,并筛选出所述出现次数大于预设次数阈值的至少一对所述标签候选词,生成标签重组词;基于所述标签重组词来确定所述文本的文本标签。

3、根据本申请实施例的另一方面,还提供了一种文本标签确定装置,包括:量化模块,被配置为使用分布式表示模型对文本进行向量化处理,将所述文本转化为维度大于预设维度的文本向量;聚类模块,被配置为对所述文本向量进行多层次聚类分析,得到文本聚类结果,并利用词频逆文本频率方法来对所述文本聚类结果进行关键词提取,获取所述文本聚类结果对应的标签候选词;重组模块,被配置为依据预先基于所述文本获得的词与词之间的相似矩阵,确定所述文本聚类结果对应的每两个相似标签候选词的出现次数,并筛选出所述出现次数大于预设次数阈值的至少一对所述标签候选词,生成标签重组词;确定模块,被配置为基于所述标签重组词来确定所述文本的文本标签。

4、在本申请实施例中,使用分布式表示模型对文本进行向量化处理,将所述文本转化为维度大于预设维度的文本向量;对所述文本向量进行多层次聚类分析,得到文本聚类结果,并利用词频逆文本频率方法来对所述文本聚类结果进行关键词提取,获取所述文本聚类结果对应的标签候选词;依据预先基于所述文本获得的词与词之间的相似矩阵,确定所述文本聚类结果对应的每两个相似标签候选词的出现次数,并筛选出所述出现次数大于预设次数阈值的至少一对所述标签候选词,生成标签重组词;基于所述标签重组词来确定所述文本的文本标签。通过上述方案解决了依据词频等进行标签提取、提取出的标签准确度不高的技术问题。

本文档来自技高网...

【技术保护点】

1.一种文本标签确定方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,使用分布式表示模型对文本进行向量化处理,将所述文本转化为维度大于预设维度的文本向量,包括:

3.根据权利要求2所述的方法,其特征在于,在基于所述标签重组词来确定所述文本的文本标签之前,所述方法还包括:

4.根据权利要求3所述的方法,其特征在于,基于所述标签重组词来确定所述文本的文本标签,包括:

5.根据权利要求1所述的方法,其特征在于,对所述文本向量进行多层次聚类分析,得到文本聚类结果,包括:

6.根据权利要求1所述的方法,其特征在于,利用词频逆文本频率方法来对所述文本聚类结果进行关键词提取,获取所述文本聚类结果对应的标签候选词,包括:

7.根据权利要求1所述的方法,其特征在于,依据预先基于所述文本获得的词与词之间的相似矩阵,确定所述文本聚类结果对应的标签候选词中每两个相似标签候选词的出现次数,包括:

8.一种文本标签确定装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括:

10.一种计算机可读存储介质,其上存储有程序,其特征在于,在所述程序运行时,使得计算机执行如权利要求1至7中任一项所述的方法。

...

【技术特征摘要】

1.一种文本标签确定方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,使用分布式表示模型对文本进行向量化处理,将所述文本转化为维度大于预设维度的文本向量,包括:

3.根据权利要求2所述的方法,其特征在于,在基于所述标签重组词来确定所述文本的文本标签之前,所述方法还包括:

4.根据权利要求3所述的方法,其特征在于,基于所述标签重组词来确定所述文本的文本标签,包括:

5.根据权利要求1所述的方法,其特征在于,对所述文本向量进行多层次聚类分析,得到文本聚类结果,包括:

6.根据权利要...

【专利技术属性】
技术研发人员:纪智辉蒋正浩李伟
申请(专利权)人:世优北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1