文本数据的多粒度树表示方法技术

技术编号:37462625 阅读:34 留言:0更新日期:2023-05-06 09:35
本发明专利技术公开了一种文本数据的多粒度树表示方法,涉及文本数据挖掘技术领域。该方法包括:获取文本数据,从文本数据中抽取候选关键词,并根据候选关键词,构建表示文本数据的多粒度树,所述多粒度树在第i层包括N

【技术实现步骤摘要】
文本数据的多粒度树表示方法


[0001]本申请涉及文本数据挖掘领域,更具体地,涉及一种文本数据的多粒度树表示方法。

技术介绍

[0002]文本数据是信息传递的重要媒介,各行业不断产生大量文本数据,如新闻报道、商品评价、教学评语等,都可用文本数据的形式表示、存储与传输。从文本数据挖掘关键信息,是许多应用的重要需求。从不同粒度获取文本数据的信息,可更准确把握文本蕴含的关键信息。当前技术主要是集中在某个粒度理解文本数据,缺少快速有效地从不同粒度挖掘文本数据的有效手段。

技术实现思路

[0003]鉴于上述问题,本申请提出了一种文本数据的多粒度树表示方法,以解决上述问题。
[0004]第一方面,本申请实施例提供了一种文本数据的多粒度树表示方法,所述方法包括:获取文本数据;从所述文本数据中抽取候选关键词;基于所述候选关键词,构建多粒度树,其中,所述多粒度树用于表示所述文本数据,所述多粒度树在第i层包括N
i
个关键词以及N
i
个关键词对应的权值,所述多粒度树的每一层包括的关键词数量为N1、N2、...

【技术保护点】

【技术特征摘要】
1.一种文本数据的多粒度树表示方法,其特征在于,所述方法包括:获取文本数据;从所述文本数据中抽取候选关键词;基于所述候选关键词,构建多粒度树,其中,所述多粒度树用于表示所述文本数据,所述多粒度树在第i层包括N
i
个关键词以及N
i
个关键词对应的权值,所述多粒度树的每一层包括的关键词数量为N1、N2、

、N
M
‑2、N
M
‑1、N
M
,所述多粒度树的每一层包括的关键词数量的关系满足N1≥N2≥

≥N
M
‑2≥N
M
‑1≥N
M
。2.根据权利要求1所述的方法,其特征在于,所述基于所述候选关键词,构建多粒度树,包括:基于关键词词典从所述候选关键词中筛选出N1个关键词,并获取所述N1个关键词在所述文本数据中对应的权值,作为多粒度树的第1层;基于所述N
i
个关键词对应的关键词信息聚类,获得N
i+1
个类,其中,i可以为1到M

1的正整数;将所述N
i+1
个类中每个类中权值最大的关键词,以及所述N
i+1
个类中每个类所有关键词对应的权值之和,作为所述多粒度树的第i+1层;重复上述获得N
i+1
个类以及获得所述多粒度树的第i+1层的过程,直至获得所述多粒度树的第M层。3.根据权利要求2所述的方法,其特征在于,所述重复上述获得N
i+1
个类以及获得所述多粒度树的第i+1层的过程,直至获得所述多粒度树的第M层,包括:重复上述获得N
i+1
个类以及获得所述多粒度树的第i+1层的过程,直至获得所述多粒度树的第M一1层;将所述多粒度树第M

1...

【专利技术属性】
技术研发人员:钱基德钱基业杜冬孙宏周超徐海文秦小林钮益峰梁琰
申请(专利权)人:国网重庆市电力公司电力科学研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1