【技术实现步骤摘要】
文本数据的多粒度树表示方法
[0001]本申请涉及文本数据挖掘领域,更具体地,涉及一种文本数据的多粒度树表示方法。
技术介绍
[0002]文本数据是信息传递的重要媒介,各行业不断产生大量文本数据,如新闻报道、商品评价、教学评语等,都可用文本数据的形式表示、存储与传输。从文本数据挖掘关键信息,是许多应用的重要需求。从不同粒度获取文本数据的信息,可更准确把握文本蕴含的关键信息。当前技术主要是集中在某个粒度理解文本数据,缺少快速有效地从不同粒度挖掘文本数据的有效手段。
技术实现思路
[0003]鉴于上述问题,本申请提出了一种文本数据的多粒度树表示方法,以解决上述问题。
[0004]第一方面,本申请实施例提供了一种文本数据的多粒度树表示方法,所述方法包括:获取文本数据;从所述文本数据中抽取候选关键词;基于所述候选关键词,构建多粒度树,其中,所述多粒度树用于表示所述文本数据,所述多粒度树在第i层包括N
i
个关键词以及N
i
个关键词对应的权值,所述多粒度树的每一层包括的关键词数
【技术保护点】
【技术特征摘要】
1.一种文本数据的多粒度树表示方法,其特征在于,所述方法包括:获取文本数据;从所述文本数据中抽取候选关键词;基于所述候选关键词,构建多粒度树,其中,所述多粒度树用于表示所述文本数据,所述多粒度树在第i层包括N
i
个关键词以及N
i
个关键词对应的权值,所述多粒度树的每一层包括的关键词数量为N1、N2、
…
、N
M
‑2、N
M
‑1、N
M
,所述多粒度树的每一层包括的关键词数量的关系满足N1≥N2≥
…
≥N
M
‑2≥N
M
‑1≥N
M
。2.根据权利要求1所述的方法,其特征在于,所述基于所述候选关键词,构建多粒度树,包括:基于关键词词典从所述候选关键词中筛选出N1个关键词,并获取所述N1个关键词在所述文本数据中对应的权值,作为多粒度树的第1层;基于所述N
i
个关键词对应的关键词信息聚类,获得N
i+1
个类,其中,i可以为1到M
‑
1的正整数;将所述N
i+1
个类中每个类中权值最大的关键词,以及所述N
i+1
个类中每个类所有关键词对应的权值之和,作为所述多粒度树的第i+1层;重复上述获得N
i+1
个类以及获得所述多粒度树的第i+1层的过程,直至获得所述多粒度树的第M层。3.根据权利要求2所述的方法,其特征在于,所述重复上述获得N
i+1
个类以及获得所述多粒度树的第i+1层的过程,直至获得所述多粒度树的第M层,包括:重复上述获得N
i+1
个类以及获得所述多粒度树的第i+1层的过程,直至获得所述多粒度树的第M一1层;将所述多粒度树第M
‑
1...
【专利技术属性】
技术研发人员:钱基德,钱基业,杜冬,孙宏,周超,徐海文,秦小林,钮益峰,梁琰,
申请(专利权)人:国网重庆市电力公司电力科学研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。