【技术实现步骤摘要】
本专利技术涉及计算机
,尤其涉及一种软件构件集合描述词自动提取方法。
技术介绍
软件构件(soft component)是指在软件应用系统中可以明确辨别的构成部分,可复用软件构件是指具有相对独立的功能和可复用价值的软件构件。软件构件由概念信息和实体信息组成。软件构件集合描述词是指描述一个软件构件集合中所有软件构件所共有的特征或该集合中的软件构件区别于其他软件构件集合中软件构件的描述词。软件构件集合描述词是用户在大量软件构件中寻找目标软件构件时必须的依据,如果一个软件构件集合没有描述词,用户对于该软件构件集合中的具体内容则无法有个大致的了解,从而为寻找目标软件构件带来不便。在现有技术中,通常会通过人工的方式从不同的角度寻找将多个软件构件分为多个软件构件集合,然后确定一个关键词作为一个软件构件集合的名称,软件构件集合的名称可以看作一种软件构件集合描述词。这种确定软件构件集合描述词的方法存在如下的问题:软件构件软件构件软件构件对于一个软件构件集合,有多个关键词可以作为该软件构件集合的名称,通过人工方式从为数众多的关键词中选定一个作为软件构件集合的名称,需要耗费很多人力,效率不高。
技术实现思路
本专利技术的目的在于针对现有技术存在的问题,提供一种软件构件集合描述词自动提取方法,能够自动将软件构件分到不同的软件构件集合中,并能-->自动提取出一组能够描述该软件构件集合的描述词,克服人工确定软件构件集合描述词效率不高的缺陷。为了实现上述目的,本专利技术提供了一种软件构件集合描述词自动提取方法,包括:步骤1、将输入的至少一个软件构件转换成用向量形式表示的向量软件构 ...
【技术保护点】
一种软件构件集合描述词自动提取方法,其特征在于,包括: 步骤1、将输入的至少一个软件构件转换成用向量形式表示的向量软件构件; 步骤2、将至少一个所述向量软件构件分成K个软件构件集合; 步骤3、对于第i个软件构件集合,计算每 个向量软件构件的软件构件描述词与所述第i个软件构件集合的中心的距离,选取与所述第i个软件构件集合的中心的距离最近的至少五个软件构件描述词作为所述第i个软件构件集合的软件构件集合描述词;1≤i≤K; 所述步骤1到步骤3在数据处理装置中进 行。
【技术特征摘要】
1、一种软件构件集合描述词自动提取方法,其特征在于,包括:步骤1、将输入的至少一个软件构件转换成用向量形式表示的向量软件构件;步骤2、将至少一个所述向量软件构件分成K个软件构件集合;步骤3、对于第i个软件构件集合,计算每个向量软件构件的软件构件描述词与所述第i个软件构件集合的中心的距离,选取与所述第i个软件构件集合的中心的距离最近的至少五个软件构件描述词作为所述第i个软件构件集合的软件构件集合描述词;1≤i≤K;所述步骤1到步骤3在数据处理装置中进行。2、根据权利要求1所述的软件构件集合描述词自动提取方法,其特征在于,所述步骤1具体包括:步骤11、将输入的至少一个软件构件的描述句分割成单个软件构件描述词;步骤12、对于分割成的单个软件构件描述词,去除其中不符合软件构件描述词标准的词;步骤13、计算剩余的软件构件描述词的权重;步骤14、将软件构件转换成所述向量软件构件,所述向量软件构件的维度为所述剩余的软件构件描述词,所述维度上的值为所述剩余的软件构件描述词的权重。3、根据权利要求2所述的软件构件集合描述词自动提取方法,其特征在于,所述步骤13中计算剩余的软件构件描述词的权重的公式为:Weight(word,ci)=tf(word,ci)*idf(word);Weight(word,ci)表示第i个软件构件的权重,ci表示第i个软件构件,word表示第i个软件构件的软件构件描述词,tf(word,ci)表示第...
【专利技术属性】
技术研发人员:李戈,谢冰,刘飞,张良杰,黄艺燕,
申请(专利权)人:北京大学,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。