当前位置: 首页 > 专利查询>北京大学专利>正文

软件构件集合描述词自动提取方法技术

技术编号:2914034 阅读:294 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种软件构件集合描述词自动提取方法,包括:步骤1.将输入的至少一个软件构件转换成用向量形式表示的向量软件构件;步骤2、将至少一个所述向量软件构件分成K个软件构件集合;步骤3、对于第i个软件构件集合,计算每个向量软件构件的软件构件描述词与所述第i个软件构件集合的中心的距离,选取与所述第i个软件构件集合的中心的距离最近的至少五个软件构件描述词作为所述第i个软件构件集合的软件构件集合描述词。采用本发明专利技术提供的方法,可以自动将输入的软件构件分到不同的软件构件集合中,并能给出一组能够描述软件构件集合的描述词。

【技术实现步骤摘要】

本专利技术涉及计算机
,尤其涉及一种软件构件集合描述词自动提取方法
技术介绍
软件构件(soft component)是指在软件应用系统中可以明确辨别的构成部分,可复用软件构件是指具有相对独立的功能和可复用价值的软件构件。软件构件由概念信息和实体信息组成。软件构件集合描述词是指描述一个软件构件集合中所有软件构件所共有的特征或该集合中的软件构件区别于其他软件构件集合中软件构件的描述词。软件构件集合描述词是用户在大量软件构件中寻找目标软件构件时必须的依据,如果一个软件构件集合没有描述词,用户对于该软件构件集合中的具体内容则无法有个大致的了解,从而为寻找目标软件构件带来不便。在现有技术中,通常会通过人工的方式从不同的角度寻找将多个软件构件分为多个软件构件集合,然后确定一个关键词作为一个软件构件集合的名称,软件构件集合的名称可以看作一种软件构件集合描述词。这种确定软件构件集合描述词的方法存在如下的问题:软件构件软件构件软件构件对于一个软件构件集合,有多个关键词可以作为该软件构件集合的名称,通过人工方式从为数众多的关键词中选定一个作为软件构件集合的名称,需要耗费很多人力,效率不高。
技术实现思路
本专利技术的目的在于针对现有技术存在的问题,提供一种软件构件集合描述词自动提取方法,能够自动将软件构件分到不同的软件构件集合中,并能-->自动提取出一组能够描述该软件构件集合的描述词,克服人工确定软件构件集合描述词效率不高的缺陷。为了实现上述目的,本专利技术提供了一种软件构件集合描述词自动提取方法,包括:步骤1、将输入的至少一个软件构件转换成用向量形式表示的向量软件构件;步骤2、将至少一个所述向量软件构件分成K个软件构件集合;步骤3、对于第i个软件构件集合,计算每个向量软件构件的软件构件描述词与所述第i个软件构件集合的中心的距离,选取与所述第i个软件构件集合的中心的距离最近的至少五个软件构件描述词作为所述第i个软件构件集合的软件构件集合描述词;1≤i≤K。本专利技术提供的软件构件集合描述词自动提取方法,数据处理装置对于输入的多个软件构件,先将各软件构件转换成用向量形式表示的向量软件构件,然后将各向量软件构件分成多个软件构件集合,对于每个软件构件集合,计算集合中每个向量软件构件的软件构件描述词与该软件构件集合的中心的距离,选取与该软件构件集合的中心的距离最近的至少五个软件构件描述词作为该软件构件集合的软件构件集合描述词,这样就能够自动将软件构件分到不同的软件构件集合中,并能提取出一组能够描述软件构件集合的描述词。通过在数据处理装置中进行上述步骤,实现了软件构件集合描述词提取的自动化,提高了确定软件构件集合描述词的效率,克服了人工方式确定软件构件集合描述词效率不高的缺陷。下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。附图说明图1所示为本专利技术软件构件集合描述词自动提取方法流程图。-->具体实施方式如图1所示为本专利技术软件构件集合描述词自动提取方法流程图,包括步骤1、将输入的多个软件构件转换成用向量形式表示的向量软件构件,向量软件构件是软件构件的向量形式的表示;步骤2、将多个向量软件构件分成K个软件构件集合;步骤3、对于某一个软件构件集合,计算该软件构件集合中每个向量软件构件的软件构件描述词与该软件构件集合的中心的距离,选取与该软件构件集合的中心的距离最近的至少五个软件构件描述词作为该软件构件集合的软件构件集合描述词。下面具体解释本专利技术软件构件集合描述词自动提取方法的实现过程。本专利技术提供的软件构件描述词提取方法是自动的,软件构件描述词提取的过程可以在一个能够进行数据处理的装置中进行,例如可以将各软件构件输入到计算机中,然后由计算机对多个软件构件进行处理。CS={c1,c2,......,cn本文档来自技高网...

【技术保护点】
一种软件构件集合描述词自动提取方法,其特征在于,包括: 步骤1、将输入的至少一个软件构件转换成用向量形式表示的向量软件构件; 步骤2、将至少一个所述向量软件构件分成K个软件构件集合; 步骤3、对于第i个软件构件集合,计算每 个向量软件构件的软件构件描述词与所述第i个软件构件集合的中心的距离,选取与所述第i个软件构件集合的中心的距离最近的至少五个软件构件描述词作为所述第i个软件构件集合的软件构件集合描述词;1≤i≤K; 所述步骤1到步骤3在数据处理装置中进 行。

【技术特征摘要】
1、一种软件构件集合描述词自动提取方法,其特征在于,包括:步骤1、将输入的至少一个软件构件转换成用向量形式表示的向量软件构件;步骤2、将至少一个所述向量软件构件分成K个软件构件集合;步骤3、对于第i个软件构件集合,计算每个向量软件构件的软件构件描述词与所述第i个软件构件集合的中心的距离,选取与所述第i个软件构件集合的中心的距离最近的至少五个软件构件描述词作为所述第i个软件构件集合的软件构件集合描述词;1≤i≤K;所述步骤1到步骤3在数据处理装置中进行。2、根据权利要求1所述的软件构件集合描述词自动提取方法,其特征在于,所述步骤1具体包括:步骤11、将输入的至少一个软件构件的描述句分割成单个软件构件描述词;步骤12、对于分割成的单个软件构件描述词,去除其中不符合软件构件描述词标准的词;步骤13、计算剩余的软件构件描述词的权重;步骤14、将软件构件转换成所述向量软件构件,所述向量软件构件的维度为所述剩余的软件构件描述词,所述维度上的值为所述剩余的软件构件描述词的权重。3、根据权利要求2所述的软件构件集合描述词自动提取方法,其特征在于,所述步骤13中计算剩余的软件构件描述词的权重的公式为:Weight(word,ci)=tf(word,ci)*idf(word);Weight(word,ci)表示第i个软件构件的权重,ci表示第i个软件构件,word表示第i个软件构件的软件构件描述词,tf(word,ci)表示第...

【专利技术属性】
技术研发人员:李戈谢冰刘飞张良杰黄艺燕
申请(专利权)人:北京大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1