代码文件查询方法和装置制造方法及图纸

技术编号:11809639 阅读:65 留言:0更新日期:2015-08-01 03:32
本发明专利技术公开了一种代码文件查询方法和装置,属于数据处理技术领域。所述方法包括:基于历史查询词向量以及每个代码文件的文本特征向量和代码特征向量构造的转换矩阵,对当前查询词向量和每个代码文件的代码特征向量进行转换,代码特征向量根据代码文件的代码块确定;根据当前查询词向量、转换后的查询词向量、每个代码文件转换后的代码特征向量以及每个代码文件的文本特征向量,计算每个代码文件与查询词之间的相似度,得到代码文件查询结果。本发明专利技术考虑到了代码文件的结构对语义的影响,充分挖掘代码文件的内容和结构,提高了特征提取的准确性,且在查询代码文件的过程中,基于该文本特征向量和代码特征向量计算相似度,提高了查询精度。

【技术实现步骤摘要】

本专利技术涉及数据处理
,特别涉及一种代码文件查询方法和装置
技术介绍
软件系统的代码库一般由大量代码文件组成,为了对软件系统进行维护,需要根 据一些给定的查询词,从代码库中查询与查询词相关的代码文件,从而进行有针对性的维 护。 为此, 由GiulianoAntoniol、Gerardo Canfora、Gerardo Casazza、Andrea De Lucia和Ettore Merlo撰写的,在2002年10月在IEEE软件工程汇刊(期刊IEEE Transactions on Software Engineering)的28卷10期中公开的、名称为"Recovering Traceability Links between Code and Documentation"的论文中,提出了一种查询代码 文件的方法,具体包括以下步骤:根据代码库中代码文件所包括的文本信息,提取代码文件 的文本特征;基于给定的查询词,计算提取到的代码文件的文本特征与该查询词之间的相 似度,并将相似度最大的文本特征所对应的代码文件作为该查询词的查询结果输出。 然而,对于代码文件来说,即使两个代码文件包含相同的文本信息,如果该两个代 码文件的结构不同,其语义也会不同。而上述查询代码文件的方法仅根据代码文件所包括 的文本信息提取了文本特征,特征提取的准确性低,降低了查询精度。
技术实现思路
为了解决现有技术的问题,本专利技术实施例提供了一种代码文件查询方法和装置。 所述技术方案如下: -方面,提供了一种代码文件查询方法,所述方法包括: 基于历史查询过程中所应用的历史查询词向量,以及代码库中每个代码文件的文 本特征向量和代码特征向量构造的转换矩阵,对当前查询词向量和所述每个代码文件的代 码特征向量进行转换,得到转换后的查询词向量和每个代码文件转换后的代码特征向量, 所述代码文件的代码特征向量根据代码文件中的代码块确定; 根据所述当前查询词向量、所述转换后的查询词向量、所述每个代码文件转换后 的代码特征向量以及所述每个代码文件的文本特征向量,计算每个代码文件与查询词之间 的相似度; 根据所述每个代码文件与所述查询词之间的相似度,得到代码文件查询结果。 可选地,基于历史查询过程中所应用的历史查询词向量、所述每个代码文件的文 本特征向量和代码特征向量构造的转换矩阵,对当前查询词向量和所述每个代码文件的代 码特征向量进行向量转换,得到转换后的查询词向量和每个代码文件转换后的代码特征向 量包括: 计算第一转换矩阵的转置矩阵与所述查询词向量的乘积,得到转换后的查询词向 量,所述转换矩阵包括所述第一转换矩阵和第二转换矩阵; 将每个代码文件的代码特征向量组成代码特征矩阵; 计算所述代码特征矩阵的转置矩阵与所述第二转换矩阵的乘积,得到转换后的代 码特征矩阵; 提取所述转换后的代码特征矩阵的转置矩阵中的每个向量,作为对应代码文件的 转换后的代码特征向量。 可选地,根据所述当前查询词向量、所述转换后的查询词向量、所述每个代码文件 转换后的代码特征向量以及所述每个代码文件的文本特征向量,计算每个代码文件与查询 词之间的相似度包括 : 计算每个代码文件的文本特征向量与所述查询词向量之间的第一相似度; 计算每个代码文件转换后的代码特征向量与所述转换后的查询词向量之间的第 二相似度; 对每个代码文件的第一相似度和第二相似度进行加权求和,得到每个代码文件与 所述查询词之间的相似度。 可选地,基于历史查询过程中所应用的历史查询词向量,以及代码库中每个代码 文件的文本特征向量和代码特征向量构造的转换矩阵,对当前查询词向量和所述每个代码 文件的代码特征向量进行转换,得到转换后的查询词向量和每个代码文件转换后的代码特 征向量之前,所述方法还包括: 对于每个代码文件,根据所述代码文件的自然语言描述、注释和变量名称,获取所 述代码文件的文本特征向量; 判断所述代码文件中是否包括出现次数大于预设阈值的代码块; 当所述代码文件中包括出现次数大于所述预设阈值的代码块时,提取所述出现次 数大于所述预设阈值的代码块; 将提取到的不同代码块的出现次数组成所述代码文件的代码特征向量。 可选地,基于历史查询过程中所应用的历史查询词向量、所述每个代码文件的文 本特征向量和代码特征向量构造的转换矩阵,对当前查询词向量和所述每个代码文件的代 码特征向量进行向量转换,得到转换后的查询词向量和每个代码文件转换后的代码特征向 量之前,所述方法还包括: 获取历史查询过程中所应用的每个历史查询词向量,组成样本查询矩阵; 将代码库中每个代码文件的文本特征向量组成样本文本特征矩阵; 将代码块中每个代码文件的代码特征向量组成样本代码特征矩阵; 根据所述样本查询矩阵、所述样本文本特征矩阵和所述样本代码特征矩阵,确定 以第一转换矩阵和第二转换矩阵为自变量的目标函数; 求解所述目标函数的最小值,获取所述目标函数为最小值时所对应的解。可选地,所述目标函数为:【主权项】1. 一种代码文件查询方法,其特征在于,所述方法包括: 基于历史查询过程中所应用的历史查询词向量,以及代码库中每个代码文件的文本特 征向量和代码特征向量构造的转换矩阵,对当前查询词向量和所述每个代码文件的代码特 征向量进行转换,得到转换后的查询词向量和每个代码文件转换后的代码特征向量,所述 代码文件的代码特征向量根据代码文件中的代码块确定; 根据所述当前查询词向量、所述转换后的查询词向量、所述每个代码文件转换后的代 码特征向量以及所述每个代码文件的文本特征向量,计算每个代码文件与查询词之间的相 似度; 根据所述每个代码文件与所述查询词之间的相似度,得到代码文件查询结果。2. 根据权利要求1所述的方法,其特征在于,基于历史查询过程中所应用的历史查询 词向量、所述每个代码文件的文本特征向量和代码特征向量构造的转换矩阵,对当前查询 词向量和所述每个代码文件的代码特征向量进行向量转换,得到转换后的查询词向量和每 个代码文件转换后的代码特征向量包括: 计算第一转换矩阵的转置矩阵与所述查询词向量的乘积,得到转换后的查询词向量, 所述转换矩阵包括所述第一转换矩阵和第二转换矩阵; 将每个代码文件的代码特征向量组成代码特征矩阵; 计算所述代码特征矩阵的转置矩阵与所述第二转换矩阵的乘积,得到转换后的代码特 征矩阵; 提取所述转换后的代码特征矩阵的转置矩阵中的每个向量,作为对应代码文件的转换 后的代码特征向量。3. 根据权利要求1所述的方法,其特征在于,根据所述当前查询词向量、所述转换后的 查询词向量、所述每个代码文件转换后的代码特征向量以及所述每个代码文件的文本特征 向量,计算每个代码文件与查询词之间的相似度包括: 计算每个代码文件的文本特征向量与所述查询词向量之间的第一相似度; 计算每个代码文件转换后的代码特征向量与所述转换后的查询词向量之间的第二相 似度; 对每个代码文件的第一相似度和第二相似度进行加权求和,得到每个代码文件与所述 查询词之间的相似度。4. 根据权利要求1所述的方法,其特征在于,基于历史查询过程中所应用的历史查询 词向量,以及代码库中每个代码文件的文本特征向量和代码特征向量构造的转换矩阵,对 当前查询词向量本文档来自技高网...

【技术保护点】
一种代码文件查询方法,其特征在于,所述方法包括:基于历史查询过程中所应用的历史查询词向量,以及代码库中每个代码文件的文本特征向量和代码特征向量构造的转换矩阵,对当前查询词向量和所述每个代码文件的代码特征向量进行转换,得到转换后的查询词向量和每个代码文件转换后的代码特征向量,所述代码文件的代码特征向量根据代码文件中的代码块确定;根据所述当前查询词向量、所述转换后的查询词向量、所述每个代码文件转换后的代码特征向量以及所述每个代码文件的文本特征向量,计算每个代码文件与查询词之间的相似度;根据所述每个代码文件与所述查询词之间的相似度,得到代码文件查询结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘博邬亮
申请(专利权)人:日本电气株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1