一种面向K12编程的Python程序代码快速搜索方法技术

技术编号：22000024 阅读：31 留言：0更新日期：2019-08-31 05:20

本发明专利技术为解决K12编程面临的快速查找相似代码、通过阅读代码进行编程学习的特殊问题，提供了一种字符串、Token串和语法树相结合的Python代码快速搜索技术，通过对用户查询代码和库中代码进行词法分析和语法分析，将字面(字符串级)、词法和语法特征相结合，计算查询代码与库中代码的相关度，据此产生检索的排序结果。本发明专利技术首先利用Python词法分析器和语法分析器，将用户查询和库中代码转化成Token序列和语法树，从中提取特征，构建后缀树索引和倒排索引，以提高检索速度。用于排序的打分函数融合了基于向量空间模型的语法树相似度、Token词袋相似度、Token串相似度和字面(字符串)相似度，融合的权重基于用户对检索结果的反馈自动学习得到。

A Fast Search Method for Python Program Code Oriented to K12 Programming

全部详细技术资料下载

【技术实现步骤摘要】
一种面向K12编程的Python程序代码快速搜索方法
本专利技术属于计算机
，具体是一种面向K12编程的Python程序代码快速搜索技术。
技术介绍
随着互联网时代的发展，越来越多的人开始接触计算机技术，越来越多的人开始接受计算机基础教育，其中就包括计算机编程技术，为解决K12编程面临的快速查找相似代码、通过阅读代码进行编程学习的特殊问题，目前已有的代码检索技术大多基于字符级别的相似度匹配，忽略了代码本身的结构信息以及变量名、函数名带来的影响，故能够对代码进行高效准确的检索是一个亟待解决的研究问题。本专利技术为解决K12编程面临的快速查找相似代码、通过阅读代码进行编程学习的特殊问题，提供了一种字符串、Token串和语法树相结合的Python代码快速搜索技术，通过对用户查询代码和库中代码进行词法分析和语法分析，将字面(字符串级)、词法和语法特征相结合，计算查询代码与库中代码的相关度，据此产生检索的排序结果。
技术实现思路
为解决K12编程面临的快速查找相似代码、通过阅读代码进行编程学习的特殊问题，提供了一种代码相似度计算方法，该方法结合了三个层面的代码相似度，即字符串级别的精确匹配、Token串级别的相似度匹配、代码语法树级别的相似度匹配。为提升查询效率，需定期更新数据库里已有代码的索引，每次更新由以下几个预处理步骤得到代码的特征并依据特征构建索引：步骤1：考虑字符串级别的精确匹配，对原始代码仅做简单的预处理，得到由代码原始字符构成的字符串。步骤2：考虑Token串级别的相似性匹配，对代码进行词法分析，得到原始代码对应的Token字符串。步骤3：考虑语法树...

【技术保护点】
1.一种面向K12编程的Python程序代码快速搜索方法，其特征在于包括以下步骤：步骤1，基于字符串级别的精确匹配，对原始代码预处理，得到由代码原始字符构成的字符串；步骤2：基于Token串级别的相似性匹配，对代码进行词法分析，得到原始代码对应的Token字符串；步骤3：基于语法树级别的相似性匹配，对代码进行语法分析，得到每段代码对应的语法树，再对语法树进行特征提取，得到每个语法树对应的特征串；步骤4：将代码原始字符串、Token字符串、语法树特征字符串结合起来，使用ElasticSearch构建索引。

【技术特征摘要】
1.一种面向K12编程的Python程序代码快速搜索方法，其特征在于包括以下步骤：步骤1，基于字符串级别的精确匹配，对原始代码预处理，得到由代码原始字符构成的字符串；步骤2：基于Token串级别的相似性匹配，对代码进行词法分析，得到原始代码对应的Token字符串；步骤3：基于语法树级别的相似性匹配，对代码进行语法分析，得到每段代码对应的语法树，再对语法树进行特征提取，得到每个语法树对应的特征串；步骤4：将代码原始字符串、Token字符串、语法树特征字符串结合起来，使用ElasticSearch构建索引。2.基于权利要求1所述的搜索方法，其特征在于：所述步骤1中的基于字符串级别的精确匹配，对原始代码预处理，得到由代码原始字符构成的字符串，具体为：该步直接对源代码进行一定的预处理，然后进行字符串的精确匹配即可；预处理过程中忽略了代码中的注释语句，具体做法如下，将代码中的所有字符，根据人工定义的“符号替换词典”进行替换，并加上“punc_”前缀，所有字母组成的单词加上“char_”前缀，然后用空格隔开组成一个长字符串；将查询代码和数据库中代码转换之后的字符串进行精确匹配，相同则返回，不同则不返回。3.基于权利要求1所述的搜索方法，其特征在于：所述步骤2中的基于Token串级别的相似性匹配，对代码进行词法分析，得到原始代码对应的Token字符串，具体为：该步重要的是对代码进行词法分析，旨在忽略代码中变量名、数值大小这类区别，使用Python内置的词法分析器，直接使用指令：python3-mtokenize-e(+filename)对源代码进行词法分析，其中filename为代码文件所在路径；然后对词法分析结果进行如下处理：(1)首先将代码中的所有字符，根据人工定义的“符号替换词典”进行替换，并加上“punc_”前缀，然后将代码中的关键字统一加上“key_”前缀；(2)然后将词法分析中得到的Token标识符根据“Token替换词典”替换为较短的唯一标识符；(3)最后，将查询代码和数据库中代码转换之后的字符...

【专利技术属性】
技术研发人员：不公告发明人，
申请(专利权)人：中森云链成都科技有限责任公司，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人