【技术实现步骤摘要】
解析器生成方法、检索方法、服务器及存储介质
本申请涉及互联网
,尤其涉及一种解析器生成方法、检索方法、服务器以及存储介质。
技术介绍
大数据时代经过若干年的发展,文本数据的产生速度越来越快,数据量也急剧增长,由此方便人们从海量文本数据中获取更多想要的信息,而如何从海量文本数据中准确获取到所需的文本数据也变得尤为关键,为此,文本数据检索方式:全文检索方式得到了广泛的关注和应用。全文检索方式是通过解析、召回和排序等过程实现文本数据检索的。其中,解析文本数据过程是全文检索重要步骤,直接决定了检索的完备度、准确度。
技术实现思路
本申请的多个方面提供了一种解析器生成方法、检索方法、服务器以及存储介质,用以根据用户的不同需求自定义解析器,降低开发成本。本申请实施例提供了一种解析器生成方法,所述方法包括:接收采用第一编程语言编写的解析组件描述文本,所述解析组件描述文本包含至少一个组件标识及其对应的解析参数;从采用第二编程语言编写的解析组件模板中,选择与所述至少一个组件标识分别对应的解析组件模板;根据所述至少一个组件标识对应的解析参数及解析组件模板,生成至少一个解析组件;对所述至少一个解析组件进行组合,得到用于面向采用所述第一编程语言编写的数据库语句进行解析的解析器。本申请实施例还提供了一种服务器,包括:存储器、处理器以及通信组件;所述通信组件,用于;接收采用第一编程语言编写的解析组件描述文本,所述解析组件描述文本包含至少一个组件标识及其对应的解析参数;所述存储器,用于存储计算机程 ...
【技术保护点】
1.一种解析器生成方法,其特征在于,所述方法包括:/n接收采用第一编程语言编写的解析组件描述文本,所述解析组件描述文本包含至少一个组件标识及其对应的解析参数;/n从采用第二编程语言编写的解析组件模板中,选择与所述至少一个组件标识分别对应的解析组件模板;/n根据所述至少一个组件标识对应的解析参数及解析组件模板,生成至少一个解析组件;/n对所述至少一个解析组件进行组合,得到用于面向采用所述第一编程语言编写的数据库语句进行解析的解析器。/n
【技术特征摘要】
1.一种解析器生成方法,其特征在于,所述方法包括:
接收采用第一编程语言编写的解析组件描述文本,所述解析组件描述文本包含至少一个组件标识及其对应的解析参数;
从采用第二编程语言编写的解析组件模板中,选择与所述至少一个组件标识分别对应的解析组件模板;
根据所述至少一个组件标识对应的解析参数及解析组件模板,生成至少一个解析组件;
对所述至少一个解析组件进行组合,得到用于面向采用所述第一编程语言编写的数据库语句进行解析的解析器。
2.根据权利要求1所述的方法,其特征在于,还包括:
根据所述解析组件描述文本中的段落结束符,确定所述解析组件描述文本包含的至少一个文本段落,一个文本段落对应一个解析组件;
对所述至少一个文本段落分别进行语法解析,以得到至少一个组件标识及其对应的解析参数。
3.根据权利要求2所述的方法,其特征在于,对所述至少一个文本段落分别进行语法解析,以得到至少一个组件标识及其对应的解析参数,包括:
对所述至少一个文本段落分别进行语义解析,得到每个文本段落中的动作描述词语以及其具体含义;
获取所述每个文本段落中动作描述词语后面指定位置处的参数作为组件标识;
从所述每个文本段落中组件标识后面的文本语句中分别解析出每个文本段落中组件标识对应的解析参数。
4.根据权利要求1所述的方法,其特征在于,根据所述至少一个组件标识对应的解析参数及解析组件模板,生成至少一个解析组件,包括:
按照所述第一编程语言的语法结构分别为所述至少一个组件标识对应的解析组件模板命名;
分别解析所述至少一个组件标识对应的解析组件模板中的参数位置;
将所述至少一个组件标识各自对应的解析参数分别设置于各自对应的解析组件模板中的参数位置处,以得到至少一个解析组件。
5.根据权利要求4所述的方法,其特征在于,按照所述第一编程语言的语法结构分别为所述至少一个组件标识对应的解析组件模板命名,包括:
若所述至少一个组件标识分别是所述解析组件描述文本包含的至少一个语句中动作描述词语后面指定位置处的参数,根据所述至少一个组件标识后面指定位置处的参数为各自对应的解析组件模板命名。
6.根据权利要求3所述的方法,其特征在于,所述至少一个解析组件包括字符过滤器组件、分词器组件和/或词语过滤器组件。
7.根据权利要求6所述的方法,其特征在于,从所述每个文本段落中组件标识后面的文本语句中分别解析出每个文本段落中组件标识对应的解析参数,包括:
对每个文本段落,从所述文本段落中组件标识后面第一位置处解析出参数定义标识;
从所述参数定义标识后面获取所述文本段落中组件标识对应的解析组件所能处理的对象类型。
8.根据权利要求7所述的方法,其特征在于,所述方法进一步包括:
当解析组件包括分词器组件时,从所述参数定义标识后面依次获取所述文本段落中组件标识对应的解析组件所能处理的对象类型以及切分词语指定规则。
9.根据权利要求7所述的方法,其特征在于,所述方法进一步包括:从所述参数定义标识后面依次获取所述文本段落中组件标识对应的解析组件所能处理的对象类型、对象类型的属性及属性值。
10.根据权利要求8所述的方法,其特征在于,所述方法进一步包括:从所述参数定义标识后面依次获取所述文本段落中组件标识对应的解析组件所能处理的对象类型、指定词语切分规则、对象类型的属性及属性值。
11.根据权利要求7所述的方法,其特征在于,
当解析组件是字符过滤器组件,所述字符过滤器组件所能处理的对象类型包括:英文字体转换以及中文字体转换;
当解析组件是分词器组件,所述分词器组件所能处理的对象类型包括:切分词语;
当解析组件是词语过滤器组件,所述词语过滤器组件所能处理的对象类型包括:删除指定词语以及词语转拼音。
12.根据权利要求1-11任一项所述的方法,其特征在于,对所述至少一个解析组件进行组合,得到用于面向采用所述第一编程语言编写的数据库语句进行解析的解析器,包括:
接收采用第一编程语言编写的解析器描述文本,所述解析器描述文本包含解析器标识以及解析器所包含的至少一个解析组件的名称;
根据所述解析器标识获取解析器模板,并解析所述解析组件模板中的参数位置;
将所述解析组件的名称设置于解析组件模板中的参数位置处,以得到解析器。
13.根据权利要求1-11任一项所述的方法,其特征在于,所述方法还包括以下至少一种操作:
响应于第一查看请求,发送所述解析器的描述信息;
响应于第二查看请求,发送所述解析器的代码信息;
响应于第三查看请求,发送至少...
【专利技术属性】
技术研发人员:涂继业,魏闯先,占超群,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛;KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。