一种基于语法点进行检索的方法、装置及文心检索平台制造方法及图纸

技术编号:36813637 阅读:16 留言:0更新日期:2023-03-09 00:59
本发明专利技术涉及语言处理技术领域,特别是指一种基于语法点进行检索的方法、装置及文心检索平台,方法包括:获取原始语料文件,对所述原始语料文件进行预处理,对预处理后的原始语料文件进行难度等级标注,得到标注语料;将所述标注语料上传至文心检索平台上,创建对应的索引;确定检索语言的规则及初始检索式;建立语法点,根据所述规则,确定语法点对应的不同类型检索的检索式;根据所述语法点对应的检索式,向所述文心检索平台发送检索请求,确定语法点对应的结果。采用本发明专利技术,可以提高检索准确率。确率。确率。

【技术实现步骤摘要】
一种基于语法点进行检索的方法、装置及文心检索平台


[0001]本专利技术涉及语言处理
,特别是指一种基于语法点进行检索的方法、装置及文心检索平台。

技术介绍

[0002]语料库作为一个收录各类型语言数据的综合性语言资源,在语言本体研究及语言应用领域(如语言教学、教材编写、词典编纂等方面)都发挥着非常重要的作用。随着语言数据积累的规模日益扩大与语料库技术发展的日益革新,国内外已建成了多种类型、多种规模的语料库以供不同研究目的的使用,也提供了多种语料库检索平台和工具,为语言学相关研究提供了更大规模的检索以及对语言系统性分析的可能性。
[0003]其中,语料库的建设是核心基础。语料库系统在为语言学研究提供翔实的语言证据的同时,其语料的加工方式与系统检索工具的功能性也限制着它在研究中的具体用途。“工欲善其事,必先利其器”。做好语料库建设工作,设计好语料库检索方式是开展基于语料库相关研究的前提。
[0004]相较而言,当前国内汉语语料库资源建设存在以下不足:检索方式普遍停留在句子的表层形式上,依靠关键字、词和词性匹配来进行检索约束,而较少地关注到句子深层的句法结构,面对涉及到句法成分、依存搭配等较为复杂的检索需求略显吃力;检索模式单一,检索功能的全面性与用户友好性难以兼顾。总的来说,目前汉语语料库的构建情况与日趋精细化、智能化、简洁化的检索需求不匹配,不利于基于语料库的语言研究的开展和相关研究工作的深入。

技术实现思路

[0005]本专利技术实施例提供了一种基于语法点进行检索的方法、装置及文心检索平台。所述技术方案如下:
[0006]一方面,提供了一种基于语法点进行检索的方法,该方法由电子终端实现,该方法包括:
[0007]S1、获取原始语料文件,对所述原始语料文件进行预处理,对预处理后的原始语料文件进行难度等级标注,得到标注语料;
[0008]S2、将所述标注语料上传至文心检索平台上,创建对应的索引;
[0009]S3、获取检索语言,根据检索语言的规则确定所述检索语言对应的初始检索式;
[0010]S4、获取预先建立的语法点,根据所述规则,确定语法点对应的不同类型检索的特定检索式;
[0011]S5、根据所述语法点对应的特定检索式,向所述文心检索平台发送检索请求,确定语法点对应的结果。
[0012]可选地,所述对所述原始语料文件进行预处理,包括:
[0013]对原始语料文件进行分词、词性标注、命名实体识别以及依存句法分析操作。
[0014]可选地,所述初始检索式的构造模块包括:字符项、词性标签项、命名实体项、依存项、词语难度项以及复杂项六种构成形式。
[0015]可选地,所述不同类型检索包括普通类型检索以及模式检索。
[0016]可选地,所述普通检索包括基础检索、依存检索和捕获。
[0017]另一方面,提供了一种文心检索平台,其特征在于,所述文心检索平台包括VUE前端模块、Tornado后端模块、语料标注模块、Odinson后端模块;其中:
[0018]所述VUE前端模块,用于用户交互;
[0019]所述Tornado后端模块,用于接收前端用户请求,对请求做处理后,向所述Odinson后端模块发送检索请求,获取检索结果;
[0020]所述语料标注模块,用于对语料进行标注;
[0021]所述Odinson后端模块,用于提供检索服务,
[0022]所述Odinson后端模块包括构建索引子模块、检索字段设置子模块、parent query子模块以及检索服务子模块,其中:
[0023]所述构建索引子模块,用于运行检索后端服务;
[0024]所述检索字段设置子模块,设置的字段包括raw、word、tag、lemma、entity以及dependencies;
[0025]所述parent query子模块,用于检索制定类别的语料;
[0026]所述检索服务子模块,用于为Tornado后端模块提供检索服务。
[0027]另一方面,提供了一种基于语法点进行检索的装置,该装置应用于基于语法点进行检索的方法,该装置包括:
[0028]标注模块,用于获取原始语料文件,对所述原始语料文件进行预处理,对预处理后的原始语料文件进行难度等级标注,得到标注语料;
[0029]创建模块,用于将所述标注语料上传至文心检索平台上,创建对应的索引;
[0030]确定模块,用于获取检索语言,根据检索语言的规则确定所述检索语言对应的初始检索式;
[0031]建立模块,用于获取预先建立的语法点,根据所述规则,确定语法点对应的不同类型检索的特定检索式;
[0032]检索模块,用于根据所述语法点对应的特定检索式,向所述文心检索平台发送检索请求,确定语法点对应的结果。
[0033]可选地,所述对所述原始语料文件进行预处理,包括:
[0034]对原始语料文件进行分词、词性标注、命名实体识别以及依存句法分析操作。
[0035]可选地,所述初始检索式的构造模块包括:字符项、词性标签项、命名实体项、依存项、词语难度项以及复杂项六种构成形式。
[0036]可选地,所述不同类型检索包括普通类型检索以及模式检索,普通检索包括基础检索、依存检索和捕获。
[0037]另一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述基于语法点进行检索的方法。
[0038]另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指
令,所述至少一条指令由处理器加载并执行以实现上述基于语法点进行检索的方法。
[0039]本专利技术实施例提供的技术方案带来的有益效果至少包括:
[0040]通过依存句法来进行检索,即使是面对比较复杂的语法点或是包含距离较远的句法成分的语法点,也能够得到比较准确的结果;在检索时可以对词汇难度等级进行限制,帮助教师在检索时能充分考虑学生的汉语水平,检索到适合不同学生的例句,提高检索的针对性;捕获功能方便教师查看句中的不定成分,也能帮助教师更容易地查看词汇间的搭配和聚类。这些功能在教师检索例句时都起到了很大的帮助,提高了教师备课质量与效率,也能帮助教材或试卷编写提供丰富的用例。
附图说明
[0041]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0042]图1是本专利技术实施例提供的一种文心检索平台的架构示意图;
[0043]图2是本专利技术实施例提供的一种基于语法点进行检索的方法流程图;
[0044]图3是本专利技术实施例提供的一种基于语法点进行检索的装置框图;
[0045]图4是本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语法点进行检索的方法,其特征在于,所述方法包括:S1、获取原始语料文件,对所述原始语料文件进行预处理,对预处理后的原始语料文件进行难度等级标注,得到标注语料;S2、将所述标注语料上传至文心检索平台上,创建对应的索引;S3、获取检索语言,根据检索语言的规则确定所述检索语言对应的初始检索式;S4、获取预先建立的语法点,根据所述规则,确定语法点对应的不同类型检索的特定检索式;S5、根据所述语法点对应的特定检索式,向所述文心检索平台发送检索请求,确定语法点对应的结果。2.根据权利要求1所述的方法,其特征在于,所述对所述原始语料文件进行预处理,包括:对原始语料文件进行分词、词性标注、命名实体识别以及依存句法分析操作。3.根据权利要求1所述的方法,其特征在于,所述初始检索式的构造模块包括:字符项、词性标签项、命名实体项、依存项、词语难度项以及复杂项六种构成形式。4.根据权利要求1所述的方法,其特征在于,所述不同类型检索包括普通类型检索以及模式检索。5.根据权利要求4所述的方法,其特征在于,所述普通检索包括基础检索、依存检索和捕获。6.一种文心检索平台,其特征在于,所述文心检索平台包括VUE前端模块、Tornado后端模块、语料标注模块、Odinson后端模块;其中:所述VUE前端模块,用于用户交互;所述Tornado后端模块,用于接收前端用户请求,对请求做处理后,向所述Odinson后端模块发送检索请求,获取检索结果;所述语料标注模块,用于对语料进行标注;所述Odinson后端模块,用于提供检索服务,所述Odinson后端模...

【专利技术属性】
技术研发人员:杨麟儿朱君辉朱琳刘鑫杨尔弘
申请(专利权)人:北京语言大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1