非结构化文书搜索方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:22330140 阅读:30 留言:0更新日期:2019-10-19 12:17
本申请揭示了一种非结构化文书搜索方法、装置、计算机设备和存储介质,其中方法包括解析从客户端获取的搜索条件文本,获取搜索条件文本所包括的至少一条第一实体文本以及每条第一实体文本分别对应的第一实体类型;对搜索条件文本进行意图识别,获取搜索条件文本对应的搜索意图;根据搜索意图,将所有第一实体文本以及各第一实体文本分别对应的第一实体类型构造为搜索表达式;将搜索表达式在文书数据库中进行匹配,生成搜索结果;将搜索结果呈现于客户端。本申请可以实现对用户输入的搜索条件文本的精准解析,进而自动构造准确的搜索表达式,从而实现非结构化文书的准确检索,有利于提高用户检索法律文书的效率。

【技术实现步骤摘要】
非结构化文书搜索方法、装置、计算机设备和存储介质
本申请涉及自然语言处理
,具体涉及一种非结构化文书搜索方法、装置、计算机设备和存储介质。
技术介绍
法律文书一般由法院、检察院等司法机关掌握,虽然目前有一些法律文书网站开放了对法律文书的查询,但关于法律文书的检索的准确度还是非常有限。用户在搜索平台输入的搜索条件文本通常为非结构化文本,目前基于非结构化的搜索条件文本,在进行搜索时大多是从数据库中进行简单的字符串匹配搜索,而不能对法律文书中涉及到的涉案金额、罚款数量、刑期长短、作案手段、证据类型等重要实体文本信息进行精准检索。例如,用户想要查询涉案金额为2万元的案件,如果在搜索平台输入搜索条件文本“2万元”,则得到的结果是包括了2万元这一内容的全部案件,如涉案金额2万元,罚款金额2万元等的案件;而不能准确得到涉案金额为2万元的案件。用户检索法律文书的效率大大降低,而且检索的准确度低,不利于对法律数据的深入挖掘和分析。
技术实现思路
本申请的主要目的为提供一种非结构化文书搜索方法、装置、计算机设备和存储介质,旨在解决现有技术中,在进行法律文书搜索时,无法精准检索与搜索条件文本相匹配的非结构化文书的问题。本申请提出一种非结构化文书搜索方法,包括:解析从客户端获取的搜索条件文本,获取所述搜索条件文本所包括的至少一条第一实体文本以及每条所述第一实体文本分别对应的第一实体类型;根据预设意图识别方法对所述搜索条件文本进行意图识别,获取所述搜索条件文本对应的搜索意图,所述搜索意图包括各所述第一实体文本分别对应的搜索意图;根据所述搜索意图,将所有所述第一实体文本以及各所述第一实体文本分别对应的第一实体类型构造为搜索表达式;将所述搜索表达式在文书数据库中进行匹配,生成搜索结果,其中,所述文书数据库中存储了至少一条非结构化文书,所述搜索结果中包含与所述搜索表达式相匹配的各条非结构化文书;将所述搜索结果呈现于所述客户端。进一步地,所述解析从客户端获取的搜索条件文本,获取所述搜索条件文本所包括的至少一条第一实体文本以及每条所述第一实体文本分别对应的第一实体类型的步骤,包括:从搜索平台获取非结构化的所述搜索条件文本;将所述搜索条件文本输入至预训练的自动标注模型中进行标注,以得到标注过的搜索条件文本,所述标注过的搜索条件文本中包括至少一条所述第一实体文本和每条所述第一实体文本分别对应的第一实体类型。进一步地,所述将所述搜索表达式在文书数据库中进行匹配,生成搜索结果的步骤前,包括:获取初始非结构化文书;将所述初始非结构化文书输入至所述自动标注模型中进行标注,以得到标注过的非结构化文书,标注过的所述非结构化文书中包括至少一条第二实体文本,以及各所述第二实体文本分别对应的第二实体类型。进一步地,所述从搜索平台获取非结构化的所述搜索条件文本的步骤前,包括:获取训练语料;对所述训练语料中的实体文本、实体类型和非实体文本进行标注,得到训练集;将所述训练集输入至双向长短时记忆-条件随机场模型中进行训练,以得到所述自动标注模型。进一步地,所述对所述训练语料中的实体文本、实体类型和非实体文本进行标注,得到训练集的步骤,包括:获取预设标注模板,其中,所述预设标注模板中关联存储了各个预定义实体文本与各个所述预定义实体文本对应的实体类型;将所述训练语料包含的,与任一所述预定义实体文本相同的文本作为所述实体文本,并在所述训练语料中对所述实体文本进行标注,得到第一标注文本;从所述预设标注模板中,查找与所述实体文本对应的实体类型,并在所述第一标注文本中对所述实体文本对应的实体类型进行标注,得到第二标注文本;将所述第二标注文本中未标注的文本作为所述非实体文本,并在所述第二标注文本中对所述非实体文本进行标注,得到标注后的训练语料;将所述标注后的训练语料添加至所述训练集中。进一步地,所述将所述搜索表达式在文书数据库中进行匹配,生成搜索结果的步骤,包括:分别将各标注过的所述非结构化文书中,所包括的所述第二实体文本和各所述第二实体文本分别对应的第二实体类型,与所述搜索表达式进行匹配,选取与所述搜索表达式相匹配的各条非结构化文书作为各条指定非结构化文书;将各条所述指定非结构化文书,按照预设排列顺序进行排序,将排序后的各条所述指定非结构化文书作为搜索结果。进一步地,所述根据所述搜索意图,将所有所述第一实体文本以及各所述第一实体文本分别对应的第一实体类型构造为搜索表达式的步骤,包括:将每条所述第一实体文本和与每条所述第一实体文本对应的第一实体类型设为一组搜索式;判断所有所述搜索式的组数是否大于1个;若是,则根据所述搜索意图,将各组所述搜索式通过逻辑连接符连接为所述搜索表达式,所述逻辑连接符包括“和”、“或”。本申请还提出了一种非结构化文书搜索装置,包括:条件文本解析单元,用于解析从客户端获取的搜索条件文本,获取所述搜索条件文本所包括的至少一条第一实体文本以及每条所述第一实体文本分别对应的第一实体类型;搜索意图识别单元,用于根据预设意图识别方法对所述搜索条件文本进行意图识别,获取所述搜索条件文本对应的搜索意图,所述搜索意图包括各所述第一实体文本分别对应的搜索意图;搜索表达式构造单元,用于根据所述搜索意图,将所有所述第一实体文本以及各所述第一实体文本分别对应的第一实体类型构造为搜索表达式;搜索结果获取单元,用于将所述搜索表达式在文书数据库中进行匹配,生成搜索结果,其中,所述文书数据库中存储了至少一条非结构化文书,所述搜索结果中包含与所述搜索表达式相匹配的各条非结构化文书;搜索结果呈现单元,用于将所述搜索结果呈现于所述客户端。本申请还提出了一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的方法的步骤。本申请还提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。本申请的有益效果:本申请的非结构化文书搜索方法、装置、计算机设备和存储介质,首先从搜索条件文本中获取其中包含的至少一条第一实体文本和每条第一实体文本分别对应的第一实体类型;再根据预设意图识别方法对所述搜索条件文本进行意图识别,获取所述搜索条件文本对应的搜索意图;然后根据搜索意图,将所有第一实体文本以及各第一实体文本分别对应的第一实体类型构造为搜索表达式;再将搜索表达式在文书数据库中进行匹配,生成搜索结果;最后将所述搜索结果呈现于所述客户端。本申请在搜索非结构化文书时,通过上述的方法,可以实现对用户输入的搜索条件文本的精准解析,进而自动构造准确的搜索表达式,从而实现非结构化文书的准确检索,有利于提高用户检索法律文书的效率,有利于法官、检察官、律师等用户对法律数据的深入挖掘和分析。附图说明图1是本申请一实施例的非结构化文书搜索方法的流程示意图;图2是本申请一实施例的非结构化文书搜索装置的结构示意框图;图3是本申请一实施例的计算机设备的结构示意框图。本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。参本文档来自技高网...

【技术保护点】
1.一种非结构化文书搜索方法,其特征在于,包括:解析从客户端获取的搜索条件文本,获取所述搜索条件文本所包括的至少一条第一实体文本以及每条所述第一实体文本分别对应的第一实体类型;根据预设意图识别方法对所述搜索条件文本进行意图识别,获取所述搜索条件文本对应的搜索意图,所述搜索意图包括各所述第一实体文本分别对应的搜索意图;根据所述搜索意图,将所有所述第一实体文本以及各所述第一实体文本分别对应的第一实体类型构造为搜索表达式;将所述搜索表达式在文书数据库中进行匹配,生成搜索结果,其中,所述文书数据库中存储了至少一条非结构化文书,所述搜索结果中包含与所述搜索表达式相匹配的各条非结构化文书;将所述搜索结果呈现于所述客户端。

【技术特征摘要】
1.一种非结构化文书搜索方法,其特征在于,包括:解析从客户端获取的搜索条件文本,获取所述搜索条件文本所包括的至少一条第一实体文本以及每条所述第一实体文本分别对应的第一实体类型;根据预设意图识别方法对所述搜索条件文本进行意图识别,获取所述搜索条件文本对应的搜索意图,所述搜索意图包括各所述第一实体文本分别对应的搜索意图;根据所述搜索意图,将所有所述第一实体文本以及各所述第一实体文本分别对应的第一实体类型构造为搜索表达式;将所述搜索表达式在文书数据库中进行匹配,生成搜索结果,其中,所述文书数据库中存储了至少一条非结构化文书,所述搜索结果中包含与所述搜索表达式相匹配的各条非结构化文书;将所述搜索结果呈现于所述客户端。2.如权利要求1所述的非结构化文书搜索方法,其特征在于,所述解析从客户端获取的搜索条件文本,获取所述搜索条件文本所包括的至少一条第一实体文本以及每条所述第一实体文本分别对应的第一实体类型的步骤,包括:从搜索平台获取非结构化的所述搜索条件文本;将所述搜索条件文本输入至预训练的自动标注模型中进行标注,以得到标注过的搜索条件文本,所述标注过的搜索条件文本中包括至少一条所述第一实体文本和每条所述第一实体文本分别对应的第一实体类型。3.如权利要求2所述的非结构化文书搜索方法,其特征在于,所述将所述搜索表达式在文书数据库中进行匹配,生成搜索结果的步骤前,包括:获取初始非结构化文书;将所述初始非结构化文书输入至所述自动标注模型中进行标注,以得到标注过的非结构化文书,标注过的所述非结构化文书中包括至少一条第二实体文本,以及各所述第二实体文本分别对应的第二实体类型。4.如权利要求2所述的非结构化文书搜索方法,其特征在于,所述从搜索平台获取非结构化的所述搜索条件文本的步骤前,包括:获取训练语料;对所述训练语料中的实体文本、实体类型和非实体文本进行标注,得到训练集;将所述训练集输入至双向长短时记忆-条件随机场模型中进行训练,以得到所述自动标注模型。5.如权利要求4所述的非结构化文书搜索方法,其特征在于,所述对所述训练语料中的实体文本、实体类型和非实体文本进行标注,得到训练集的步骤,包括:获取预设标注模板,其中,所述预设标注模板中关联存储了各个预定义实体文本与各个所述预定义实体文本对应的实体类型;将所述训练语料包含的,与任一所述预定义实体文本相同的文本作为所述实体文本,并在所述训练语料中对所述实体文本进行标注,得到第一标注文本;从所述预设标注模板中,查找与所述实体文本对应的实体类...

【专利技术属性】
技术研发人员:田鑫杨镭
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1