【技术实现步骤摘要】
非结构化文书搜索方法、装置、计算机设备和存储介质
本申请涉及自然语言处理
,具体涉及一种非结构化文书搜索方法、装置、计算机设备和存储介质。
技术介绍
法律文书一般由法院、检察院等司法机关掌握,虽然目前有一些法律文书网站开放了对法律文书的查询,但关于法律文书的检索的准确度还是非常有限。用户在搜索平台输入的搜索条件文本通常为非结构化文本,目前基于非结构化的搜索条件文本,在进行搜索时大多是从数据库中进行简单的字符串匹配搜索,而不能对法律文书中涉及到的涉案金额、罚款数量、刑期长短、作案手段、证据类型等重要实体文本信息进行精准检索。例如,用户想要查询涉案金额为2万元的案件,如果在搜索平台输入搜索条件文本“2万元”,则得到的结果是包括了2万元这一内容的全部案件,如涉案金额2万元,罚款金额2万元等的案件;而不能准确得到涉案金额为2万元的案件。用户检索法律文书的效率大大降低,而且检索的准确度低,不利于对法律数据的深入挖掘和分析。
技术实现思路
本申请的主要目的为提供一种非结构化文书搜索方法、装置、计算机设备和存储介质,旨在解决现有技术中,在进行法律文书搜索时,无法精准检索与搜索条件文本相匹配的非结构化文书的问题。本申请提出一种非结构化文书搜索方法,包括:解析从客户端获取的搜索条件文本,获取所述搜索条件文本所包括的至少一条第一实体文本以及每条所述第一实体文本分别对应的第一实体类型;根据预设意图识别方法对所述搜索条件文本进行意图识别,获取所述搜索条件文本对应的搜索意图,所述搜索意图包括各所述第一实体文本分别对应的搜索意图;根据所述搜索意图,将所有所述第一实体文本以及各所述第 ...
【技术保护点】
1.一种非结构化文书搜索方法,其特征在于,包括:解析从客户端获取的搜索条件文本,获取所述搜索条件文本所包括的至少一条第一实体文本以及每条所述第一实体文本分别对应的第一实体类型;根据预设意图识别方法对所述搜索条件文本进行意图识别,获取所述搜索条件文本对应的搜索意图,所述搜索意图包括各所述第一实体文本分别对应的搜索意图;根据所述搜索意图,将所有所述第一实体文本以及各所述第一实体文本分别对应的第一实体类型构造为搜索表达式;将所述搜索表达式在文书数据库中进行匹配,生成搜索结果,其中,所述文书数据库中存储了至少一条非结构化文书,所述搜索结果中包含与所述搜索表达式相匹配的各条非结构化文书;将所述搜索结果呈现于所述客户端。
【技术特征摘要】
1.一种非结构化文书搜索方法,其特征在于,包括:解析从客户端获取的搜索条件文本,获取所述搜索条件文本所包括的至少一条第一实体文本以及每条所述第一实体文本分别对应的第一实体类型;根据预设意图识别方法对所述搜索条件文本进行意图识别,获取所述搜索条件文本对应的搜索意图,所述搜索意图包括各所述第一实体文本分别对应的搜索意图;根据所述搜索意图,将所有所述第一实体文本以及各所述第一实体文本分别对应的第一实体类型构造为搜索表达式;将所述搜索表达式在文书数据库中进行匹配,生成搜索结果,其中,所述文书数据库中存储了至少一条非结构化文书,所述搜索结果中包含与所述搜索表达式相匹配的各条非结构化文书;将所述搜索结果呈现于所述客户端。2.如权利要求1所述的非结构化文书搜索方法,其特征在于,所述解析从客户端获取的搜索条件文本,获取所述搜索条件文本所包括的至少一条第一实体文本以及每条所述第一实体文本分别对应的第一实体类型的步骤,包括:从搜索平台获取非结构化的所述搜索条件文本;将所述搜索条件文本输入至预训练的自动标注模型中进行标注,以得到标注过的搜索条件文本,所述标注过的搜索条件文本中包括至少一条所述第一实体文本和每条所述第一实体文本分别对应的第一实体类型。3.如权利要求2所述的非结构化文书搜索方法,其特征在于,所述将所述搜索表达式在文书数据库中进行匹配,生成搜索结果的步骤前,包括:获取初始非结构化文书;将所述初始非结构化文书输入至所述自动标注模型中进行标注,以得到标注过的非结构化文书,标注过的所述非结构化文书中包括至少一条第二实体文本,以及各所述第二实体文本分别对应的第二实体类型。4.如权利要求2所述的非结构化文书搜索方法,其特征在于,所述从搜索平台获取非结构化的所述搜索条件文本的步骤前,包括:获取训练语料;对所述训练语料中的实体文本、实体类型和非实体文本进行标注,得到训练集;将所述训练集输入至双向长短时记忆-条件随机场模型中进行训练,以得到所述自动标注模型。5.如权利要求4所述的非结构化文书搜索方法,其特征在于,所述对所述训练语料中的实体文本、实体类型和非实体文本进行标注,得到训练集的步骤,包括:获取预设标注模板,其中,所述预设标注模板中关联存储了各个预定义实体文本与各个所述预定义实体文本对应的实体类型;将所述训练语料包含的,与任一所述预定义实体文本相同的文本作为所述实体文本,并在所述训练语料中对所述实体文本进行标注,得到第一标注文本;从所述预设标注模板中,查找与所述实体文本对应的实体类...
【专利技术属性】
技术研发人员:田鑫,杨镭,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。