一种基于语义匹配的裁判文书检索方法和服务器技术

技术编号:14836720 阅读:131 留言:0更新日期:2017-03-17 04:08
本发明专利技术提供了一种基于语义匹配的裁判文书检索方法和服务器,通过设计一种基于语义匹配的裁判文书检索方法和服务器,让案例检索不需要直接输入与裁判文书中的关键词精确匹配的词语,而是直接用自然语言描述遇到的法律问题或者案情即可找到匹配的裁判文书,解决了上述问题,大大的降低了文书检索服务器的使用门槛,提高了检索效率。

【技术实现步骤摘要】

本专利技术属于数据检索领域,更具体的,涉及一种基于语义匹配的裁判文书检索方法和服务器
技术介绍
现有的各种裁判文书检索服务器中都是使用关键词检索技术,系统通过在裁判文书中查找用户所输入的词或者词的组合来判断推送哪些文书。由于语言表述的模糊性与多样性,在裁判文书中可能会出现同一个词在不同的上下文中的意思不一样的情形,也可能出现不同的词表达的是同一个意思的情形。在关键词检索服务器中,由于词语是严格的按照字面来匹配的,由于上述的语言表述的多样性,用户需要十分熟练的掌握法律知识,熟悉裁判文书的常见表达后,才能通过关键词搭配组合的方式检索到类似的案例,这以特性导致现有的裁判文书检索服务器的使用门槛很高,并且需要花费较长的时间才能找到与需求相匹配的裁判文书。造成这个问题的深层次原因是现在的检索服务器是基于语言文字的计算机存储内容来做的,文字存储的是编码(通用的是UTF-8)后的二进制内容,一个文字一般是1~4个字节,检索服务器在库里精确查找出现这些字节内容的文本。目前的现有技术存在下列问题:在这些系统中用户需要输入文书中包含的精确的关键词才能找到类似的案例,需要用户具有较高的法律专业知识才可以使用。当需要查找的信息比较明确时,输入的关键词较多时,由于需要全都匹配到,往往会查找不到。当需要查找的信息比较模糊时,输入的关键词会较少,会出来大量的无关内容,难以定位出用户真正需要的内容。当用户输入不够精准,例如出现错别字,或者使用同义词,或者使用非法律专业术语,将查找不到期望的内容。对于搜索结果的排序通常是基于输入的关键词的概率来进行的,而没有关注用户输入内容的意义及重点
技术实现思路
本专利技术旨在至少解决现有技术中存在的技术问题之一。为此,本专利技术的目的在于,提供一种基于语义匹配的裁判文书检索方法和服务器,通过设计一种基于语义匹配的裁判文书检索方法和服务器,让案例检索不需要直接输入与裁判文书中的关键词精确匹配的词语,而是直接用自然语言描述遇到的法律问题或者案情即可找到匹配的裁判文书,解决了上述问题,大大的降低了文书检索服务器的使用门槛,提高了检索效率。为实现上述目的,本专利技术提供一种基于语义匹配的裁判文书检索方法,包括:步骤1,客户端接收用户输入的检索信息,将所述检索信息发送至服务器端,所述检索信息为待搜索的字段和/或筛选条件;步骤2,服务器端接收所述检索信息,将检索信息进行向量化,生成检索信息向量;步骤3,将得到的所述检索信息向量于预存储的裁判文书向量进行对比,获取最匹配的裁判文书向量,将所述最匹配的裁判文书向量对应的裁判文书结果发送至客户端。优选的,在所述步骤1之前还包括:服务器端采集裁判文书;将采集的裁判文书进行数据清洗,解析成多个关键字段,每个关键字段设置不同的标签;将所述多个关键字段进行向量化处理,生成关键字段向量;将生成的关键字段向量与裁判文书建立映射关系;将所述关键字段向量、映射关系、裁判文书存储在数据库中。优选的,所述筛选条件包括:律师信息、事务所信息、地域信息、年份信息、案件类型信息中的一种或几种。更优的,所述地域信息包括案件发生地、案件管辖地和/或其他案件涉及到的地理位置。优选的,所述将得到的所述检索信息向量于预存储的裁判文书向量进行对比为采用距离测度法或相似性函数法进行向量对比。本专利技术另一方面还提供一种基于语义匹配的裁判文书检索服务器,包括:接收模块,服务器端接收所述检索信息,所述检索信息为客户端接收的用户输入的检索信息;向量生成模块,用于将检索信息进行向量化,生成检索信息向量;对比分析模块,将得到的所述检索信息向量于预存储的裁判文书向量进行对比,获取最匹配的裁判文书向量;发送模块,用于将所述最匹配的裁判文书向量对应的裁判文书结果发送至客户端;所述检索信息为待搜索的字段和/或筛选条件。优选的,还包括:数据清洗模块,用于将采集的裁判文书进行数据清洗,解析成多个关键字段,每个关键字段设置不同的标签;映射模块,将所述多个关键字段进行向量化处理,生成关键字段向量,将生成的关键字段向量与裁判文书建立映射关系;数据库,用于存储所述关键字段向量、映射关系、裁判文书。优选的,所述筛选条件包括:律师信息、事务所信息、地域信息、年份信息、案件类型信息中的一种或几种。优选的,所述地域信息包括案件发生地、案件管辖地和/或其他案件涉及到的地理位置。优选的,所述将得到的所述检索信息向量于预存储的裁判文书向量进行对比为采用距离测度法或相似性函数法进行向量对比。通过本专利技术设计的一种基于语义匹配的裁判文书检索方法和服务器,让案例检索不需要直接输入与裁判文书中的关键词精确匹配的词语,而是直接用自然语言描述遇到的法律问题或者案情即可找到匹配的裁判文书,解决了上述问题,大大的降低了文书检索服务器的使用门槛,提高了检索效率。附图说明图1示出了本专利技术一种基于语义匹配的裁判文书检索方法的流程图;图2示出了本专利技术一种基于语义匹配的裁判文书检索服务器的结构框图。具体实施方式为了能够更清楚地理解本专利技术的上述目的、特征和优点,下面结合附图和具体实施方式对本专利技术进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。在下面的描述中阐述了很多具体细节以便于充分理解本专利技术,但是,本专利技术还可以采用其他不同于在此描述的方式来实施,因此,本专利技术的保护范围并不受下面公开的具体实施例的限制。图1示出了本专利技术一种基于语义匹配的裁判文书检索方法的流程图。如图1所示,根据本专利技术一种基于语义匹配的裁判文书检索方法,包括:步骤1,客户端接收用户输入的检索信息,将所述检索信息发送至服务器端,所述检索信息为待搜索的字段和/或筛选条件。所述筛选条件包括:律师信息、事务所信息、地域信息、年份信息、案件类型信息中的一种或几种。所述地域信息包括案件发生地、案件管辖地和/或其他案件涉及到的地理位置。所述案件类型包括:普通民事纠纷、房地产类、合同纠纷、涉外类、公司纠纷、海事海商、知识产权、投融资业务、赔偿案件、行政纠纷和刑事;普通民事纠纷包括:债权债务纠纷、婚姻家庭、交通事故、医疗纠纷、劳动争议、侵权损害赔偿纠纷、其他普通民事纠纷;房地产类包括:建设工程合同纠纷和房地产开发经营纠纷;合同纠纷包括:常见合同纠纷、土地矿产类合同纠纷和其他类合同纠纷;所述常见合同纠纷包括:买卖合同纠纷、租赁合同纠纷、房屋租赁合同纠纷、车辆租赁合同纠纷、承揽合同纠纷、劳务合同纠纷、不当得利纠纷、合伙合同纠纷、电信服务合同纠纷、委托合同纠纷、服务合同纠纷、居间合同纠纷、供用热力合同纠纷、公交运输合同纠纷、供用水合同纠纷、供用电力合同纠纷、法律服务合同纠纷、供用气合同纠纷、保管合同纠纷、仓储合同纠纷、行纪合同纠纷;涉外类包括:国际贸易金融合同纠纷、涉外仲裁和信用证纠纷;公司纠纷包括:股东权益、公司并购收购、公司破产清算、其他公司纠纷;知识产权包括:垄断不正当竞争、专利、商标、著作权纠纷、技术合同和其他知识产权纠纷;投融资业务包括:证券纠纷、期货交易纠纷、信托纠纷和票据纠纷。步骤2,服务器端接收所述检索信息,将检索信息进行向量化,生成检索信息向量。接收到检索信息后,将检索信息进行向量化处理,生成检索信息向量,此向量化的处理方法可采用如下方式进行处理,但不仅限于此本文档来自技高网
...
一种基于语义匹配的裁判文书检索方法和服务器

【技术保护点】
一种基于语义匹配的裁判文书检索方法,其特征在于,包括:步骤1,客户端接收用户输入的检索信息,将所述检索信息发送至服务器端,所述检索信息为待搜索的字段和/或筛选条件;步骤2,服务器端接收所述检索信息,将检索信息进行向量化,生成检索信息向量;步骤3,将得到的所述检索信息向量于预存储的裁判文书向量进行对比,获取最匹配的裁判文书向量,将所述最匹配的裁判文书向量对应的裁判文书结果发送至客户端。

【技术特征摘要】
1.一种基于语义匹配的裁判文书检索方法,其特征在于,包括:步骤1,客户端接收用户输入的检索信息,将所述检索信息发送至服务器端,所述检索信息为待搜索的字段和/或筛选条件;步骤2,服务器端接收所述检索信息,将检索信息进行向量化,生成检索信息向量;步骤3,将得到的所述检索信息向量于预存储的裁判文书向量进行对比,获取最匹配的裁判文书向量,将所述最匹配的裁判文书向量对应的裁判文书结果发送至客户端。2.根据权利要求1所述的一种基于语义匹配的裁判文书检索方法,其特征在于,在所述步骤1之前还包括:服务器端采集裁判文书;将采集的裁判文书进行数据清洗,解析成多个关键字段,每个关键字段设置不同的标签;将所述多个关键字段进行向量化处理,生成关键字段向量;将生成的关键字段向量与裁判文书建立映射关系;将所述关键字段向量、映射关系、裁判文书存储在数据库中。3.根据权利要求1所述的一种基于语义匹配的裁判文书检索方法,其特征在于,所述筛选条件包括:律师信息、事务所信息、地域信息、年份信息、案件类型信息中的一种或几种。4.根据权利要求3所述的一种基于语义匹配的裁判文书检索方法,其特征在于,所述地域信息包括案件发生地、案件管辖地和/或其他案件涉及到的地理位置。5.根据权利要求1所述的一种基于语义匹配的裁判文书检索方法,其特征在于,所述将得到的所述检索信息向量于预存储的裁判文书向量进行对比为采用距离测度法或相似性函数法进行向量对比。6.一种基...

【专利技术属性】
技术研发人员:赵泛舟潘嵘杨洋梅林曾宏生薛隆
申请(专利权)人:深圳爱拼信息科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1