基于法律语义件与文书大数据统计分析的法律咨询系统技术方案

技术编号:21714533 阅读:43 留言:0更新日期:2019-07-27 19:15
本发明专利技术公开了基于法律语义件与文书大数据统计分析的法律咨询系统,涉及司法技术领域,具体是一种面向司法领域的可以与用户进行多轮自然语言交互,动态生成咨询报告,解决用户法律问题的系统;基于海量机器预标注裁判文书数据集,通过引入神经网络模型来为用户提供了一个可以通过口语化问答的方式描述自身所遇到的法律问题的交互方式,通过自然文本信息抽取的技术使得可以为用户提供基于不断新增的法律文本而生成的定制化咨询报告。摆脱了以往基于专家系统的只能提供事先录入的固定的问卷与答案组合的法律咨询,更加贴近人工咨询的效果。

Legal Consultation System Based on Statistical Analysis of Big Data of Legal Semantic Documents and Documents

【技术实现步骤摘要】
基于法律语义件与文书大数据统计分析的法律咨询系统
本专利技术涉及司法
,具体是一种面向司法领域的可以与用户进行多轮自然语言交互,动态生成咨询报告,解决用户法律问题的系统。
技术介绍
目前,现有的诉讼咨询服务多是提供固定的模板供用户勾选,根据不同的选项对应不同的组合文案对用户进行提示,如律品。律品是一种在线出具专业法律咨询意见书的网页软件。其只需用户首先选择自身遇到的法律问题类型,如:婚姻问题,财产问题。随后根据指引填写一份具有十多个问题的问卷,如:你配偶(女方)有没有以下情形存在,家暴(经常性的、持续性的家暴);出轨(与他人发生性关系或有外遇并发生性关系);与他人同居(和其他异性长时间生活);重婚(又和别人领证或者和别人用夫妻名义长时间一起生活);遗弃(拒绝扶养家人,不给钱,不给看病,完全不管死活);虐待(经常性、持续性的虐待);隐藏、转移、变卖财产(故意毁损夫妻共同财产或者伪造债务);没有以上情形存在;根据用户输入,推送一份包括案情涉及到的法律规定,基本诉讼流程,类似情形的判决书等内容的法律咨询意见书。但是,以上具有以下缺点,一、用户在不具备基础法律素养时无法准确选择遇到的问题所对应的法律领域。二、用户被动阅读了大量只有极特殊情况下才能生效的法律问题。三、只对用户进行了普法,而非针对性的回答问题。四是,只提供了相似案例的原始文本,除非是行业从业人员(如律师)通读后进行深入分析,否则其他人很难从中提取能对自身案情有所指引的相关信息。究其原因,主要是因为缺乏意图识别,无论用户是何种情形,只要是离婚分割房产,都要填写同一份问卷,给出同一份模板生成的报告。而且,没有深入分析裁判文书,只给出了原始数据,而没有针对用户案情的具体分析结果。因此,如何在与用户进行多轮自然语言交互的过程中进行意图识别,并从海量文书中自动提炼出对用户有指导作用的信息是本领域亟需解决的问题。因此,本专利技术提供了基于法律语义件与文书大数据统计分析的法律咨询系统,以解决上述
技术介绍
中提出的问题。
技术实现思路
本专利技术的目的在于提供基于法律语义件与文书大数据统计分析的法律咨询系统,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:基于法律语义件与文书大数据统计分析的法律咨询系统,其包括专家知识库模块、领域识别模块、意图检测模块、槽填充模块、文本信息抽取模块、文本相似度计算模块和用户交互模块,其特征在于,所述专家知识库模块为其它各个模块提供数据支撑;所述领域识别模块负责实现自动识别用户输入所对应的法律领域;所述意图检测模块负责实现自动检测用户输入所包含的行为目标,且所述意图检测模块与所述领域识别模块连接;所述槽填充模块实现自动追问并从用户输入中获取为了解答用户问题所需的各项信息,所述槽填充模块与所述意图检测模块连接;所述文本信息抽取模块实现从非结构化的裁判文书中自动提取结构化信息,其包括数据爬取、文本清洗和实体抽取,其中,非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据;所述文本相似度计算模块用于实现从海量文书中获取与用户情形最相似的案例的功能,所述文本相似度计算模块与所述槽填充模块连接;所述用户交互模块用于获取用户输入,使用领域识别模块中训练好的CNN神经网络进行分类,取概率最高的一个分类作为用户输入指涉的案由,并由意图检测模块识别出相应的意图,根据用户意图匹配对应的槽模板,使用用户输入进行槽填充,如未填充完成,则根据空槽进行追问,直至槽填充完成,且从槽中获取用户案情的特征值,由文本相似度计算模块计算出类案,根据意图检测模块识别出的用户意图,匹配专家规则,从类案中统计出特定的指标来生成诉讼指引。进一步,作为优选,所述专家知识库模块包括构建法律词典、构建法律实体、构建法律关系和构建法律知识图谱。进一步,作为优选,所述领域识别模块从人工标注好分类的口语化及书面化文本中抽取特征信息编码为词向量形成训练集,并采用卷积神经网络训练文本分类器。进一步,作为优选,所述槽填充模块为序列标注模型针对不同的意图设计标签,且根据不同法律问题的复杂度不同,每个意图对应3~7个语义标签;且所述槽填充模块为构造数据集,采用循环神经网络实现槽填充模型,对搜集来的口语化或规范化的法律文本,采用机器根据规则预标注,人工后期校验的方式生成数据集,保留其中15%的样本作为测试集;所述槽填充模块按时间顺序对来自对话历史的上下文编码,加入RNN的隐藏层用以消除歧义,其中,隐藏层是把输入数据的特征,抽象到另一个维度空间,来展现其更抽象化的特征,这些特征能更好的进行线性划分。进一步,作为优选,所述数据爬取负责从中国裁判文书网等政务网站及司法公开平台获取千万级裁判文书文本;所述文本清洗负责从政府公开网站途径获取国标数据,包括行政区划,法院,案由信息以及预设裁判文书分段、案由、地理信息抽取规则,将抽取内容与基础数据比对后进行结构化;实体抽取是在知识图谱法律实体上预置一定的专家规则,据此从文本中抽取一定量附带上下文信息的短句,结合自然语言处理的词性标注与句法依存分析等方法,对文本进行实体标注。进一步,作为优选,所述文本相似度计算模块包括获取用户案情的特征值,用户案情的特征值分为离散型特征与连续性特征;由专家提前制定好对应的过滤型特征与非过滤型特征的权重,并从文书库中先按过滤型特征筛选出子集,针对特征类型与权重对子集的文本进行打分,取打分高于阈值的文本作为类案。进一步,作为优选,所述用户交互模块包含案件胜败诉率分析模型、证据模型分析模型、行动建议模型、法律规范模型和类似案例模型;其中,案件胜败诉率模型负责根据用户信息生成案情画像,匹配最贴切的类似案例,统计案件结果生成胜败诉率,分析败诉原因及应对方案,其中,案情画像是基于裁判文书中事实、诉讼请求、证据、争议焦点等法律要素而构成的法律知识图谱;证据模型分析是根据当事人的案情针对性地提示证据材料,明确各类证据的效力等级,同时增减证据种类,动态化展示案件的胜诉率;行动建议模型根据用户案情要素,基于日常解纷流程,为其提供从简到繁、从易到难、切实有效的解纷行动建议;法律规范模型负责结合案情,推送相关法律法规、司法解释、规章、政策尽可能多的法律规范,帮助当事人全面了解案情事实的法律依据;类似案例模型负责推荐与当事人案情基本事实、争议焦点方面高度相似的裁判文书,着重突出裁判观点中对案件的说理,为当事人提供诉讼依据。与现有技术相比,本专利技术的有益效果是:(1)本专利技术通过引入神经网络模型来为用户提供了一个可以通过口语化问答的方式描述自身所遇到的法律问题的交互方式,通过自然文本信息抽取的技术使得可以为用户提供基于不断新增的法律文本而生成的定制化咨询报告。摆脱了以往基于专家系统的只能提供事先录入的固定的问卷与答案组合的法律咨询,更加贴近人工咨询的效果;(2)本专利技术通过使用大量预标注数据训练槽填充模型,从用户的描述中进行意图识别,根据空槽自动生成每一步追问,直至所有槽都被填充完成;本专利技术使用类案打分算法,从贴近用户案情的一系列类案中,统计出对用户有用的指标值来作为咨询报告,更有指导意义;(3)本专利技术通过使用大量预标注数据训练槽填充模型,从用户的描述中进行意图识别,根据空槽自动生成每一步追问,直本文档来自技高网
...

【技术保护点】
1.基于法律语义件与文书大数据统计分析的法律咨询系统,其包括专家知识库模块、领域识别模块、意图检测模块、槽填充模块、文本信息抽取模块、文本相似度计算模块和用户交互模块,其特征在于,所述专家知识库模块为各个模块提供数据支撑;所述领域识别模块负责实现自动识别用户输入所对应的法律领域;所述意图检测模块负责实现自动检测用户输入所包含的行为目标,且所述意图检测模块与所述领域识别模块连接;所述槽填充模块实现自动选槽并追问用户,从用户输入中获取为了解答用户问题所需的各项信息,所述槽填充模块与所述意图检测模块连接;所述文本信息抽取模块实现从非结构化的裁判文书中自动提取结构化信息,其包括数据爬取、文本清洗和实体抽取,其中,非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据;所述文本相似度计算模块用于实现从海量文书中获取与用户情形最相似的案例的功能,所述文本相似度计算模块与所述槽填充模块连接;所述用户交互模块用于获取用户输入,使用领域识别模块中训练好的CNN神经网络进行分类,取概率最高的一个分类作为用户输入指涉的案由,并由意图检测模块识别出相应的意图,根据用户意图匹配对应的槽模板,使用用户输入进行槽填充,如未填充完成,则根据空槽进行追问,直至槽填充完成,且从槽中获取用户案情的特征值,由文本相似度计算模块计算出类案,根据意图检测模块识别出的用户意图,匹配专家规则,从类案中统计出特定的指标来生成诉讼指引。...

【技术特征摘要】
1.基于法律语义件与文书大数据统计分析的法律咨询系统,其包括专家知识库模块、领域识别模块、意图检测模块、槽填充模块、文本信息抽取模块、文本相似度计算模块和用户交互模块,其特征在于,所述专家知识库模块为各个模块提供数据支撑;所述领域识别模块负责实现自动识别用户输入所对应的法律领域;所述意图检测模块负责实现自动检测用户输入所包含的行为目标,且所述意图检测模块与所述领域识别模块连接;所述槽填充模块实现自动选槽并追问用户,从用户输入中获取为了解答用户问题所需的各项信息,所述槽填充模块与所述意图检测模块连接;所述文本信息抽取模块实现从非结构化的裁判文书中自动提取结构化信息,其包括数据爬取、文本清洗和实体抽取,其中,非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据;所述文本相似度计算模块用于实现从海量文书中获取与用户情形最相似的案例的功能,所述文本相似度计算模块与所述槽填充模块连接;所述用户交互模块用于获取用户输入,使用领域识别模块中训练好的CNN神经网络进行分类,取概率最高的一个分类作为用户输入指涉的案由,并由意图检测模块识别出相应的意图,根据用户意图匹配对应的槽模板,使用用户输入进行槽填充,如未填充完成,则根据空槽进行追问,直至槽填充完成,且从槽中获取用户案情的特征值,由文本相似度计算模块计算出类案,根据意图检测模块识别出的用户意图,匹配专家规则,从类案中统计出特定的指标来生成诉讼指引。2.根据权利要求1所述的基于法律语义件与文书大数据统计分析的法律咨询系统,其特征在于,所述专家知识库模块包括构建法律词典、构建法律实体、构建法律关系和构建法律知识图谱。3.根据权利要求1所述的基于法律语义件与文书大数据统计分析的法律咨询系统,其特征在于,所述领域识别模块从人工标注好分类的口语化及书面化文本中抽取特征信息编码为词向量形成训练集,并采用卷积神经网络训练文本分类器。4.根据权利要求1所述的基于法律语义件与文书大数据统计分析的法律咨询系统,其特征在于,所述槽填充模块为序列标注模型针对不同的意图设计标签,且根据不同法律问题的复杂度不同,每个意图对应3~7个语义标签;且所述槽填充模块为构造数据集,采用循环神经网络实现槽填充模型,对搜集来的口语化或规范化的法律文本,采用机器根据规则预标注,人工...

【专利技术属性】
技术研发人员:丁琦杜向阳郑茂盛王义真
申请(专利权)人:南京擎盾信息科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1