一种基于特征提取的调解案件智能分派方法及系统技术方案

技术编号:21184665 阅读:37 留言:0更新日期:2019-05-22 15:16
本发明专利技术涉及司法领域和自然语言处理领域,尤其涉及一种基于特征提取的调解案件智能分派方法及系统,方法包括获取调解案件分类情况和特征词,比对待分派调解案件和同案件类型下各调解员调解案件的特征词相似度,结合各调解员当前工作量和服务评级,对调解员进行排序,分派调解案件。系统包括:数据采集模块、文本分类模块、智能分派模块、调解员画像模块、案件录入模块、案例分析模块、数据存储模块。本发明专利技术具有分派准确率高的特点,可以提升调解满意度、提高调解效率和服务质量,并可以纠纷排查、优化调解资源,并提升工作效率。

An Intelligent Distribution Method and System for Mediation Cases Based on Feature Extraction

The invention relates to the judicial field and natural language processing field, in particular to an intelligent dispatching method and system of mediation cases based on feature extraction. The method includes acquiring classification and feature words of mediation cases, comparing the similarity of feature words between dispatched mediation cases and mediation cases of different mediators under the same type of cases, and combining the current workload and service rating of mediators, to mediation. Mediators are ordered and assigned to mediate cases. The system includes: data acquisition module, text classification module, intelligent distribution module, mediator portrait module, case entry module, case analysis module, data storage module. The invention has the characteristics of high distribution accuracy, can improve mediation satisfaction, mediation efficiency and service quality, and can investigate disputes, optimize mediation resources, and improve work efficiency.

【技术实现步骤摘要】
一种基于特征提取的调解案件智能分派方法及系统
本专利技术涉及司法领域的自然语言处理领域,尤其涉及一种基于特征提取的调解案件智能分派方法及系统。
技术介绍
目前,我国有近77万个人民调解组织、367万人民调解员,每年调解纠纷900多万件,案件类型可细分达到80多类,案件数量的增多和案件种类的繁多,使人民调解工作的压力和困难不断增大,怎样更好的进行调解服务,提高调解服务满意度,是目前人民调解工作面临的严峻问题。12348法律服务网提供了人民调解服务,但该服务有以下不足:1、服务方式单一,只提供调解机构查询服务;2、服务模式被动,调解员不能主动联系矛盾纠纷当事人,主动化解矛盾纠纷;3、难以管理调解资源,目前调解案件类型达到80多类,矛盾纠纷当事人难以判断纠纷所属类型,不能有效的申请调解资源。除了12348网站,110也会分派调解案件,随着移动互联网技术的发展,也促使移动端产生大量的案件申请。以上案件来源法律服务所产生的矛盾纠纷数据主要为短文本数据,文本挖掘技术可以帮助人们快速从海量数据中获取关键信息。文本分类和推荐系统在新闻、电商、社交等领域已广泛应用,并发挥重要作用,但在司法领域中该技术的应用仍属空白。短文本具有语法随意、结构松散、语义稀疏、停用词占比大等特点,以往适用于长文本的方法不再适用。人民调解属于司法领域,调解员具有自己所专长的案件类型,短文本数据专业性强,分类类别达80多类,分类粒度细,文本特征提取困难,上述分类和推荐方法的精度和实时性达不到业务要求。综上所述,有必要使用新的技术方法手段,来弥补以上不足,促使调解服务升级,提高调解效率,提升调解满意度
技术实现思路
本专利技术为克服上述的不足之处,目的在于提供一种基于特征提取的调解案件智能分派方法及系统,根据特征词的相似性进行案件分派,时效性好,准确度高,从而提高人民调解效率和服务质量。本专利技术是通过以下技术方案达到上述目的:一种基于特征提取的调解案件智能分派系统,包括:数据采集模块、文本分类模块、智能分派模块、调解员画像模块、案件录入模块、案例分析模块、数据存储模块;其中,数据采集模块用于采集用户和调解员相关信息,以及相关咨询和调解数据,对资源进行整合、清理、存储;其中清理包括去除无效数据,空值,异常值;文本分类模块用于使用训练好的分类模型对案件类型进行分类;智能分派模块用于根据案件智能分派方法,对案件进行分派;调解员画像模块用于对调解员业务能力及服务水平进行分析画像,清晰了解调解员群体现状,调解资源情况,提供资源调配依据;案件录入模块用于记录案件过程中的重要信息,使用训练好的分类模型对案件类型进行辅助分类;案例分析模块用于对案件进行分析评估,掌握当前的调解服务状态;数据存储模块用于存储各类数据,包括调解案件库、调解员调解案件特征库、标签文本库、各案件类型的调解员调解案件集等数据。作为优选,所述采用案件智能分派方法进行分派时,把案例信息及咨询人员信息分派给调解员;把案例分类、调解员信息和调解地址信息推送给咨询人员,其中,使用多途径进行信息推送,推送方式包括WebService、HTML5、Rest、WAP,可根据具体需求进行多种方式的推送服务。作为优选,所述调解员画像模块包括基础信息、业务状态、个人能力、服务评级子模块;基础信息包括调解员年龄、性别、执业年限、联系方式信息;业务状态指调解员当前调解状态,判断调解资源利用情况;个人能力指调解员的工作能力,调解业绩情况信息;服务评级指对调解员的服务评价和业务能力的综合评级。作为优选,所述案件分析模块包括时间序列、人员画像、风险预警、工作质量、效率评估子模块;其中时间序列指案件历史变化趋势;人员画像指对咨询人员属性描述,包括年龄、性别、籍贯、历史记录信息;风险预警指对重大案件、群体案件、涉老涉幼等重点关注,社会影响广泛案件进行预警提示;工作质量指对结案案件结果、满意度、评价进行综合考量;效率评估指对调解案件从介入到结案整个服务过程的效率情况。一种基于特征提取的调解案件智能分派方法,包括如下步骤:(1)采集调解案件数据,进行数据预处理后存入调解案件库;(2)对调解案件文本进行分类处理,获得各案件类型的调解员调解案件集;(3)对调解案件文本提取特征词,获得调解员调解案件特征库;(4)对待分派调解案件文本进行分类与分词处理,确定分类结果,提取该案件特征词;(5)比对待分派调解案件和同案件类型下各调解员调解案件的特征词相似度,结合各调解员当前工作量和服务评级,对调解员进行排序,分派调解案件。作为优选,分类方法包括:将调解案件文本分词,获得词汇文本;对词汇文本进行向量化和归一化处理;对处理后的数据进行聚类,并根据专家经验分类添加标签,存入标签文本库;采用机器学习算法训练、优化分类模型,进而用于调解案件文本分类。作为优选,所述进行聚类时采用DBSCAN算法进行聚类,具体步骤如下:(a)初始化选取邻域参数(∈,MinPts),∈为聚类半径,MinPts为最低样本数;(b)计算距离,其中距离计算方式:欧式距离,点a(x11,x12,...,x1n)与b(x21,x22,...,x2n)间的欧式距离为(c)通过距离度量方式找到样本xj的∈-邻域样本集N∈(xj),若样本集个数满足|N∈(xj)|≥MinPts,将xj加入核心对象样本集合Ωk;(d)如果样本集合Ωk为空集,则结束流程;否则执行步骤(e);(e)在Ωk中,随机选择核心对象o,执行步骤(b)直到算法结束生成聚类簇Ck;(f)优化邻域参数组合,重复步骤(b),达到最佳聚类结果。作为优选,所述获得调解员调解案件特征库的方法包括:将调解案件文本分词,提取特征词,获得一级特征库;对特征词进行合并或扩展,获得二级特征库。作为优选,所述获得一级特征库的具体方法如下:统计常规词的组合词频,将组合词频满足设定阈值I的常规词组合作为新词汇加入词汇表;定义窗口长度L,采用窗口遍历的方法统计任意M个词汇组合出现的次数,将出现次数最高的K个组合中的词汇作为特征词,统计所述特征词中单个词汇的词频,将词频满足设定阈值II的词汇作为候选特征词,加入一级特征库。作为优选,所述获取二级特征库的具体方法如下:计算特征词的相似度;当两个特征词的相似度满足设定阈值III或两个特征词的相似度在一级特征库的特征词相似度值前N位时,则将两个特征词合并,保留其中一个特征词,将另一个特征词从一级特征库中去除;当两个特征词的相似度满足设定阈值IV时,从扩展词典中抽取对应的扩展词汇,对特征词进行扩展,将扩展特征词加入一级特征库,获得二级特征库。作为优选,所述特征词的相似度计算方法包括:(i)设置基于字符的特征词相似度权重p和基于语义的特征词相似度权重q;(ii)获取特征词F1、F2基于字符的特征词相似度sim(F1,F2),其中,sim(F1,F2)=特征词F1和特征词F2中字符相同的数量/特征词F1和特征词F2的字符长度较大值;(iii)获取特征词F1、F2基于语义的特征词相似度score(F1,F2),其中,score(F1,F2)为特征词F1和特征词F2的相关性值,相关性值从案件库文本语言训练后的语义模型中获取;(iv)计算特征词的相似度=p*sim(F1,F2)+q*score(F1,F2)。作为优选本文档来自技高网
...

【技术保护点】
1.一种基于特征提取的调解案件智能分派方法,其特征在于包括如下步骤:(1)采集调解案件数据,进行数据预处理后存入调解案件库;(2)对调解案件文本进行分类处理,获得各案件类型的调解员调解案件集;(3)对调解案件文本提取特征词,获得调解员调解案件特征库;(4)对待分派调解案件文本进行分类与分词处理,确定分类结果,提取该案件特征词;(5)比对待分派调解案件和同案件类型下各调解员调解案件的特征词相似度,结合各调解员当前工作量和服务评级,对调解员进行排序,分派调解案件。

【技术特征摘要】
1.一种基于特征提取的调解案件智能分派方法,其特征在于包括如下步骤:(1)采集调解案件数据,进行数据预处理后存入调解案件库;(2)对调解案件文本进行分类处理,获得各案件类型的调解员调解案件集;(3)对调解案件文本提取特征词,获得调解员调解案件特征库;(4)对待分派调解案件文本进行分类与分词处理,确定分类结果,提取该案件特征词;(5)比对待分派调解案件和同案件类型下各调解员调解案件的特征词相似度,结合各调解员当前工作量和服务评级,对调解员进行排序,分派调解案件。2.根据权利要求1所述的一种基于特征提取的调解案件智能分派方法,其特征在于,所述分类方法包括:将调解案件文本分词,获得词汇文本;对词汇文本进行向量化和归一化处理;对处理后的数据进行聚类,并根据专家经验分类添加标签,存入标签文本库;采用机器学习算法训练、优化分类模型,进而用于调解案件文本分类。3.根据权利要求2所述的一种基于特征提取的调解案件智能分派方法,其特征在于,所述进行聚类时采用DBSCAN算法进行聚类,具体步骤如下:(a)初始化选取邻域参数(∈,MinPts),∈为聚类半径,MinPts为最低样本数;(b)计算距离,其中距离计算方式:欧式距离,点a(x11,x12,...,x1n)与b(x21,x22,...,x2n)间的欧式距离为(c)通过距离度量方式找到样本xj的∈-邻域样本集N∈(xj),若样本集个数满足|N∈(xj)|≥MinPts,将xj加入核心对象样本集合Ωk;(d)如果样本集合Ωk为空集,则结束流程;否则执行步骤(e);(e)在Ωk中,随机选择核心对象o,执行步骤(b)直到算法结束生成聚类簇Ck;(f)优化邻域参数组合,重复步骤(b),达到最佳聚类结果。4.根据权利要求1所述的一种基于特征提取的调解案件智能分派方法,其特征在于,所述获得调解员调解案件特征库的方法包括:将调解案件文本分词,提取特征词,获得一级特征库;对特征词进行合并或扩展,获得二级特征库。5.根据权利要求4所述的一种基于特征提取的调解案件智能分派方法,其特征在于,所述获得一级特征库的具体方法如下:统计常规词的组合词频,将组合词频满足设定阈值I的常规词组合作为新词汇加入词汇表;定义窗口长度L,采用窗口遍历的方法统计任意M个词汇组合出现的次数,将出现次数最高的K个组合中的词汇作为特征词,统计所述特征词中单个词汇的词频,将词频满足设定阈值II的词汇作为候选特征词,加入一级特征库。6.根据权利要求5所述的一种基于特征提取的调解案件智能分派方法,其特征在于,所述获得二级特征库的具体方法如下:计算特征词的相似度;当两个特征词的相似度满足设定阈值III或两个特征词的相似度在一级特征库的特征词相似度值前N位时,则将两个特征词合并,保留其中一个特征词,将另一个特征词从一级特征库中去除;当两个特征词的相似度满足设定阈值IV时,从扩展词典中抽取对应的扩展词汇,对特征词进行扩展,将扩展特征词加入一级特征库,获得二级特征库。7.根据权利要求6所述的一种基于特征提取的调解案件智能分派方法,其特征在于,所述特征词的相似度计算方法包括:(i)设置基于字符的特征词相似度权重p和基于语义的特征词相似度权重q;(ii)获取特征词F1、F2基于字符的特征词相似度sim(F1,F2),其中,sim(F1,F2)=特征词F1和特征词F2中字符相同的数量/特征词F1和特征词F2的字符长度较大值;(iii)获取特征词F1、F2基于语义的特征词相似度score(F1,F2),其中,score(F1,F2)为特征词F1和特征词F2的相关性值,相关性值从案件库文本语言训练后的语义模型中获取;(iv)计算特征词的相似度=p*sim(F1,F2)+q*score(F1,F2...

【专利技术属性】
技术研发人员:彭俊江王辉李建元周国栋陈涛蒋伶华
申请(专利权)人:银江股份有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1