【技术实现步骤摘要】
获得讯询问话题分类模型、讯询问话题分类的方法和装置
本申请涉及数据分析
,尤其涉及一种获得讯询问话题分类模型、讯询问话题分类的方法和装置。
技术介绍
讯询问笔录作为贯穿案件的重要破案和定罪依据,为了避免工作人员人为从其中提取并标注要素信息,需要自动完成讯询问笔录的内容结构化,即,自动对讯询问笔录中问答对进行话题分类。目前,针对讯询问笔录中问答对,一般采用基于机器学习的话题分类方法进行话题分类,具体是指对讯询问笔录中问答对进行特征提取,将提取到的问答对特征输入到简单分类模型中进行参数训练和分类预测。但是,专利技术人经过研究发现,基于机器学习的话题分类方法正确率很低,实际经过讯询问笔录中问答对测试,分类正确率较低,有的仅可达到40%左右,完全无法达到实际可用的程度。
技术实现思路
有鉴于此,本申请实施例提供一种获得讯询问话题分类模型、讯询问话题分类的方法和装置,使得讯询问话题分类模型的话题分类效果更好,从而提高后续讯询问话题分类的正确率。第一方面,本申请实施例提供了一种获得讯询问 ...
【技术保护点】
1.一种获得讯询问话题分类模型的方法,其特征在于,包括:/n对样本讯询问笔录中样本问答对进行自然语言预处理,获得各个样本问句分词和各个样本答句分词;/n根据各个所述样本问句分词及其对应的各个贡献度得分、各个所述样本答句分词及其对应的各个贡献度得分和所述样本问答对的标记话题类别,训练基于注意力机制的卷积神经网络获得讯询问话题分类模型。/n
【技术特征摘要】
1.一种获得讯询问话题分类模型的方法,其特征在于,包括:
对样本讯询问笔录中样本问答对进行自然语言预处理,获得各个样本问句分词和各个样本答句分词;
根据各个所述样本问句分词及其对应的各个贡献度得分、各个所述样本答句分词及其对应的各个贡献度得分和所述样本问答对的标记话题类别,训练基于注意力机制的卷积神经网络获得讯询问话题分类模型。
2.根据权利要求1所述的方法,其特征在于,所述根据各个所述样本问句分词及其对应的各个贡献度得分、各个所述样本答句分词及其对应的各个贡献度得分和所述样本问答对的标记话题类别,训练基于注意力机制的卷积神经网络获得讯询问话题分类模型,包括:
基于各个所述样本问句分词及其对应的各个贡献度得分获得第一矩阵;基于各个所述样本答句分词及其对应的各个贡献度得分获得第二矩阵;
拼接所述第一矩阵和所述第二矩阵获得第三矩阵;
基于所述第三矩阵和权重向量,获得所述样本问答对的特征向量;所述权重向量是基于所述第三矩阵的转置矩阵获得的;
基于所述特征向量和预设激活函数,获得所述样本问答对的预测话题类别;
根据所述预测话题类别和所述标记话题类别,训练所述基于注意力机制的卷积神经网络中网络参数,获得所述讯询问话题分类模型。
3.根据权利要求2所述的方法,其特征在于,所述基于各个所述样本问句分词及其对应的各个贡献度得分获得第一矩阵,包括:
获得各个所述样本问句分词的词向量;
分别拼接各个所述样本问句分词的词向量与其对应的各个贡献度得分,获得所述第一矩阵;
所述基于各个所述样本答句分词及其对应的各个贡献度得分获得第二矩阵,包括:
获得各个所述样本答句分词的词向量;
分别拼接各个所述样本答句分词的词向量与其对应的各个贡献度得分,获得所述第二矩阵。
4.根据权利要求1-3任一项所述的方法,其特征在于,各个所述贡献度得分的获得步骤包括:
基于各个所述样本问句分词和各个所述样本答句分词,利用词频-逆文件频率算法获得每个分词的贡献度得分;
基于预设词表去除各个所述分词的贡献度得分中无关话题分词的贡献度得分,获得各个所述贡献度得分。
5.根据权利要求1所述的方法,其特征在于,所述对样本讯询问笔录中样本问答对进行自然语言预处理,获得样本问句分词和对应的样本答句分词,包括:
对所述样本讯询问笔录中样本问答对进行分词处理,获得各个问句分词和各个答句分词;
对各个所述问句分词和各个所述答句分词中符合预设实体类型的实体名词进行预设实体类型字符替换处理,获得各个所述样本问句分词和各个所述样本答句分词;所述预设实体类型包括数字、时间、人名、地名和/或机构名称。
6.根据权利要求5所述的方法,其特征在于,若所述预设实体类型为数字和/或时间,所述预设实体类型字符替换处理为基于规则匹配的预设实体类型字符替换处理;若所述预设实体类型为人名、...
【专利技术属性】
技术研发人员:杨帆,方磊,方四安,方昕,徐承,
申请(专利权)人:合肥讯飞数码科技有限公司,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。