一种伤害类犯罪讯问笔录中的知识抽取方法及系统技术方案

技术编号:41795230 阅读:28 留言:0更新日期:2024-06-24 20:19
本发明专利技术提出了一种伤害类犯罪讯问笔录中的知识抽取方法及系统,涉及自然语言处理、知识工程技术领域,针对执法监督与办案过程中,对于不规范笔录信息的处理仍需耗费大量人力、物力和时间的问题。本发明专利技术首先提取原始笔录数据中与知识本体相关的讯问问题对应的答话内容,得到的答话均为与案由相关的内容,减少了后续案件审核的信息量;再经过指代分析、句子拆分、句子去噪、句子补全、三元组提取,实现实体‑实体关系‑实体的三元组自动抽取;该方法覆盖完整笔录处理流程,各分步结果清晰明确,经过上述处理,形成了针对案由的三元组知识,可以支持机器处理语言表达不十分规范的电子笔录,大幅度提升执法监督的效能与客观性。

【技术实现步骤摘要】

本专利技术涉及自然语言处理、知识工程,尤其涉及一种伤害类犯罪讯问笔录中的知识抽取方法及系统


技术介绍

1、传统的、基于流程的电子化的执法办案系统无法解决办案过程中出现的不规范笔录问题。而基于因果逻辑范式的知识工程技术应用以及自然语言处理技术是解决这类问题的基本技术方法。

2、现有技术中,已有通过机器学习方法实现知识抽取,但是,存在以下缺陷:

3、(1)传统的机器学习方法主要针对的是规范的文本数据,对于规范的文本数据可以做到较高准确率的结果,但是由于在讯问笔录场景下,受到被审讯人的心理状态和语言表达水平的影响,笔录中的文本内容常为不规范或有相关语病问题,传统的机器学习方法在对笔录数据进行知识抽取时得到的结果准确率较低,可抽取的知识较少;

4、(2)现有的语言模型具有黑盒性质,可以概括为通过训练大量文本得到特征,来预测待处理文本以得到结果,上述结果受限于训练数据的格式、质量以及数量,并且得到的结果可解释性低。讯问笔录可用的训练数据较少,且因涉及到严肃的公安判决,其要求合理化,逻辑化,所以常规的机器学习方法不适用于此场景。<本文档来自技高网...

【技术保护点】

1.一种伤害类犯罪讯问笔录中的知识抽取方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的伤害类犯罪讯问笔录中的知识抽取方法,其特征在于,所述步骤S12中,对包含伤害类犯罪知识本体的答话内容进行标记,具体为:若所述答话内容中包含至少一个所述知识本体的概念词汇,则对所述答话内容进行标记;所述知识本体的概念词汇为对所述知识本体的每一项内容进行扩充后的词汇集合。

3.根据权利要求2所述的伤害类犯罪讯问笔录中的知识抽取方法,其特征在于,所述知识本体的概念词汇获取方法为:

4.根据权利要求1所述的伤害类犯罪讯问笔录中的知识抽取方法,其特征在于,所述步骤S2...

【技术特征摘要】

1.一种伤害类犯罪讯问笔录中的知识抽取方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的伤害类犯罪讯问笔录中的知识抽取方法,其特征在于,所述步骤s12中,对包含伤害类犯罪知识本体的答话内容进行标记,具体为:若所述答话内容中包含至少一个所述知识本体的概念词汇,则对所述答话内容进行标记;所述知识本体的概念词汇为对所述知识本体的每一项内容进行扩充后的词汇集合。

3.根据权利要求2所述的伤害类犯罪讯问笔录中的知识抽取方法,其特征在于,所述知识本体的概念词汇获取方法为:

4.根据权利要求1所述的伤害类犯罪讯问笔录中的知识抽取方法,其特征在于,所述步骤s2中,所述指称代词包括:特征代词和人称代词;根据所述涉案人员的名称、涉案人员的特征确定每个指称代词对应的涉案人员,用涉案人员的名称替代每个所述指称代词,具体为:

5.根据权利要求1所述的伤害类犯罪讯问笔录中的知识抽取方法,其特征在于,所述步骤s4中,对步骤s3拆分得到的每个句子进行数据去噪,保留包含伤害类犯罪知识本体的句子,具体为:若所述句子中含有伤害类犯罪知识本体的...

【专利技术属性】
技术研发人员:华斌李宣毅吴诺孙博文
申请(专利权)人:天津财经大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1