【技术实现步骤摘要】
识别公安笔录人物关系的方法、装置及计算机可读介质
本专利技术是关于机器学习
,特别是关于一种识别公安笔录人物关系的方法、装置及计算机可读介质。
技术介绍
自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域,它是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处2理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。信息抽取是自然语言处理技术的重要组成部分,信息抽取(InformationExtraction)技术能够帮助人们在海量的信息中快速定位到自己真正需要的信息,信息抽取是一个以无结构的自然语言文档作为输入,产生固定格式、无歧义的格式化数据的过程。信息抽取更是自然语言处理的一个研究热点。随着网络信息量的增大,对海量数据命名实体关系识别变得越来越难,而如何利用海量数据来挖掘出更多的业务需求所需要的实体关系是目前亟待解决的技术难题,也是目前自然语言研究的一个重要方向。命名实体识别的主要任务是识别出文本中的人名、地名、组织机构名、时间、数字等专有的名词并加以分类识别。命名实体之间存在的关系就是实体所具有的关系。实体关系识别是信息抽取的重要组成部分,对信息抽取技术的研究与应用都有很重要的意义。实体之间的关系识别是一项关键的核 ...
【技术保护点】
1.一种识别公安笔录人物关系的方法,其特征在于:所述识别公安笔录人物关系的方法包括如下步骤:准备具有关系种类的实体组,分别获取对应不同实体组的语料库,将对应不同实体组的语料库中的语料进行分词,并将分词得到的词语转化为词向量;将所述词向量作为输入,将语料库对应的实体组的关系种类作为输出,训练得到实体关系识别模型;从知识库中得到相关语料库,将相关语料库中的语料进行分词,并将分词得到的相关词语转化为相关词向量;将所述相关词向量按语料转化为矩阵,并将所述矩阵作为实体关系识别模型的输入,得到相关语料库中相关关系种类的概率值;以及将得到识别结果的概率值按大小进行排序,将排名次序高的概率值对应的相关关系种类作为新预测的实体对之间的关系类别。
【技术特征摘要】
1.一种识别公安笔录人物关系的方法,其特征在于:所述识别公安笔录人物关系的方法包括如下步骤:准备具有关系种类的实体组,分别获取对应不同实体组的语料库,将对应不同实体组的语料库中的语料进行分词,并将分词得到的词语转化为词向量;将所述词向量作为输入,将语料库对应的实体组的关系种类作为输出,训练得到实体关系识别模型;从知识库中得到相关语料库,将相关语料库中的语料进行分词,并将分词得到的相关词语转化为相关词向量;将所述相关词向量按语料转化为矩阵,并将所述矩阵作为实体关系识别模型的输入,得到相关语料库中相关关系种类的概率值;以及将得到识别结果的概率值按大小进行排序,将排名次序高的概率值对应的相关关系种类作为新预测的实体对之间的关系类别。2.如权利要求1所述的识别公安笔录人物关系的方法,其特征在于:其中,所述实体关系识别模型的训练过程包括:将语料库中的所述词向量转化为矩阵输入到神经网络中;利用所述神经网络的正向传播按预设权重进行迭代计算得到预测值;利用反向传播算法计算预测值与语料库对应的实体组的关系种类之间的误差值;以及基于所述误差值,得到实体关系识别模型。3.如权利要求2所述的识别公安笔录人物关系的方法,其特征在于:其中,基于所述误差值,得到实体关系识别模型具体包括如下步骤:当所述误差值大于或者等于预设阈值时,对权重进行调整,重新计算迭代计算的预测值;以及当所述误差值在小于预设阈值时,记录此时的模型,得到实体关系识别模型。4.一种识别公安笔录人物关系的装置,其特征在于:所述装置包括:处理器;和与所述处理器耦合的存储器,所述存储器存储有代码,当被执行时,素数代码可操作以使所述处理器进行以下操作:准备具有关系种类的实体组,分别获取对应不同实体组的语料库,将对应不同实体组的语料库中的语料进行分词,并将分词得到的词语转化为词向量;将所述词向量作为输入,将语料库对应的实体组的关系种类作为输出,训练得到实体关系识别模型;从知识库中得到相关语料库,将相关语料库中的语料进行分词,并将分词得到的相关词语转化为相关词向量;将所述相关词向量按语料转化为矩阵,并将所述矩阵作为实体关系识别模型的输入,得到相关语料库中相关关系种类的概率值;以及将得到识别结果的概率值按大小进行排序,将排名次序高的概率值对应的相关关系种类作为新预测的实体对之间的关系类别。5.如权利要求4所述的装置,其特征在于:其中,所述实体关系识别模型的训练过程包括:将语料库中的所述词向量转化为矩阵输入到神经网络中;利用所述神经网络的正向传播按预设权重进行迭代计算得到预测值;利用反向传播算法计算预测值与语料库对应的实体组的关系种类之间的误差值;以及基于所述误差值,得到实体关系识别模型。6.如权利要求5所述的装置,其特征在于:其中,基于所述误差值,得到实体关系识别模型具体包括如下步骤:当所述误差值大于或者等于预设阈值时,对权重进行调整,重新计算迭代计算的预测值;以及当所述误差值在小于预设阈值时,记录此时的模型,得到实体关系...
【专利技术属性】
技术研发人员:刘嘉庆,喻波,王志海,魏力,谢福进,
申请(专利权)人:北京明朝万达科技股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。