识别公安笔录人物关系的方法、装置及计算机可读介质制造方法及图纸

技术编号:21089811 阅读:31 留言:0更新日期:2019-05-11 10:02
本发明专利技术公开了一种识别公安笔录人物关系的方法,包括如下步骤:准备具有关系种类的实体组,分别获取对应不同实体组的语料库,将对应不同实体组的语料库中的语料进行分词,并将分词得到的词语转化为词向量;将词向量作为输入,将语料库对应的实体组的关系种类作为输出,训练得到实体关系识别模型;从知识库中得到相关语料库,将相关语料库中的语料进行分词,并将分词得到的相关词语转化为相关词向量;将相关词向量按语料转化为矩阵,并将矩阵作为实体关系识别模型的输入,得到相关语料库中相关关系种类的概率值;以及将得到识别结果的概率值按大小进行排序,将排名次序高的概率值对应的相关关系种类作为新预测的实体对之间的关系类别。

【技术实现步骤摘要】
识别公安笔录人物关系的方法、装置及计算机可读介质
本专利技术是关于机器学习
,特别是关于一种识别公安笔录人物关系的方法、装置及计算机可读介质。
技术介绍
自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域,它是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处2理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。信息抽取是自然语言处理技术的重要组成部分,信息抽取(InformationExtraction)技术能够帮助人们在海量的信息中快速定位到自己真正需要的信息,信息抽取是一个以无结构的自然语言文档作为输入,产生固定格式、无歧义的格式化数据的过程。信息抽取更是自然语言处理的一个研究热点。随着网络信息量的增大,对海量数据命名实体关系识别变得越来越难,而如何利用海量数据来挖掘出更多的业务需求所需要的实体关系是目前亟待解决的技术难题,也是目前自然语言研究的一个重要方向。命名实体识别的主要任务是识别出文本中的人名、地名、组织机构名、时间、数字等专有的名词并加以分类识别。命名实体之间存在的关系就是实体所具有的关系。实体关系识别是信息抽取的重要组成部分,对信息抽取技术的研究与应用都有很重要的意义。实体之间的关系识别是一项关键的核心技术,对信息检索、机器翻译等都有非常重要的意义。目前,命名实体关系识别的方法主要是基于规则库的算法和基于机器学习与深度学习算法这两种方法。基于规则库的算法是建立一些规则,虽然这种方法的效率较高,但是这种规则的确定确实比较难的,而且移植性不好。不同的业务领域往往具有不同的特点,所以这种方法在移植到不同业务场景中时就会导致效率下降。而基于机器学习算法的方法则是采用不同的模型,并以人工标注的方法来标注训练集,进而进行训练学习,对于新的数据集则采用,模型算出相关的概率,这样便能得到新的数据集的结果。基于深度学习算法的方法代价较小,而且便于移植到不同的领域,因此这是当下自然语言处理研究的热点。这种方法需要依赖语料库来进行训练才能得到较好的结果,目前国内常用的语料库有北京大学、微软亚洲研究院等机构的中文语料库。因而目前实体关系识别的主要方法是利用深度学习的方法来进行识别。目前基于机器学习与深度学习算法的实体关系识别的主要算法有隐马尔科夫模型(HMM)、最大熵(ME)、支持向量机(SVM)、条件随机场(CRF),还有采用LSTM模型的实体关系识别方法,这些方法没有考虑一个实体与多个实体之间同时存在这关系,只考虑了单个与单个实体之间的关系。即实体关系重叠的问题。且在实体关系识别的过程中对于识别结果只是给出单一的一个结果,但是在实际的业务应用场景中,实体的关系往往是复杂的,这对模型的要求就会更高,这样就会可能造成识别结果不准确而造成误判。公开于该
技术介绍
部分的信息仅仅旨在增加对本专利技术的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。
技术实现思路
本专利技术的目的在于提供一种识别公安笔录人物关系的方法、装置及计算机可读介质,其能够克服现有技术的缺点。为实现上述目的,本专利技术提供了一种识别公安笔录人物关系的方法,包括如下步骤:准备具有关系种类的实体组,分别获取对应不同实体组的语料库,将对应不同实体组的语料库中的语料进行分词,并将分词得到的词语转化为词向量;将词向量作为输入,将语料库对应的实体组的关系种类作为输出,训练得到实体关系识别模型;从知识库中得到相关语料库,将相关语料库中的语料进行分词,并将分词得到的相关词语转化为相关词向量;将相关词向量按语料转化为矩阵,并将矩阵作为实体关系识别模型的输入,得到相关语料库中相关关系种类的概率值;以及将得到识别结果的概率值按大小进行排序,将排名次序高的概率值对应的相关关系种类作为新预测的实体对之间的关系类别。在一优选的实施方式中,其中,实体关系识别模型的训练过程包括:将语料库中的词向量转化为矩阵输入到神经网络中;利用神经网络的正向传播按预设权重进行迭代计算得到预测值;利用反向传播算法计算预测值与语料库对应的实体组的关系种类之间的误差值;以及基于误差值,得到实体关系识别模型。在一优选的实施方式中,其中,基于误差值,得到实体关系识别模型具体包括如下步骤:当误差值大于或者等于预设阈值时,对权重进行调整,重新计算迭代计算的预测值;以及当误差值在小于预设阈值时,记录此时的模型,得到实体关系识别模型。本专利技术提供了一种识别公安笔录人物关系的装置,该装置包括:处理器;和与处理器耦合的存储器,存储器存储有代码,当被执行时,素数代码可操作以使处理器进行以下操作:准备具有关系种类的实体组,分别获取对应不同实体组的语料库,将对应不同实体组的语料库中的语料进行分词,并将分词得到的词语转化为词向量;将词向量作为输入,将语料库对应的实体组的关系种类作为输出,训练得到实体关系识别模型;从知识库中得到相关语料库,将相关语料库中的语料进行分词,并将分词得到的相关词语转化为相关词向量;将相关词向量按语料转化为矩阵,并将矩阵作为实体关系识别模型的输入,得到相关语料库中相关关系种类的概率值;以及将得到识别结果的概率值按大小进行排序,将排名次序高的概率值对应的相关关系种类作为新预测的实体对之间的关系类别。在一优选的实施方式中,其中,实体关系识别模型的训练过程包括:将语料库中的词向量转化为矩阵输入到神经网络中;利用神经网络的正向传播按预设权重进行迭代计算得到预测值;利用反向传播算法计算预测值与语料库对应的实体组的关系种类之间的误差值;以及基于误差值,得到实体关系识别模型。在一优选的实施方式中,其中,基于误差值,得到实体关系识别模型具体包括如下步骤:当误差值大于或者等于预设阈值时,对权重进行调整,重新计算迭代计算的预测值;以及当误差值在小于预设阈值时,记录此时的模型,得到实体关系识别模型。本专利技术还提供了一种识别公安笔录人物关系的装置,该装置包括:用于准备具有关系种类的实体组,分别获取对应不同实体组的语料库,将对应不同实体组的语料库中的语料进行分词,并将分词得到的词语转化为词向量的单元;用于将词向量作为输入,将语料库对应的实体组的关系种类作为输出,训练得到实体关系识别模型的单元;用于从知识库中得到相关语料库,将相关语料库中的语料进行分词,并将分词得到的相关词语转化为相关词向量的单元;用于将相关词向量按语料转化为矩阵,并将矩阵作为实体关系识别模型的输入,得到相关语料库中相关关系种类的概率值的单元;以及用于将得到识别结果的概率值按大小进行排序,将排名次序高的概率值对应的相关关系种类作为新预测的实体对之间的关系类别的单元。在一优选的实施方式中,其中,实体关系识别模型的训练过程包括:将语料库中的词向量转化为矩阵输入到神经网络中;利用神经网络的正向传播按预设权重进行迭代计算得到预测值;利用反向传播算法计算预测值与语料库对应的实体组的关系种本文档来自技高网
...

【技术保护点】
1.一种识别公安笔录人物关系的方法,其特征在于:所述识别公安笔录人物关系的方法包括如下步骤:准备具有关系种类的实体组,分别获取对应不同实体组的语料库,将对应不同实体组的语料库中的语料进行分词,并将分词得到的词语转化为词向量;将所述词向量作为输入,将语料库对应的实体组的关系种类作为输出,训练得到实体关系识别模型;从知识库中得到相关语料库,将相关语料库中的语料进行分词,并将分词得到的相关词语转化为相关词向量;将所述相关词向量按语料转化为矩阵,并将所述矩阵作为实体关系识别模型的输入,得到相关语料库中相关关系种类的概率值;以及将得到识别结果的概率值按大小进行排序,将排名次序高的概率值对应的相关关系种类作为新预测的实体对之间的关系类别。

【技术特征摘要】
1.一种识别公安笔录人物关系的方法,其特征在于:所述识别公安笔录人物关系的方法包括如下步骤:准备具有关系种类的实体组,分别获取对应不同实体组的语料库,将对应不同实体组的语料库中的语料进行分词,并将分词得到的词语转化为词向量;将所述词向量作为输入,将语料库对应的实体组的关系种类作为输出,训练得到实体关系识别模型;从知识库中得到相关语料库,将相关语料库中的语料进行分词,并将分词得到的相关词语转化为相关词向量;将所述相关词向量按语料转化为矩阵,并将所述矩阵作为实体关系识别模型的输入,得到相关语料库中相关关系种类的概率值;以及将得到识别结果的概率值按大小进行排序,将排名次序高的概率值对应的相关关系种类作为新预测的实体对之间的关系类别。2.如权利要求1所述的识别公安笔录人物关系的方法,其特征在于:其中,所述实体关系识别模型的训练过程包括:将语料库中的所述词向量转化为矩阵输入到神经网络中;利用所述神经网络的正向传播按预设权重进行迭代计算得到预测值;利用反向传播算法计算预测值与语料库对应的实体组的关系种类之间的误差值;以及基于所述误差值,得到实体关系识别模型。3.如权利要求2所述的识别公安笔录人物关系的方法,其特征在于:其中,基于所述误差值,得到实体关系识别模型具体包括如下步骤:当所述误差值大于或者等于预设阈值时,对权重进行调整,重新计算迭代计算的预测值;以及当所述误差值在小于预设阈值时,记录此时的模型,得到实体关系识别模型。4.一种识别公安笔录人物关系的装置,其特征在于:所述装置包括:处理器;和与所述处理器耦合的存储器,所述存储器存储有代码,当被执行时,素数代码可操作以使所述处理器进行以下操作:准备具有关系种类的实体组,分别获取对应不同实体组的语料库,将对应不同实体组的语料库中的语料进行分词,并将分词得到的词语转化为词向量;将所述词向量作为输入,将语料库对应的实体组的关系种类作为输出,训练得到实体关系识别模型;从知识库中得到相关语料库,将相关语料库中的语料进行分词,并将分词得到的相关词语转化为相关词向量;将所述相关词向量按语料转化为矩阵,并将所述矩阵作为实体关系识别模型的输入,得到相关语料库中相关关系种类的概率值;以及将得到识别结果的概率值按大小进行排序,将排名次序高的概率值对应的相关关系种类作为新预测的实体对之间的关系类别。5.如权利要求4所述的装置,其特征在于:其中,所述实体关系识别模型的训练过程包括:将语料库中的所述词向量转化为矩阵输入到神经网络中;利用所述神经网络的正向传播按预设权重进行迭代计算得到预测值;利用反向传播算法计算预测值与语料库对应的实体组的关系种类之间的误差值;以及基于所述误差值,得到实体关系识别模型。6.如权利要求5所述的装置,其特征在于:其中,基于所述误差值,得到实体关系识别模型具体包括如下步骤:当所述误差值大于或者等于预设阈值时,对权重进行调整,重新计算迭代计算的预测值;以及当所述误差值在小于预设阈值时,记录此时的模型,得到实体关系...

【专利技术属性】
技术研发人员:刘嘉庆喻波王志海魏力谢福进
申请(专利权)人:北京明朝万达科技股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1