一种从文本信息中确定位置信息的方法、装置及电子设备制造方法及图纸

技术编号:22295631 阅读:32 留言:0更新日期:2019-10-15 04:45
本发明专利技术实施例提供了一种从文本信息中确定位置信息的方法、装置及电子设备。将目标文本信息对应的字嵌入向量序列输入到预设的双向长短期记忆网络BILSTM算法中,得到字嵌入向量序列对应的完整隐层状态序列,基于预设的线性模型算法和预设的随机失活参数,对完整隐层状态序列进行降维处理,得到样本文本信息对应的特征序列;将特征序列输入到预设的维比特算法中,得到样本文本信息对应的概率序列和标签序列;基于概率序列、标签序列和预设的位置信息确定表,从目标文本中确定出位置信息,其中,位置信息确定表中包含位置信息与标签值的对应关系。本发明专利技术实施例中提出了一种基于字的文本位置信息确定方法,提高了从文本信息中确定位置信息的精确度。

A Method, Device and Electronic Equipment for Determining Position Information from Text Information

【技术实现步骤摘要】
一种从文本信息中确定位置信息的方法、装置及电子设备
本专利技术涉及数据处理
,特别是涉及一种从文本信息中确定位置信息的方法、装置及电子设备。
技术介绍
随着互联网的快速发展,网络上的文本信息也呈现爆炸式增长。由于文本信息中蕴含着标识用户位置的位置信息,因此,人们可以通过从用户发送的文本信息中提取位置信息,从而确定出用户所处的位置。现有技术中,统计人员通过人工标注的方式,确定出语料库中各样本文本信息对应的位置信息。然后,将文本信息,及其对应的位置信息作为神经网络模型的输入,并对神经网络模型进行训练,从而得到各个词语是位置信息的概率算法,即得到训练后的用于确定位置信息的模型,从而实现从文本信息中确定位置信息的目的。但是,通过现有技术训练后的用于确定位置信息的模型,得到文本信息中包含的位置信息的精确度较低。
技术实现思路
本专利技术实施例的目的在于提供一种从文本信息中确定位置信息的方法及装置,以提高从文本信息中确定位置信息的精确度。具体技术方案如下:第一方面,本专利技术实施例提供了一种从文本信息中确定位置信息的方法,所述方法包括:获取目标文本信息,所述目标文本信息中包含多个字符;基于预设的独热维度确定字典,确定所述目标文本信息对应的字嵌入向量序列;将所述字嵌入向量序列输入到预设的双向长短期记忆网络BILSTM算法中,得到所述字嵌入向量序列对应的完整隐层状态序列,其中,所述完整隐层状态序列中包含所述每个字符对应的完整隐层状态;基于预设的线性模型算法和预设的随机失活参数,对所述完整隐层状态序列进行降维处理,得到所述目标文本信息对应的特征序列;将所述特征序列输入到预设的维比特算法中,得到所述目标文本信息对应的概率序列和标签序列;其中,所述概率序列中包含所述各个字符对应的概率值,所述标签序列中包含各个字符对应的标签值;基于所述概率序列、标签序列和预设的位置信息确定表,从所述目标信息文本中确定出位置信息,其中,所述位置信息确定表中包含位置信息与标签值的对应关系。可选的,所述基于预设的独热维度确定字典,确定所述目标文本信息对应的字嵌入向量序列的步骤,可以包括:针对所述目标文本信息中包含的每个字符,在所述预设的独热维度确定字典中查找所述每个字符对应的参考独热维度向量,并将所述每个字符对应的参考独热维度向量确定为该字符对应的独热维度向量;其中,所述字典中包含字符与独热维度向量的映射关系;将所述每个字符对应的独热维度向量组成所述目标文本信息对应的字嵌入向量序列。可选的,所述将所述字嵌入向量序列输入到预设的BILSTM中,得到所述字嵌入向量序列对应的完整隐层状态序列的步骤,可以包括:将所述字嵌入向量序列输入到所述BILSTM算法中,得到字嵌入向量序列对应的正向隐层状态序列和反向隐层状态序列;其中,所述正向隐层状态序列中包含所述目标文本信息中包含的各个字符对应的正向隐层状态,所述反向隐层状态序列中包含所述目标文本信息中包含的各个字符对应的反向隐层状态;针对所述每个字符,将所述每个字符对应的正向隐层状态和反向隐层状态进行拼接,得到所述每个字符对应的完整隐层状态,并将所述确定出的各个字符对应的完整隐层状态组成所述目标文本信息对应的完整隐层状态序列。可选的,所述方法还可以包括:将所述概率序列输入到预设的卷积神经网络算法中,得到所述目标文本信息对应的位置信息类型序列;在预设的策略库中查找是否存在所述位置信息类型序列对应的参考位置信息类型;其中,所述策略库中包含位置信息类型序列与参考位置信息类型的对应关系;若存在,则将参考位置信息类型确定为所述目标文本信息中包含的位置信息对应的位置信息类型。第二方面,本专利技术实施例提供了一种从文本信息中确定位置信息的装置,所述装置包括:获取模块,用于获取目标文本信息,所述目标文本信息中包含多个字符;字嵌入向量序列确定模块,用于基于预设的独热维度确定字典,确定所述目标文本信息对应的字嵌入向量序列;完整隐层状态序列得到模块,用于将所述字嵌入向量序列输入到预设的双向长短期记忆网络BILSTM算法中,得到所述字嵌入向量序列对应的完整隐层状态序列,其中,所述完整隐层状态序列中包含所述每个字符对应的完整隐层状态;特征序列得到模块,用于基于预设的线性模型算法和预设的随机失活参数,对所述完整隐层状态序列进行降维处理,得到所述目标文本信息对应的特征序列;概率序列和标签序列得到模块,用于将所述特征序列输入到预设的维比特算法中,得到所述目标文本信息对应的概率序列和标签序列;其中,所述概率序列中包含所述各个字符对应的概率值,所述标签序列中包含各个字符对应的标签值;位置信息确定模块,用于基于所述概率序列、标签序列和预设的位置信息确定表,从所述目标信息文本中确定出位置信息,其中,所述位置信息确定表中包含位置信息与标签值的对应关系。可选的,所述字嵌入向量序列确定模块,可以包括:独热维度向量确定单元,用于针对所述目标文本信息中包含的每个字符,在所述预设的独热维度确定字典中查找所述每个字符对应的参考独热维度向量,并将所述每个字符对应的参考独热维度向量确定为该字符对应的独热维度向量;其中,所述字典中包含字符与独热维度向量的映射关系;字嵌入向量序列确定单元,用于将所述每个字符对应的独热维度向量组成所述目标文本信息对应的字嵌入向量序列。可选的,所述完整隐层状态序列得到模块,可以包括:正反向隐层状态序列得到单元,用于将所述字嵌入向量序列输入到所述BILSTM算法中,得到字嵌入向量序列对应的正向隐层状态序列和反向隐层状态序列;其中,所述正向隐层状态序列中包含所述目标文本信息中包含的各个字符对应的正向隐层状态,所述反向隐层状态序列中包含所述目标文本信息中包含的各个字符对应的反向隐层状态;完整隐层状态序列确定单元,用于针对所述每个字符,将所述每个字符对应的正向隐层状态和反向隐层状态进行拼接,得到所述每个字符对应的完整隐层状态,并将所述确定出的各个字符对应的完整隐层状态组成所述目标文本信息对应的完整隐层状态序列。可选的,所述装置还可以包括:将所述概率序列输入到预设的卷积神经网络算法中,得到所述目标文本信息对应的位置信息类型序列;查找模块,用于在预设的策略库中查找是否存在所述位置信息类型序列对应的参考位置信息类型;其中,所述策略库中包含位置信息类型序列与参考位置信息类型的对应关系;位置信息类型确定模块,用于若存在,则将参考位置信息类型确定为所述目标文本信息中包含的位置信息对应的位置信息类型。第三方面,本专利技术实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现以下方法步骤:获取目标文本信息,所述目标文本信息中包含多个字符;基于预设的独热维度确定字典,确定所述目标文本信息对应的字嵌入向量序列;将所述字嵌入向量序列输入到预设的双向长短期记忆网络BILSTM算法中,得到所述字嵌入向量序列对应的完整隐层状态序列,其中,所述完整隐层状态序列中包含所述每个字符对应的完整隐层状态;基于预设的线性模型算法和预设的随机失活参数,对所述完整隐层状态序列进行降维处理,得到所述目标文本信息对应的特征序列;将所述特征序列输入到预设的维比特本文档来自技高网...

【技术保护点】
1.一种从文本信息中确定位置信息的方法,其特征在于,所述方法包括:获取目标文本信息,所述目标文本信息中包含多个字符;基于预设的独热维度确定字典,确定所述目标文本信息对应的字嵌入向量序列;将所述字嵌入向量序列输入到预设的双向长短期记忆网络BILSTM算法中,得到所述字嵌入向量序列对应的完整隐层状态序列,其中,所述完整隐层状态序列中包含所述每个字符对应的完整隐层状态;基于预设的线性模型算法和预设的随机失活参数,对所述完整隐层状态序列进行降维处理,得到所述目标文本信息对应的特征序列;将所述特征序列输入到预设的维比特算法中,得到所述目标文本信息对应的概率序列和标签序列;其中,所述概率序列中包含所述各个字符对应的概率值,所述标签序列中包含各个字符对应的标签值;基于所述概率序列、标签序列和预设的位置信息确定表,从所述目标信息文本中确定出位置信息,其中,所述位置信息确定表中包含位置信息与标签值的对应关系。

【技术特征摘要】
1.一种从文本信息中确定位置信息的方法,其特征在于,所述方法包括:获取目标文本信息,所述目标文本信息中包含多个字符;基于预设的独热维度确定字典,确定所述目标文本信息对应的字嵌入向量序列;将所述字嵌入向量序列输入到预设的双向长短期记忆网络BILSTM算法中,得到所述字嵌入向量序列对应的完整隐层状态序列,其中,所述完整隐层状态序列中包含所述每个字符对应的完整隐层状态;基于预设的线性模型算法和预设的随机失活参数,对所述完整隐层状态序列进行降维处理,得到所述目标文本信息对应的特征序列;将所述特征序列输入到预设的维比特算法中,得到所述目标文本信息对应的概率序列和标签序列;其中,所述概率序列中包含所述各个字符对应的概率值,所述标签序列中包含各个字符对应的标签值;基于所述概率序列、标签序列和预设的位置信息确定表,从所述目标信息文本中确定出位置信息,其中,所述位置信息确定表中包含位置信息与标签值的对应关系。2.根据权利要求1所述的方法,其特征在于,所述基于预设的独热维度确定字典,确定所述目标文本信息对应的字嵌入向量序列的步骤,包括:针对所述目标文本信息中包含的每个字符,在所述预设的独热维度确定字典中查找所述每个字符对应的参考独热维度向量,并将所述每个字符对应的参考独热维度向量确定为该字符对应的独热维度向量;其中,所述字典中包含字符与独热维度向量的映射关系;将所述每个字符对应的独热维度向量组成所述目标文本信息对应的字嵌入向量序列。3.根据权利要求1所述的方法,其特征在于,所述将所述字嵌入向量序列输入到预设的BILSTM中,得到所述字嵌入向量序列对应的完整隐层状态序列的步骤,包括:将所述字嵌入向量序列输入到所述BILSTM算法中,得到字嵌入向量序列对应的正向隐层状态序列和反向隐层状态序列;其中,所述正向隐层状态序列中包含所述目标文本信息中包含的各个字符对应的正向隐层状态,所述反向隐层状态序列中包含所述目标文本信息中包含的各个字符对应的反向隐层状态;针对所述每个字符,将所述每个字符对应的正向隐层状态和反向隐层状态进行拼接,得到所述每个字符对应的完整隐层状态,并将所述确定出的各个字符对应的完整隐层状态组成所述目标文本信息对应的完整隐层状态序列。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:将所述概率序列输入到预设的卷积神经网络算法中,得到所述目标文本信息对应的位置信息类型序列;在预设的策略库中查找是否存在所述位置信息类型序列对应的参考位置信息类型;其中,所述策略库中包含位置信息类型序列与参考位置信息类型的对应关系;若存在,则将参考位置信息类型确定为所述目标文本信息中包含的位置信息对应的位置信息类型。5.一种从文本信息中确定位置信息的装置,其特征在于,所述装置包括:获取模块,用于获取目标文本信息,所述目标文本信息中包含多个字符;字嵌入向量序列确定模块,用于基于预设的独热维度确定字典,确定所述目标文本信息...

【专利技术属性】
技术研发人员:邓中亮邱德武管孟陈新平
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1