【技术实现步骤摘要】
商情实体确定方法、装置和存储介质
本专利技术涉及大数据分析技术,尤其涉及一种商情实体确定方法、装置和计算机可读存储介质。
技术介绍
命名实体识别是信息提取、问答系统、句法分析、机器翻译等应用领域的重要基础,在自然语言处理技术走向实用化的过程中占有重要地位,一般来说,命名实体识别的任务就是识别出待处理文本中三大类(即实体类、时间类和数字类)、七小类(即人名、机构名、地名、时间、日期、货币和百分百)。目前,命名实体提取方法主要有三大类:基于规则的命名实体识别方法、基于统计机器学习的命名实体识别方法和基于深度神经网络方法的命名实体识别方法。具体来说:基于规则的命名实体识别方法主要是通过制定好的规则模板提取相应的信息,这种方法需要大量的先验知识,熟悉各实体出现的规律,这将极大的提升任务难度,除此之外,还有时间效率低,可移植性弱等缺点,这种方法在处理结构化单一的数据集上有效,但随着大数据时代的到来,非结构化数据占着很大的比例,对于非结构化数据很难获取足够的先验知识建立规则模板。基于统计机器学习的方法,融合了语言 ...
【技术保护点】
1.一种商情实体确定方法,其特征在于,所述方法包括:/n获取目标文本;/n基于预设的商情实体识别模型识别所述目标文本,获得识别结果;所述识别结果表征所述目标文本包含的商情实体;所述商情实体识别模型基于时间卷积神经网络和条件随机场生成。/n
【技术特征摘要】
1.一种商情实体确定方法,其特征在于,所述方法包括:
获取目标文本;
基于预设的商情实体识别模型识别所述目标文本,获得识别结果;所述识别结果表征所述目标文本包含的商情实体;所述商情实体识别模型基于时间卷积神经网络和条件随机场生成。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:生成所述商情实体识别模型;
所述生成所述商情实体识别模型,包括:
获取文本语料库,所述文本语料库包括至少一个文本语料;各文本语料对应有训练标签;
对所述文本语料库中的各文本语料进行预处理,获得预处理后的文本语料;
对各预处理后的文本语料进行分字和/或分词处理,获得由单个字组成的第一字向量序列和/或由词组组成的第一词向量序列;
根据各文本语料对应的训练标签及根据各文本语料获得的所述第一字向量序列和/或所述第一词向量序列对预设的网络模型进行训练,获得训练后的网络模型,作为所述商情实体识别模型。
3.根据权利要求2所述的方法,其特征在于,所述预设的网络模型,包括:时间卷积神经网络和条件随机场;
所述根据各文本语料对应的训练标签及根据各文本语料获得的所述第一字向量序列和/或所述第一词向量序列对预设的网络模型进行训练,包括:
将各文本语料对应的训练标签及根据各文本语料获得的所述第一字向量序列和/或所述第一词向量序列输入所述时间卷积神经网络和条件随机场;运用有监督学习方式训练所述时间卷积神经网络和条件随机场;
获得训练后的时间卷积神经网络和条件随机场,作为所述商情实体识别模型。
4.根据权利要求1所述的方法,其特征在于,所述基于预设的商情实体识别模型识别所述目标文本之前,所述方法还包括:对所述目标文本进行预处理,获得预处理后的目标文本;
相应的,所述基于预设的商情实体识别模型识别所述目标文本,包括:基于预设的商情实体识别模型识别所述预处理后的目标文本。
5.根据权利要求4所述的方法,其特征在于,所述基于预设的商情实体识别模型识别所述预处理后的目标文本之前,所述方法还包括:
对所述预处理后的目标文本进行分字和/或分词处理,获得由单个字组成的第二字向量序列和/或由词组组成的第二词向量序列;
相应的,所述基于预设的商情实体识别模型识别所述预处理后的目标文本,包括:
所述商情实体识别模型中的时间卷积神经网络对所述第二字向量序列和/或所述第二词向量序列进行特征提取,获得第二文本特征;
所述商情实体识别模型中的条件随机场根据所述第二文本特征获得标签序列,根据所述标签序列获得所述商情实体。
6.一种商情实体确定装置,其特征在于,所述装置包括:获...
【专利技术属性】
技术研发人员:童超,唐海庆,杨希,
申请(专利权)人:中移苏州软件技术有限公司,中国移动通信集团有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。