The invention relates to a hybrid corpus named entity recognition method based on LSTM CNN. In the training phase, the mixed corpus data with tagged training will be converted to the character level mixed data data, and then the depth learning model based on LSTM CNN is trained; the unlabeled test mixed data data is converted to the character level mixed data data in the prediction stage, and then the training phase is used to train the data. The depth learning model is predicted. The invention adopts the character level rather than the word class vector, which can avoid the influence of the precision of the word segmentation, and can also avoid the problem of the unregistered words. The combination model of the long and short term memory neural network LSTM and the convolution neural network CNN is more accurate than the traditional algorithm; the model training is used directly by the mixed language material. In practice, it is not necessary to detect and separate each language of mixed corpus, and finally arrive at the purpose of identifying mixed corpus.
【技术实现步骤摘要】
一种基于LSTM-CNN的混合语料命名实体识别方法
本专利技术属于信息
,具体涉及一种基于LSTM-CNN的混合语料命名实体识别方法。
技术介绍
命名实体识别指的是对于给定的数据集识别指定的具有特定意义的实体名词的过程。命名实体的识别方法的实践场景包括:场景1:事件检测。地点、时间、人物是时间的几个基本构成部分,在构建事件的摘要时,可以突出相关人物、地点、单位等。在事件搜索系统中,相关的人物、时间、地点可以作为索引关键词。事件的几个构成部分之间的关系,从语义层面更详细的描述了事件。场景2:信息检索。命名实体可以用来提高和改进检索系统的效果,当用户输入“重大”时,可以发现用户更想检索的是“重庆大学”,而不是其对应的形容词含义。此外,在建立倒排索引的时候,如果把命名实体切成多个单词,将会导致查询效率降低。此外,搜索引擎正在向语义理解、计算答案的方向发展。场景3:语义网络。语义网络中一般包括概念和实例及其对应的关系,例如“国家”是一个概念,中国是一个实例,“中国”是一个“国家”表达实体与概念之间的关系。语义网络中的实例有很大一部分是命名实体。场景4:机器翻译。命名 ...
【技术保护点】
一种基于LSTM‑CNN的混合语料命名实体识别方法,其特征在于,包括以下步骤:1)将原始混合语料数据OrgData转化为字符级的混合语料数据NewData;2)统计NewData中的字符,得到字符集合CharSet,将每个字符进行编号,得到字符集合CharSet对应的字符编号集合CharID;统计NewData中字符的标签,得到标签集合LabelSet,将每个标签进行编号,得到标签集合LabelSet对应的标签编号集合LabelID;3)将NewData按照句子长度对句子进行分组,得到包括n组句子的数据集合GroupData;4)随机无放回的从GroupData的某组中抽取 ...
【技术特征摘要】
1.一种基于LSTM-CNN的混合语料命名实体识别方法,其特征在于,包括以下步骤:1)将原始混合语料数据OrgData转化为字符级的混合语料数据NewData;2)统计NewData中的字符,得到字符集合CharSet,将每个字符进行编号,得到字符集合CharSet对应的字符编号集合CharID;统计NewData中字符的标签,得到标签集合LabelSet,将每个标签进行编号,得到标签集合LabelSet对应的标签编号集合LabelID;3)将NewData按照句子长度对句子进行分组,得到包括n组句子的数据集合GroupData;4)随机无放回的从GroupData的某组中抽取BatchSize句数据w,以及对应的标签y,并将抽取的数据w通过CharID转换为固定长度的数据BatchData,将对应的标签通过LabelID转换为固定长度的标签yID;5)将数据BatchData及标签yID送入基于LSTM-CNN的深度学习模型,训练该深度学习模型的参数,当深度学习模型产生的损失值满足设定条件或者达到最大迭代次数N,则终止该深度学习模型的训练;否则采用步骤4)重新生成数据以训练该深度学习模型;6)将待预测的数据PreData转换成与该深度学习模型匹配的数据PreMData,并将其送入训练好的该深度学习模型,得到命名实体识别结果OrgResult。2.如权利要求1所述的方法,其特征在于,步骤1)包括:1-1)将原始混合语料数据中的数据与标签分离,并对数据的每个词语进行字符级切分;1-2)采用BMESO的标记方式对每个字符进行标记:设某个词对应的标签为Label,则位于该词语最开始的字符标记为Label_B,位于该词语中间的字符标记为Label_M,位于该词语末尾的词语标记为Label_E,若该词语只有一个字符则标记为Label_S,若该词语没有带标签或者不属于实体标签则标记为o。3.如权利要求1所述的方法,其特征在于,步骤3)中,设li表示第i句话的句子长度,则将|li-lj|<δ的句子归入一组,其中δ表示句子长度间隔。4.如权利要求1所述的方法,其特征在于,步骤4)包括:4-1)将抽取到的数据w转换成数字,也即通过CharSet与CharID的对应关系,将w中的每个字符转换成对应的数字;4-2)将抽取的数据w对应的标签y转换成数字,也即通过LabelSet与LabelID的对应关系,将y中的每个字符转换成对应的数字;4-3)假设规定长度为maxLen,当抽取到的数据句子长度l<maxLen时,将句子后面补maxLen-l个0,得到BatchData,并将w对应的标签y后面补ma...
【专利技术属性】
技术研发人员:唐华阳,岳永鹏,刘林峰,
申请(专利权)人:北京知道未来信息技术有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。