基于Bi‑LSTM和CRF的文本序列标注系统及方法技术方案

技术编号:17109851 阅读:47 留言:0更新日期:2018-01-24 22:29
本发明专利技术公开了基于Bi‑LSTM和CRF的文本序列标注系统及方法,系统包括学习模块和标注模块,标注模块包括分词模块、语料标注模块和调优模块,语料标注模块包括词性标注模块和实体识别模块;方法为将获取的语料进行预处理,将预处理后的语料输入预设的学习模型,调整学习模型的参数并保存,根据学习模型输出的序列分类结果为语料分别添加对应的预测标签,对于未知语料,进行分词,利用调整后的学习模型对分词后的未知语料进行初次标注,将初次标注的未知语料进行调优,对调优后的语料进行最终标注;本发明专利技术使用户可以根据需求对词库进行调整,具有人机交互调整的功能,实现同一领域自动标注,不同领域半自动标注过程,提升效率,降低成本。

The sequence of Bi LSTM and CRF text annotation system and method based on

The invention discloses a sequence of Bi LSTM and CRF text annotation system and method based on the system, including learning module and tagging module, tagging module including word segmentation module, corpus annotation module and optimization module, corpus annotation module includes POS tagging module and entity recognition module; the method for data preprocessing, learning model after the pretreatment of the data input preset, adjust the learning model parameters according to the sequence of classification learning and save the output of the model data were added to predicted labels corresponding to the word for the first time, unknown corpus, annotation of unknown data after word segmentation using learning model after adjustment, the unknown initial tagging of corpus on the optimal tuning, after the final corpus annotation; the user can adjust according to the needs of the lexicon, with It has the function of interactive adjustment, realizing automatic annotation in the same field, semi-automatic marking process in different fields, improving efficiency and reducing cost.

【技术实现步骤摘要】
基于Bi-LSTM和CRF的文本序列标注系统及方法
本专利技术涉及信息
,具体的说是基于Bi-LSTM和CRF的文本序列标注系统及方法。
技术介绍
随着互联网、移动互联网以及大数据技术的发展,各种文本数据资源的规模呈现爆炸式增长,主要包括社交媒体(例如微博号、公众号、Facebook、Twitter等)和新闻媒体(例如人民日报、凤凰新闻、搜狐新闻等)网站上的非结构化数据,以及百度百科和维基百科等百科网站上的半结构化数据,自然语言处理(NaturalLanguageProcessing,NLP)在文本信息提取过程中扮演非常重要的角色。文本挖掘过程中,如何在海量文本数据中提取出有用信息,对企业或者用户都是很有价值的。序列标注是一种最基础也是最常用的NLP方法。如何快速有效的预知中文序列中每个词语对应的标签(比如,名词,人名,地名,时间等),对于关系挖掘,知识图谱等重要人工智能任务具有重要作用。目前的中文序列标注在应用中主要存在如下四个问题:第一,中文分词效果不太好,比如人名“王保全”,如果事先没有人名库或者特殊处理(正则化或者其他语法处理),人名就会被分词成“王”和“保全”。这样由本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/55/201710828497.html" title="基于Bi‑LSTM和CRF的文本序列标注系统及方法原文来自X技术">基于Bi‑LSTM和CRF的文本序列标注系统及方法</a>

【技术保护点】
基于Bi‑LSTM和CRF的文本序列标注系统,包括:学习模块和标注模块,其特征在于,所述学习模块,用于将获取的语料输入预设的学习模型,根据学习模型输出的序列分类结果为获取的语料分别添加对应的预测标签,利用人工标签对学习模型的损失函数进行最小化优化来拟合预测标签与人工标签的匹配,并将匹配后的分类标签内的语料提供给所述标注模块;所述标注模块包括分词模块、语料标注模块和调优模块,所述语料标注模块包括词性标注模块和实体识别模块,所述词性标注模块和实体识别模块分别对应于至少一种类型的语料分类结果;其中,所述学习模型包括Bi‑LSTM模型和CRF模型,所述Bi‑LSTM模型和CRF模型用于将产生的新的序列...

【技术特征摘要】
1.基于Bi-LSTM和CRF的文本序列标注系统,包括:学习模块和标注模块,其特征在于,所述学习模块,用于将获取的语料输入预设的学习模型,根据学习模型输出的序列分类结果为获取的语料分别添加对应的预测标签,利用人工标签对学习模型的损失函数进行最小化优化来拟合预测标签与人工标签的匹配,并将匹配后的分类标签内的语料提供给所述标注模块;所述标注模块包括分词模块、语料标注模块和调优模块,所述语料标注模块包括词性标注模块和实体识别模块,所述词性标注模块和实体识别模块分别对应于至少一种类型的语料分类结果;其中,所述学习模型包括Bi-LSTM模型和CRF模型,所述Bi-LSTM模型和CRF模型用于将产生的新的序列作为下一层的输入;所述分词模块,利用分词算法将未知语料进行分类,利用匹配后的分类标签内的语料进行预测,分发给对应的语料标注模块;所述语料标注模块,用于对分词模块分发的语料进行标注;所述调优模块,用于根据分词模块的预测结果对分词模块的分词效果的调优和对语料标注模块的调优。2.根据权利要求1所述的基于Bi-LSTM和CRF的文本序列标注系统,其特征在于,所述Bi-LSTM模型和CRF模型具体用于:将相邻LSTM层产生的两个序列组成为一个新的序列,把新的序列作为下一层的输入。3.根据权利要求1所述的基于Bi-LSTM和CRF的文本序列标注系统,其特征在于,所述分词模块利用分词算法进行分词。4.根据权利要求3所述的基于Bi-LSTM和CRF的文本序列标注系统,其特征在于,所述分词模块利用的分词算法为结巴分词。5.根据权利要求1所述的基于Bi-LSTM和CRF的文本序列标注系统,其特征在于,所述语料标注模块...

【专利技术属性】
技术研发人员:金勇吴兵朱阳光李力
申请(专利权)人:武汉烽火普天信息技术有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1