一种基于BBLC模型的旅游命名实体识别方法技术

技术编号:24576538 阅读:71 留言:0更新日期:2020-06-21 00:27
本发明专利技术公开的一种基于BBLC模型的旅游命名实体识别方法,包括对语料库中的语句进行BIO标注,获得BIO标注集;BIO标注集输入至BERT预训练语言模型,输出语句中每个字的向量表示,即每个语句中的字嵌入序列;步骤三、将字嵌入序列作为双向LSTM各个时间步的输入,进行进一步语义编码,获得语句特征矩阵;将语句特征矩阵作为CRF模型的输入,对语句x进行标注解码,得到语句x的字标签序列,输出语句x的标签等于y的概率值,使用动态规划的Viterbi算法来求解最优路径,输出概率最大标签序列。本发明专利技术通过添加BERT预训练语言模型可以获得局部上下文信息,准确率、召回率和F值更高,泛化能力和鲁棒性更强,有助于弥补传统模型的不足。

A method of tourism named entity recognition based on bblc model

【技术实现步骤摘要】
一种基于BBLC模型的旅游命名实体识别方法
本专利技术属于语义识别
,涉及一种基于BBLC模型的旅游命名实体识别方法。
技术介绍
随着旅游业的兴起,旅游数据的体量变得越来越大。在丰富领域的同时,海量数据造成的信息获取复杂度极大地降低了人们获取信息的效率。短时间获取更多的有用旅游信息成为了大数据时代旅游的重要需求。现有旅游网站的大量结构化信息为人们提供了极大的便利,但还有更多的、更能体现用户的趋向性的信息存在于游记、攻略、评论等文本中,所以从非结构化文本中抽取有用信息是研究的重点,其本质是要求提升中文旅游领域命名实体识别的效率。命名实体识别(namedentityrecognition,NER)是自然语言处理的一项基本任务,它的目标是准确识别文本中的信息。位置名称、组织名称、有意义的日期等等,从而为信息提取等自然语言处理任务提供实用信息、信息检索、机器翻译、实体协同参考解决方案、问答系统、主题发现、主题跟踪等。最早由美国国防高级研究计划局(DARPA)资助的新闻理解会议(MessageUnderstandingConference,MUC)本文档来自技高网...

【技术保护点】
1.一种基于BBLC模型的旅游命名实体识别方法,其特征在于,包括如下步骤:/n步骤一、对语料库中的语句进行BIO标注,获得BIO标注集;/n步骤二、BIO标注集输入至BERT预训练语言模型,输出语句中每个字的向量表示,即每个语句中的字嵌入序列(x

【技术特征摘要】
1.一种基于BBLC模型的旅游命名实体识别方法,其特征在于,包括如下步骤:
步骤一、对语料库中的语句进行BIO标注,获得BIO标注集;
步骤二、BIO标注集输入至BERT预训练语言模型,输出语句中每个字的向量表示,即每个语句中的字嵌入序列(x1,x2,…,xn);
步骤三、将字嵌入序列(x1,x2,…,xn)作为双向LSTM各个时间步的输入,进行进一步语义编码,输出隐状态序列,然后接入一个线性层,将隐状态序列映射到k维,获得语句特征矩阵P=(p1,p2,...,pn)∈Rn*k,其中k是BIO标注集的标签数,pi∈Rk的每一维pij为字xi分类到第j个标签的概率值;
步骤四、将语句特征矩阵P=(p1,p2,...,pn)∈Rn*k作为CRF模型的输入,对语句x进行标注解码,得到语句x的字标签序列y=(y1,y2,...,yn),输出语句x的标签等于y的概率值:



其中,Aij为每个字从第i个标签到第j个标签的(k+2)×(k+2)维的转移矩阵,表示语句x中所有字标签转移的概率;使用动态规划的...

【专利技术属性】
技术研发人员:薛乐义曹菡李鹏
申请(专利权)人:陕西师范大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1