【技术实现步骤摘要】
一种基于BBLC模型的旅游命名实体识别方法
本专利技术属于语义识别
,涉及一种基于BBLC模型的旅游命名实体识别方法。
技术介绍
随着旅游业的兴起,旅游数据的体量变得越来越大。在丰富领域的同时,海量数据造成的信息获取复杂度极大地降低了人们获取信息的效率。短时间获取更多的有用旅游信息成为了大数据时代旅游的重要需求。现有旅游网站的大量结构化信息为人们提供了极大的便利,但还有更多的、更能体现用户的趋向性的信息存在于游记、攻略、评论等文本中,所以从非结构化文本中抽取有用信息是研究的重点,其本质是要求提升中文旅游领域命名实体识别的效率。命名实体识别(namedentityrecognition,NER)是自然语言处理的一项基本任务,它的目标是准确识别文本中的信息。位置名称、组织名称、有意义的日期等等,从而为信息提取等自然语言处理任务提供实用信息、信息检索、机器翻译、实体协同参考解决方案、问答系统、主题发现、主题跟踪等。最早由美国国防高级研究计划局(DARPA)资助的新闻理解会议(MessageUnderstandingConfe ...
【技术保护点】
1.一种基于BBLC模型的旅游命名实体识别方法,其特征在于,包括如下步骤:/n步骤一、对语料库中的语句进行BIO标注,获得BIO标注集;/n步骤二、BIO标注集输入至BERT预训练语言模型,输出语句中每个字的向量表示,即每个语句中的字嵌入序列(x
【技术特征摘要】
1.一种基于BBLC模型的旅游命名实体识别方法,其特征在于,包括如下步骤:
步骤一、对语料库中的语句进行BIO标注,获得BIO标注集;
步骤二、BIO标注集输入至BERT预训练语言模型,输出语句中每个字的向量表示,即每个语句中的字嵌入序列(x1,x2,…,xn);
步骤三、将字嵌入序列(x1,x2,…,xn)作为双向LSTM各个时间步的输入,进行进一步语义编码,输出隐状态序列,然后接入一个线性层,将隐状态序列映射到k维,获得语句特征矩阵P=(p1,p2,...,pn)∈Rn*k,其中k是BIO标注集的标签数,pi∈Rk的每一维pij为字xi分类到第j个标签的概率值;
步骤四、将语句特征矩阵P=(p1,p2,...,pn)∈Rn*k作为CRF模型的输入,对语句x进行标注解码,得到语句x的字标签序列y=(y1,y2,...,yn),输出语句x的标签等于y的概率值:
其中,Aij为每个字从第i个标签到第j个标签的(k+2)×(k+2)维的转移矩阵,表示语句x中所有字标签转移的概率;使用动态规划的...
【专利技术属性】
技术研发人员:薛乐义,曹菡,李鹏,
申请(专利权)人:陕西师范大学,
类型:发明
国别省市:陕西;61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。