当前位置: 首页 > 专利查询>中山大学专利>正文

一种面向在线问答平台的基于深度强化学习的问题标注方法技术

技术编号:21034412 阅读:32 留言:0更新日期:2019-05-04 05:28
本发明专利技术公开了一种面向在线问答平台的基于深度强化学习的问题标注方法,基于深度神经网络和强化学习技术,构建模型,并在设计模型奖励的时候,在保证标注准确性的同时,创新性地加入衡量问题标签多样性的指标,同时考虑到尾标签效应,即在标注时复杂详细描述的长标签,从而使得标签能更深层次,更详细地描述问题。本发明专利技术综合考虑的标签的准确性,多样性,以及减少尾标签效应对问题标注的影响,并通过引入深度神经网络提高了强化学习模型训练的效率和准确性,并且能在一定置信度下保证匹配的误差范围。本发明专利技术的方案将能对问答平台中海量和问题和标签进行准确多样的匹配。

【技术实现步骤摘要】
一种面向在线问答平台的基于深度强化学习的问题标注方法
本专利技术属于自然语言处理领域,更具体地,涉及一种面向在线问答平台的基于深度强化学习的问题标注方法。
技术介绍
随着Web2.0的发展,Quora1和知乎等社交问答(sQA)网站的发展越来越重要。一方面,类似于基于社区的问答(cQA)网站,它们包括提问的机制,发布答案问题的平台,以及围绕这些信息建立的社区。另一方面,sQA网站突出社交信息,尤其是主题标签之间的联系。例如,在知乎中,用户必须为他们的问题分配至少一个主题标签,并且他们能够遵循他们感兴趣的主题标签,这反过来有益于基于主题的问题路由和浏览。鉴于此,自动为新发布的问题提供正确的主题标签是加强用户体验和内容分发效率的关键。现有的解决问题标签的任务在技术上主要可以分为两类:基于规则模型和数据驱动模型。前者通常将此问题标记任务视为给定问题与每个候选主题之间的匹配问题。为了估计相似性,手动设计了大量模板和规则,这将耗费大量的人工劳力。至于数据驱动的问题,他们将此任务表述为分类问题,例如char-ConvolutionalNeuralNetwork(cCNN)和深层次CNN。他们尝试本文档来自技高网...

【技术保护点】
1.一种面向在线问答平台的基于深度强化学习的问题标注方法,其特征在于,包括以下步骤:S1:利用MDP马尔科夫决策过程对问题构建Q‑learning强化学习模型;S2:搭建深度神经网络优化训练Q值;所述的Q值表示Q‑learning强化学习模型中在状态s动作后获取的得分奖励;S3:利用训练集训练深度强化学习模型;S4:根据深度强化学习模型输出结果对问题进行标签标注。

【技术特征摘要】
1.一种面向在线问答平台的基于深度强化学习的问题标注方法,其特征在于,包括以下步骤:S1:利用MDP马尔科夫决策过程对问题构建Q-learning强化学习模型;S2:搭建深度神经网络优化训练Q值;所述的Q值表示Q-learning强化学习模型中在状态s动作后获取的得分奖励;S3:利用训练集训练深度强化学习模型;S4:根据深度强化学习模型输出结果对问题进行标签标注。2.根据权利要求1所述的问题标注方法,其特征在于,所述的S1中的MDP马尔科夫决策过程定义为Μ=<S,A,R,P,γ>,其中,所述的S表示问题以及其当前所标注的标签的集合,通过下式进行表达:S={Q,i0,i1...it}式中,所述的t表示当前的状态值,所述的t-1表示上一个状态;所述的Q表示需要打标签的问题,所述的i表示问题对应的标签;所述的A表示空间,指动作at针对智能体的策略π所做出的一个推荐的标签,π是St到at的一个映射,且每次动作推荐一个标签;所述的P表示了概率转移矩阵,指智能体采取了at动作以后,从St转移到St+1的概率,所述的智能体表示强化学习的算法主体;所述的R表示奖励函数,指智能体在st采取了一个动作at以后,对标签多样性的评价函数;所述的γ表示未来动作所得到的奖励对当前状态值的影响程度。3.根据权利要求2所述的问题标注方法,其特征在于,所述的R通过下式进行表达:式中,所述的f(it)对应的是NDCG值,通过下式进行表达:所述的rel是该标签的相关性值,所述的i表示标签所在的当前位置大的序号,所述的k为智能体的参考的标签数量,所述的m表示标签所在的当前位置序号;所述的τ(it)对应的是α-NDCG值,是NDCG值的变形,表示标签如果含有新发现的子话题,则α-NDCG值增加;如果含有无关的子话题则α-NDCG值降低,所述的τ(it)通过下式进行表达:所述的NG(i)表示智能体提供的第i个标签所能获得的多样性评估得分,所述的α为影响系数,所述的NG*(i)标签i在理想情况下的最优得分值。4.根据权利要求1至3中任一权利要求所述的问题标注方法,其特征在于,所述的Q值通表示在状态s采取动作后能获取的期望得分奖励,所述的μ是Q-learning过程中的学习率,所述的是智能体模拟的下个动作能得到的最大得分值。5.根据权利要求4所述的问题标注方法,其特征在于,所述的S2包...

【专利技术属性】
技术研发人员:兰秉良
申请(专利权)人:中山大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1