一种基于文本游戏的强化学习情感分析系统技术方案

技术编号:28499150 阅读:17 留言:0更新日期:2021-05-19 22:38
本申请涉及内在激励强化学习领域,特别涉及一种基于文本游戏的强化学习情感分析系统,包括如下模块:表示状态的文本描述模块、情绪分析模块、外部环境模块和LSTM

【技术实现步骤摘要】
一种基于文本游戏的强化学习情感分析系统


[0001]本专利技术涉及内在激励强化学习领域,具体涉及一种基于文本游戏的强化学习情感分析系统。

技术介绍

[0002]目前虽然强化学习(RL)在自然语言处理(NLP)领域取得了成功,如对话生成和基于文本的游戏,但它通常面临的问题是稀疏奖励,导致收敛速度慢或没有收敛。使用文本描述来提取状态表示的传统方法忽略了其中固有的反馈。
[0003]强化学习在处理基于文本游戏时常常面临着奖励稀疏的问题而且强化学习一直依赖于固有奖励在处理本身环境奖励稀疏的问题上存在着处理效果不好的问题。

技术实现思路

[0004]本专利技术的目的在于提供一种基于文本游戏的强化学习情感分析系统。
[0005]为实现上述目的,本专利技术提供如下技术方案:一种基于文本游戏的强化学习情感分析系统,包括:文本描述模块、情绪分析模块、外部环境模块和LSTM

DQN模型模块;
[0006]文本描述模块用于作为表示状态的文本描述的输入模块;表示状态包含积极轨迹和消极轨迹;
[0007]情绪分析模块用于分析文本描述模块中的积极轨迹和消极轨迹,生成基于情感的奖励;
[0008]外部环境模块用于给出外部环境的奖励;
[0009]LSTM

DQN模型模块用于对文本描述模块中文本描述的状态表示进行编码,使用外部环境的奖励,并从状态表示中提取基于情感的奖励作为补充。
[0010]进一步的,所述情绪分析模块中,根据文本描述的情绪将游戏轨迹划分为赢或输,学习速率在{1
×
10

6、1
×
10

5、2
×
10

5、1
×
10

4}之间变化,训练epoch数在500~1500之间变化,最终的模型以2
×
10

5的学习率训练1500个epoch;其中一个epoch就是遍历一次数据集的次数;
[0011]新智能体的奖励公式为:
[0012]r
total
=r
env
+scale
×
polarity
[0013]其中,情感分析器被假定为二进制分类器,它在[

1,1]之间输出一个连续的分数称为极性,scale为等级,polarity为极性。
[0014]进一步的,所述LSTM

DQN模型模块中,采用标准的Q

学习方程进行训练:
[0015][0016]LSTM接收作为输入的单词并生成状态表示,然后将其输入到一个计算Q分数的两层神经网络中,其中LSTM为长短期记忆网络,是一种时间循环神经网络;DQN为Deep

Q Network,融合了神经网络和Q learning的方法。
[0017]进一步的,所述表示状态的文本描述模块连接情绪分析模块,表示状态的文本描
述模块连接LSTM

DQN模型模块,LSTM

DQN模型模块连接外部环境模块。
[0018]本专利技术的技术效果如下:本专利技术通过给定状态表示的文本描述,使用LSTM对其状态表示进行编码,并将其输入Deep

Q网络(DQN),然后使用环境给出的奖励,并从状态表示中提取基于情感的奖励作为补充。通过这种方式,即使智能体中来自环境的奖励是0,也会有其他渠道的奖励供给,这会使基于情感的奖励潜在地、更快地学习。
[0019]本方案通过对基于文本游戏中的文字线索做情感分析的方法,将原本的稀疏性奖励问题转化为了稠密性奖励问题,使得强化学习在处理此类问题的性能大大提高,而且通过此框架与内在动机的框架相关性,智能体通过分析环境提供的感觉来奖励自己,并通过其内在激励进一步实现了无奖励环境下的自发学习,提高了强化学习在基于文本游戏中的表现。
附图说明
[0020]以下参考附图描述的实施例是示例性的,旨在用于解释和说明本申请,而不能理解为对本申请的保护范围的限制。
[0021]图1是本申请公开的主要步骤流程图;
[0022]图2是本申请公开的LSTM

DQN模型图。
具体实施方式
[0023]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0024]实施例
[0025]如图1所示,一种基于文本游戏的强化学习情感分析系统,包括:表示状态的文本描述模块、情绪分析模块、外部环境模块和LSTM

DQN模型模块,
[0026]所述文本描述模块用于作为表示状态的文本描述的输入模块;所述表示状态包含积极和消极轨迹;
[0027]所述情绪分析模块用于分析所述文本描述模块中的积极轨迹和消极轨迹,生成基于情感的奖励;
[0028]所述外部环境模块用于给出外部环境的奖励;
[0029]所述LSTM

DQN模型模块用于对所述文本描述模块中文本描述的状态表示进行编码,使用外部环境给出的奖励,并从状态表示中提取基于情感的奖励作为补充。
[0030]RL(强化学习)在当前状态面临多个挑战,稀疏奖励就是其中一个。因为它导致了学习缓慢,甚至有时候不收敛。假设一个智能体在一个状态空间很大的环境中学习,只有少数状态会导致奖励。从最左边开始的智能体必须在遇到奖励之前采取大量的行动。反过来,这种稀疏反馈会导致训练神经网络时产生非常嘈杂的梯度。在一些极端的场景中,一个智能体可能需要采取指数级的动作才能到达一个有奖励的子节点。
[0031]稀疏的奖励是常见的,因为它们是最直接的方式来指定一个任务需要如何解决。如果一个机器人被期望将水壶里的水倒进玻璃杯里,最简单的方法是,如果它装满了玻璃
杯,就给予1的奖励,否则的奖励是0。这种类型的奖励设计在基于文本的游戏中很常见,在这种游戏中,Agent(智能体)在到达目标状态时得到奖励,在面向任务的对话中,Agent根据任务的成功完成而得到奖励。
[0032]在本方案中,通过考察基于文本的游戏,可以发现在一定条件下,通过情感分析提供密集的奖励可以提高游戏的性能。
[0033]在下一板块的系统流程图中描述了具体的方法流程图。在给定表示状态的文本描述,使用LSTM对其状态表示进行编码,并将其输入Deep

Q Network(DQN),然后使用环境给出的奖励,并从状态表示中提取基于情感的奖励作为补充。通过这种方式,即使智能体中来自环境的奖励是0,也会有其他渠道的奖励供给,这会使基于情感的奖励潜在地、更快地本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于文本游戏的强化学习情感分析系统,其特征在于,包括:文本描述模块、情绪分析模块、外部环境模块和LSTM

DQN模型模块;文本描述模块用于作为表示状态的文本描述的输入模块;表示状态包含积极轨迹和消极轨迹;情绪分析模块用于分析文本描述模块中的积极轨迹和消极轨迹,生成基于情感的奖励;外部环境模块用于给出外部环境的奖励;LSTM

DQN模型模块用于对文本描述模块中文本描述的状态表示进行编码,使用外部环境的奖励,并从状态表示中提取基于情感的奖励作为补充。2.根据权利要求1所述的一种基于文本游戏的强化学习情感分析系统,其特征在于,所述情绪分析模块中,根据文本描述的情绪将游戏轨迹划分为赢或输,学习速率在{1
×
10

6、1
×
10

5、2
×
10

5、1
×
10

4}之间变化,训练epoch数在500~1500之间变化,最终的模型以2
×
10

5的学习率训...

【专利技术属性】
技术研发人员:潘晓光焦璐璐令狐彬宋晓晨韩丹
申请(专利权)人:山西三友和智慧信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1