当前位置: 首页 > 专利查询>延边大学专利>正文

一种基于语句甄别识别和强化学习动作设计的语言处理方法和系统技术方案

技术编号:28125991 阅读:35 留言:0更新日期:2021-04-19 11:40
本申请公开了一种基于语句甄别识别和强化学习动作设计的语言处理方法和系统,包括构建核心结构网络、语句结构化优化分类处理和最优化文本结构采样判定。本发明专利技术提出了识别重要单词的语句强化学习动作设计模块,与识别重要结构的设计模块来构建结构化表示。引入注意力机制后能够更好的覆盖到短语的关注度,注意力机制能够辅助强化学习更快地拟合,可以提升学习效率。习效率。习效率。

【技术实现步骤摘要】
一种基于语句甄别识别和强化学习动作设计的语言处理方法和系统


[0001]本申请涉及语言处理
,具体而言,涉及一种基于语句甄别识别和强化学习动作设计的语言处理方法和系统。

技术介绍

[0002]主要研究集中在面向自然语言处理的语言学研究方面,主要包括朝文文字的构成特点和形态特征、句法结构特点和构造规则及语义表达形式等,同时也对机器翻译、信息检索等技术有所涉及。
[0003]近年来语言文本的语料库语言学发展迅速,并且依据相关理论知识构建了生语料库、标记语料库,进而通过语料库获得形态知识、词性知识、句法知识和语义知识。
[0004]国内语言文本语正音正字法及相关语言文本语言文字规范制定科学合理的语言文本文信息。在语料库加工和规范方面,首先进行了总体规划,制定了统一的数据格式和编码标准,并根据中国语言文本语的特点开发了词性自动标注系统,实现了文本语料库的词性标注加工。从自主创新的角度来看,掌握相关信息技术的自主知识产权不仅符合我们国家未来的政治、军事战略,并且利用这些技术可以有效地推动相关产业的发展,进而创造出巨大的经济效益。因此,我们有必要加大对这方面研究探索的投入,大力推进我国语言文本语信息处理建设,争取用最短的时间达到并赶超世界水平。
[0005]对语言文本语自然语言处理的研究当前停留在使用词袋模块或传统神经网络的序列模块方式进行文本分类,算法的单纯叠加,或只在词嵌入的角度优化,并不能对语言文本语言文字资源进行有效的管理、挖掘与利用,无法满足语言文本语言文字信息化和智能化处理的需求。/>[0006]在文本结构化的方面,在少数民族语言信息处理领域,目前并没有对语言文本语进行表征学习的研究,本专利技术给出了解决语言文本语数据处理的一种基于语句甄别识别和强化学习动作设计的语言处理方法和系统新的处理方式,此方法适用于大多数后续的下游任务,在文本分类、情感分析、情绪转换、问答系统、推荐系统等等领域具有进一步深入研究和应用的价值。
[0007]此外,国内在语言文本语自然语言处理研究方面还属于发展阶段,相关研究相对于韩国乃至语言文本还比较滞后,语言文本语语言资源建设方面还没有统一的规划和布局,没有相关的系列标准,使得各家的资源很难融合,这就限制了相关研究的进一步深化。在语言文本语信息处理领域,韩国的许多研究都要比中国领先,从知识产权及夺取信息优势的角度来看,语言文本语属于尚未深入研究的少数民族语言。
[0008]因此,如何在没有显式结构注释的情况下有效地发现语言文本语句子的结构是目前亟需解决的技术问题。

技术实现思路

[0009]本申请的主要目的在于提供一种基于语句甄别识别和强化学习动作设计的语言处理方法和系统,以解决目前的问题。
[0010]为了实现上述目的,本申请提供了如下技术:
[0011]本专利技术第一方面在于提出一种基于语句甄别识别和强化学习动作设计的语言处理方法,包括如下步骤,
[0012]S1、构建核心结构网络:基于强化学习模块而构建核心结构网络,通过所述核心结构网络而使得预处理文本结构生成动作序列;所述核心结构网络包括为:策略梯度网络、结构化表示模块和分类网络;
[0013]S2、语句结构化优化分类处理:对所述预处理文本结构进行关键词提取,利用关键词将生成的所述动作序列结构化处理,输入所述核心结构网络进行迭代而获取最优化文本结构;
[0014]S3、最优化文本结构采样判定:基于预处理文本结构的层次结构,于最优化文本结构每一处单词设定判定动作并进行采样,采样后更新文本结构而再次迭代,输出分类文本结构。
[0015]优选地,在步骤S1中,所述通过所述核心结构网络而使得预处理文本结构生成动作序列,包括:
[0016]所述策略梯度网络采取随机策略对每个状态对应的动作进行抽样,为当前句子生成一个动作序列;
[0017]所述结构化表示模块将动作序列转化为结构化表示;
[0018]所述分类网络基于得到的结构化表示进行分类,并为策略梯度网络提供函数计算。
[0019]优选地,在步骤S2中,所述对所述预处理文本结构进行关键词提取,利用关键词将生成的所述动作序列结构化处理,输入所述核心结构网络进行迭代而获取最优化文本结构,具体包括:
[0020]在预处理文本结构中选择一处核心语句作为核心文本词句;
[0021]将核心文本词句传入策略梯度网络,通过所述核心结构网络生成动作序列,将获取到的动作序列传入结构化表示表示模块,构建新的文本表示结构;
[0022]将更新的文本表示结构传入分类网络,得到优化结构后的分类准确率,使模块反复迭代至最优。
[0023]优选地,在步骤S1中,在所述对所述预处理文本结构进行关键词提取后,还包括文本结构词句甄别识别,具体为:
[0024]对所述预处理文本结构进行关联识别,识别与任务相关的中心单词,提取所述中心单词而作为关键词;
[0025]利用所述关键词将生成的所述动作序列结构化处理。
[0026]优选地,在步骤S3中,所述于最优化文本结构每一处单词设定判定动作并进行采样时,需要进行语句强化学习动作设计,具体为:
[0027]基于注意力机制而使得短语结构以形成分层的句子表示,将动作转化为句子的层次结构表示,构成新划分的结构或片段;
[0028]通过对每个单词位置设置相应的判定动作实现采样,判断单词在短语结构的内部还是结尾。
[0029]本专利技术第二方面在于提出一种基于语句甄别识别和强化学习动作设计的语言处理系统,包括核心结构网络构建模块、语句结构化优化分类处理模块和最优化文本结构采样判定模块,其中,
[0030]所述核心结构网络构建模块:用于基于强化学习模块而构建核心结构网络,通过所述核心结构网络而使得预处理文本结构生成动作序列;所述核心结构网络包括为:策略梯度网络模块、结构化表示模块和分类网络;
[0031]所述语句结构化优化分类处理模块:用于对所述预处理文本结构进行关键词提取,利用关键词将生成的所述动作序列结构化处理,输入所述核心结构网络进行迭代而获取最优化文本结构;
[0032]所述最优化文本结构采样判定模块:用于基于预处理文本结构的层次结构,于最优化文本结构每一处单词设定判定动作并进行采样,采样后更新文本结构而再次迭代,输出分类文本结构。
[0033]优选地,所述核心结构网络构建模块包括:
[0034]动作序列生成模块:用于通过所述策略梯度网络采取随机策略对每个状态对应的动作进行抽样,为当前句子生成一个动作序列;
[0035]结构化表示模块:用于通过所述结构化表示模块将动作序列转化为结构化表示;
[0036]结构化分类模块:用于通过所述分类网络基于得到的结构化表示进行分类,并为策略梯度网络提供函数计算。
[0037]优选地,所述语句结构化优化分类处理模块包括:
[0038]核心文本词句提取模块:用于在预处理文本结构中选择一处核心语句作为核心文本词句;<本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于语句甄别识别和强化学习动作设计的语言处理方法,其特征在于,包括如下步骤,S1、构建核心结构网络:基于强化学习模块而构建核心结构网络,通过所述核心结构网络而使得预处理文本结构生成动作序列;所述核心结构网络包括为:策略梯度网络、结构化表示模块和分类网络;S2、语句结构化优化分类处理:对所述预处理文本结构进行关键词提取,利用关键词将生成的所述动作序列结构化处理,输入所述核心结构网络进行迭代而获取最优化文本结构;S3、最优化文本结构采样判定:基于预处理文本结构的层次结构,于最优化文本结构每一处单词设定判定动作并进行采样,采样后更新文本结构而再次迭代,输出分类文本结构。2.如权利要求1所述的一种基于语句甄别识别和强化学习动作设计的语言处理方法,其特征在于,在步骤S1中,所述通过所述核心结构网络而使得预处理文本结构生成动作序列,包括:所述策略梯度网络采取随机策略对每个状态对应的动作进行抽样,为当前句子生成一个动作序列;所述结构化表示模块将动作序列转化为结构化表示;所述分类网络基于得到的结构化表示进行分类,并为策略梯度网络提供函数计算。3.如权利要求1所述的一种基于语句甄别识别和强化学习动作设计的语言处理方法,其特征在于,在步骤S2中,所述对所述预处理文本结构进行关键词提取,利用关键词将生成的所述动作序列结构化处理,输入所述核心结构网络进行迭代而获取最优化文本结构,具体包括:在预处理文本结构中选择一处核心语句作为核心文本词句;将核心文本词句传入策略梯度网络,通过所述核心结构网络生成动作序列,将获取到的动作序列传入结构化表示表示模块,构建新的文本表示结构;将更新的文本表示结构传入分类网络,得到优化结构后的分类准确率,使模块反复迭代至最优。4.如权利要求1所述的一种基于语句甄别识别和强化学习动作设计的语言处理方法,其特征在于,在步骤S1中,在所述对所述预处理文本结构进行关键词提取后,还包括文本结构词句甄别识别,具体为:对所述预处理文本结构进行关联识别,识别与任务相关的中心单词,提取所述中心单词而作为关键词;利用所述关键词将生成的所述动作序列结构化处理。5.如权利要求1所述的一种基于语句甄别识别和强化学习动作设计的语言处理方法,其特征在于,在步骤S3中,所述于最优化文本结构每一处单词设定判定动作并进行采样时,需要进行语句强化学习动作设计,具体为:基于注意力机制而使得短语结构以形成分层的句子表示,将动作序列转化为句子的层次结构表示,构成新划分的结构或片段;通过对每个单词位置设置相应的判定动作实现采样,判断单词在短语结构的内部还是结尾。
6.一种基于语句甄别识别和强化学习动...

【专利技术属性】
技术研发人员:赵亚慧杨飞扬崔荣一金晶李飞雨姜克鑫高君龙崔东虎
申请(专利权)人:延边大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1