法律问题关键词生成方法及其系统技术方案

技术编号:20724925 阅读:26 留言:0更新日期:2019-03-30 17:42
本发明专利技术属于自然语言处理和机器学习技术领域,涉及一种法律问题关键词生成方法,该方法包括模型训练和预测输出两个主要步骤。本发明专利技术还提供了一种法律问题关键词生成系统,该系统包括:模型训练模块和预测输出模块,其中,所述模型训练模块包括:训练集提供模块、模型训练模块以及保存模块;所述预测输出模块包括:输入与生成模块、词向量集生成模块、向量输出模块、计算模块、概率分布输出模块以及关键词输出模块。本发明专利技术具有如下有益效果:在预测输出之前,先对seq2seq模型进行训练,使得本发明专利技术可以实现抽取法律问题中不存在的关键词;在解码过程中引入强化学习,从而显著提高抽取的关键词的准确性,并添加了注意力机制,突出了学习重点。

【技术实现步骤摘要】
法律问题关键词生成方法及其系统
本专利技术属于自然语言处理和机器学习
,尤其涉及一种法律问题关键词生成方法及其系统。
技术介绍
关键词通常是一段简短的和总结性的内容,它能够描述较长文本中的主题信息。高质量的关键词能够为用户提供高度浓缩和有价值的信息。关键词抽取是自然语言处理中一个重要的任务,它在信息检索,问答系统,文本摘要和文本分类等任务上发挥着重要作用。由于关键词抽取具有重大现实意义,许多研究者已经使用不同的方法对自动关键词抽取进行了研究。由于科学出版物容易被公众获取,所以许多科学出版物数据集经常被用作关键词抽取算法的测试上。这些研究通常集中在从文档和文章中抽取关键词。这些文档的特点是一般有较长的篇幅。大多数已经存在的关键词抽取算法通常使用两个步骤来解决这个问题:第一步是将要抽取关键词的内容分为多个文本块,这些文本块作为候选关键词;第二步是对候选关键词按照对文本内容的重要性来进行排序。随着网络信息的快速发展,在微博和推特上,短文本推文逐渐成为人们的主要信息来源。如何从海量的网络短推文中快速获得所需要的关键信息变得越来越重要,一些研究人员已经开始研究如何从短文本(例如推特)中抽本文档来自技高网...

【技术保护点】
1.一种法律问题关键词生成方法,其特征在于,该方法包括如下步骤:步骤S1、模型训练;步骤S11、提供由法律问题与关键词组成的训练集;步骤S12、通过反向传播算法训练seq2seq模型;步骤S13、通过所述seq2seq模型保存计算图结构和参数;步骤S2、预测输出;步骤S21、输入包含法律问题的语句,并将所述语句进行分词,生成词集;步骤S22、将所述词集输入嵌入层,生成用于表示所述语句的词向量集;步骤S23、将所述词向量集输入基于seq2seq模型的编码器中,输出用于表示所述语句的向量输出;步骤S24、通过基于seq2seq模型的解码器接收所述向量输出,并根据所述向量输出由注意力机制计算出注意力...

【技术特征摘要】
1.一种法律问题关键词生成方法,其特征在于,该方法包括如下步骤:步骤S1、模型训练;步骤S11、提供由法律问题与关键词组成的训练集;步骤S12、通过反向传播算法训练seq2seq模型;步骤S13、通过所述seq2seq模型保存计算图结构和参数;步骤S2、预测输出;步骤S21、输入包含法律问题的语句,并将所述语句进行分词,生成词集;步骤S22、将所述词集输入嵌入层,生成用于表示所述语句的词向量集;步骤S23、将所述词向量集输入基于seq2seq模型的编码器中,输出用于表示所述语句的向量输出;步骤S24、通过基于seq2seq模型的解码器接收所述向量输出,并根据所述向量输出由注意力机制计算出注意力向量;步骤S25、根据所述向量输出和所述注意力向量输出关键词集合的概率分布,其中,所述关键词集合包含多个与法律问题对应的关键词;步骤S26、根据所述概率分布,由基于强化学习的选择器从所述关键词集合中选择概率最大值对应的关键词进行输出。2.根据权利要求1所述的法律问题关键词生成方法,其特征在于,在步骤S12中,所述seq2seq模型使用PyTorch工具在图形处理器上训练。3.一种法律问题关键词生成系统,其...

【专利技术属性】
技术研发人员:谢松县曾道建陈仲生彭立宏高辉桂林韩冰唐志峰王宁
申请(专利权)人:广州语义科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1