【技术实现步骤摘要】
一种主题约束表示的关键词抽取方法及装置
[0001]本专利技术涉及自然语言处理领域,尤其涉及基于预训练语言模型的关键词抽取方法和系统。
技术介绍
[0002]如何完成有监督的关键词抽取任务,给定一个文本,从文本中抽取多个关键词,是当前机器学习领域中需要解决的问题。
[0003]现有方法使用Bi
‑
LSTM
‑
CRF用序列标注的方法来判断每一个字是否是关键词的一部分。然而一方面现有方法针对单个字进行分类,只考虑了局部上下文,忽略了文档的主题信息;另一方面直接将序列标注的结果作为关键词,生成的关键词数量少,效果差,导致关键词抽取效果的准确率和召回率较低。
技术实现思路
[0004]本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。
[0005]为此,本专利技术的目的在于提出一种主题约束表示的关键词抽取方法,用于解决现有的关键词抽取方法主题性不强,准确度不高,抽取结果不理想的问题。
[0006]为达上述目的,本专利技术第一方面实施例提出了一种主题 ...
【技术保护点】
【技术特征摘要】
1.一种主题约束表示的关键词抽取方法,其特征在于,包括以下步骤:获取目标文本并对所述目标文本进行预处理,获得字序列;将所述字序列输入到预训练语言模型,获得所述目标文本中每个字向量和文本主题向量;计算所述每个字向量与所述文本主题向量的相似度,得到相似性权重,根据所述相似性权重获得每个字的主题约束表示向量;将所述主题约束表示向量输入到序列标注分类器,得到每个字对应各个标签的概率;对所述目标文本进行滑动窗口采样,获取所有的候选词语,根据所述每个字对应各个标签的概率对所述候选词语进行排序,选择排序后的候选词语获得目标关键词。2.根据权利要求1所述的方法,其特征在于,所述对所述目标文本进行预处理,包括:将所述目标文本过滤掉特殊的字符,并进行分词获得字序列;构建序列标注的标签,其中,预先定义标签的种类,所述标签的种类包括非关键词,关键词中第一个字,关键词内部的字,关键词最后的一个字,长度为1的关键词中的一种或多种。3.根据权利要求1所述的方法,其特征在于,所述将所述字序列输入到预训练语言模型,获得所述目标文本中每个字向量和文本主题向量,包括:将z作为预训练语言模型的输入,,其中,x代表单篇输入文本,表示连续的前缀提示;是预训练语言模型的隐藏层第i个向量,,其中,i表示输入z中第i个字的下标,表示输入的第i个字,表示第i个字之前所有的输入的隐藏层向量,表示前缀提示的下标序列,矩阵存储前缀提示;LM表示预训练语言模型,表示预训练语言模型的参数,表示前缀提示的参数,其中参数是固定的,只训练参数;所述目标文本中的每个字向量表示为:,所述目标文本的主题向量是全部字向量的平均池化。4.根据权利要求1所述的方法,其特征在于,所述序列标注分类器是3层的多层感知机,用于判断每个字对应各个...
【专利技术属性】
技术研发人员:赵姝,邹春晖,孙洋,程远方,方铿懿,陈洁,段震,
申请(专利权)人:安徽大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。