【技术实现步骤摘要】
一种关键词的提取方法及装置、电子设备、存储介质
本公开涉及计算机
,具体是涉及一种关键词的提取方法及装置、电子设备、存储介质。
技术介绍
笔记文本是旅游垂直领域下的一种产物,提取笔记文本的关键词可以帮助我们给笔记打标签,更好的做分发。同时提取关键词还可以帮助更好的理解笔记内容;根据关键词的权重,可以更好的获取其他信息,例如:“北京。。。真好啊,就像上海一样”。结合关键词的权重,我们可以知道主要讲解的是北京,而不会因为同时出现了“北京”,“上海”,而产生疑惑。提取的关键词还可以应用于抽摘,提取标题等其他相关任务。人们通常更关注于景点,美食,玩乐体验等方面的信息,但是因为笔记内容过于发散,基于词频或者语义相关的方法,很难提取出关键词。笔记发布的时候,除了文本内容,还包含了多张图像和poi信息。图像含有的信息量巨大且较为客观,poi信息为用户自己关联的信息,图像中信息和poi信息可以作为外部补充信息帮助我们快速的提取关键词。
技术实现思路
为了克服现有技术中存在的问题,本公开提供一种关键词的提取方 ...
【技术保护点】
1.一种关键词的提取方法,其特征在于,所述方法包括:/n获取文本信息,所述文本信息包括图像信息、文字信息、兴趣点信息、目的地信息;/n对所述文本信息中的所述图像信息进行过滤和加权处理,选择所述图像信息中占比大于第一阈值或重复率大于第二阈值的图像信息生成图像信息词;/n对所述文本信息中的所述文字信息进行过滤表情符号和分词,以及去除停用词处理,生成文字词语集;/n根据所述图像信息词、所述兴趣点信息、所述目的地信息及所述文字词语集,生成文本语义向量;/n计算所述文本信息中每个词语与所述文本语义向量的相似度,获得每个关键词的权值,按照权值从高到低提取指定数量的关键词。/n
【技术特征摘要】
1.一种关键词的提取方法,其特征在于,所述方法包括:
获取文本信息,所述文本信息包括图像信息、文字信息、兴趣点信息、目的地信息;
对所述文本信息中的所述图像信息进行过滤和加权处理,选择所述图像信息中占比大于第一阈值或重复率大于第二阈值的图像信息生成图像信息词;
对所述文本信息中的所述文字信息进行过滤表情符号和分词,以及去除停用词处理,生成文字词语集;
根据所述图像信息词、所述兴趣点信息、所述目的地信息及所述文字词语集,生成文本语义向量;
计算所述文本信息中每个词语与所述文本语义向量的相似度,获得每个关键词的权值,按照权值从高到低提取指定数量的关键词。
2.根据权利要求1所述的方法,其特征在于,所述对所述文本信息中的所述图像信息进行过滤和加权处理,选择图像中占比大于第一阈值或重复率大于第二阈值的图像生成图像信息词,包括:
过滤所述图像信息中的自拍照图像;
根据像素占比对所述图像信息评分,对分数进行归一化加权处理,分数限制在0-1之间。
3.根据权利要求2所述的方法,其特征在于,所述对所述文本信息中的所述图像信息进行过滤和加权处理,选择所述图像信息中占比大于第一阈值或重复率大于第二阈值的图像信息生成图像信息词,包括:
预先设置第一阈值,选择所述图像信息中占比大于所述第一阈值的图像信息生成图像信息词;
或者,预先设置第二阈值,选择所述图像信息中重复率大于所述第二阈值的图像信息生成图像信息词。
4.根据权利要求1所述的方法,其特征在于,所述计算所述文本信息中每个词语与所述文本语义向量的相似度,获得每个关键词的权值,包括:
分别计算所述文本信息中的每个词语与所述图像信息词、所述兴趣点信息的加权平均语义相似度,得到图像相似度、兴趣点相似度;
对于所述文本信息中的每个词语,计算所述图像相似度和所述兴趣点相似度的综合相似度,作为词语与所述文本语义向量的相似度;
结合每个词语的综合相似度,以及文本语义向量的相似度,获得每个关键词的权值。
5.根据权利要求4所述的方法,其特征在于,所述结合每个词语的综合相似度,以及...
【专利技术属性】
技术研发人员:乔利娜,
申请(专利权)人:北京创鑫旅程网络技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。