【技术实现步骤摘要】
文本关键信息提取方法与装置、电子设备、存储介质
本公开涉及自然语言处理
,尤其涉及一种文本关键信息提取方法、文本关键信息提取装置、电子设备及计算机可读存储介质。
技术介绍
关键信息提取是自然语言处理领域的基础技术,它为诸如情感分析、文本分类、智能问答系统等许多文本分析业务场景提供支撑。根据粒度不同,关键信息提取可以包括:关键词提取和摘要提取。关键信息提取是自然语言处理中较为底层的技术,其准确性和性能将直接影响着上层文本分析任务的准确率和执行效率。相关技术中,可以通过TextRank算法提取关键信息,TextRank基于Google的PageRank算法改进而来,关键词提取任务中应用较多,其优点是不需要分析全部语料,就可以提取出效果较好的关键信息。然而,通过TextRank算法提取关键词时,容易受词频影响;在短文本中应用效果不佳;并且短文本无法通过TextRank算法提取摘要。通过TextRank算法提取长文摘要时,计算量大、容易丢失关键信息。可见,现有方法提取关键信息时准确性低,计算量大。需要说 ...
【技术保护点】
1.一种文本关键信息提取方法,其特征在于,所述方法包括:/n对所获取的文本进行分句,从得到的多个子句中选取包含预设数量个目标分词的子句,所述目标分词是从所述文本中选取的关键词;/n针对所选取的每个子句,根据该子句中包含的目标分词的数量和权重,确定该子句的权重;/n对所选取的子句的权重进行从大到小排序,选取前N个子句作为所述文本的关键信息,N为正整数。/n
【技术特征摘要】
1.一种文本关键信息提取方法,其特征在于,所述方法包括:
对所获取的文本进行分句,从得到的多个子句中选取包含预设数量个目标分词的子句,所述目标分词是从所述文本中选取的关键词;
针对所选取的每个子句,根据该子句中包含的目标分词的数量和权重,确定该子句的权重;
对所选取的子句的权重进行从大到小排序,选取前N个子句作为所述文本的关键信息,N为正整数。
2.根据权利要求1所述的方法,其特征在于,所述目标分词的选取方法,包括:
对所述文本进行分词处理得到多个分词,针对每个分词,根据共现窗口确定所述多个分词中与该分词相关联的分词;
针对每个分词,确定该分词和与该分词相关联的分词之间的关联度;根据所述多个分词中相关联的分词之间的关联度,确定每个分词的权重;
对所述多个分词的权重进行从大到小排序,选取前M个分词作为所述目标分词,M为正整数。
3.根据权利要求1所述的方法,其特征在于,所述根据该子句中包含的目标分词的数量和权重,确定该子句的权重,包括:
将该子句中包含的目标分词的权重的平方之和与该子句中包含的目标分词的数量的乘积,作为该子句的权重。
4.根据权利要求1所述的方法,其特征在于,所述根据该子句中包含的目标分词的数量和权重,确定该子句的权重,包括:
对该子句中包含的目标分词的权重进行归一化处理,得到归一化权重;
将该子句中包含的目标分词的归一化权重的平方之和与该子句中包含的目标分词的数量的乘积,作为该子句的权重。
5.根据权利要求2所述的方法,其特征在于,所述确定该分词和与该分词相关联的分词之间的关联度,包括:
将该分词输入Word2vec模型,得到第一词向量;
将与该分词相关联的分词输入所述Word2vec模型,得到第二词向量;
将所述...
【专利技术属性】
技术研发人员:贺雄彪,
申请(专利权)人:泰康保险集团股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。