【技术实现步骤摘要】
一种文本处理方法、装置、电子设备及存储介质
[0001]本专利技术涉及数据处理
,尤其涉及一种文本处理方法
、
装置
、
电子设备及存储介质
。
技术介绍
[0002]随着网络信息服务和计算机技术的迅速发展和普及,大量结构化和非结构化数据应运而生,尤其是以文本等为代表的非结构化数据,人们力图从海量数据中提取出有效
、
简洁
、
精炼和易于理解的知识,即,文本摘要
。
[0003]目前,实现文本摘要的方式一般为基于机器学习的抽取式摘要方法,基于传统机器学习的方法以监督学习为主,一般是通过对原文中的句子进行标注,将句子分为摘要句或非摘要句,然后利用机器学习模型对原文中的句子进行分类,最终将分类后的摘要句组合成为摘要
。
[0004]然而,利用机器学习的方式实现文本摘要,需要对大量训练集进行人工标注,人力成本较高
。
技术实现思路
[0005]为了解决上述技术问题或者至少部分地解决上述技术问题,本专 ...
【技术保护点】
【技术特征摘要】
1.
一种文本处理方法,其特征在于,所述方法包括:获取待处理文本;对所述待处理文本进行分句处理,得到所述待处理文本对应的至少一个句子,以及,针对至少一个所述句子中的任一句子,确定所述句子对应的句子向量;基于至少一个所述句子对应的句子向量确定所述待处理文本对应的类中心向量,所述类中心向量用于表征所述待处理文本的中心思想;基于所述类中心向量和至少一个所述句子对应的句子向量确定目标文本,所述目标文本为所述待处理文本对应的摘要内容
。2.
根据权利要求1所述的方法,其特征在于,所述方法还包括:针对至少一个所述句子中的任一句子,对所述句子进行标注,得到所述句子对应的标注信息,所述标注信息包括所述句子对应的权重和在所述待处理文本中的位置;所述基于所述类中心向量和至少一个所述句子对应的句子向量确定目标文本,包括:针对至少一个所述句子中的任一句子,基于所述标注信息确定所述句子对应的权重和所述句子在所述待处理文本中的位置,以及,确定所述句子对应的句子向量与所述类中心向量之间的距离;将所述距离和所述权重的乘积,作为所述句子对应的分数;将所述分数处于预设范围的句子确定为目标句子,并按照所述目标句子对应的位置组合所述目标句子,得到所述目标文本
。3.
根据权利要求1所述的方法,其特征在于,所述基于至少一个所述句子对应的句子向量确定所述待处理文本对应的类中心向量,包括:确定所述待处理文本的聚类中心个数
K
,并将至少一个所述句子对应的句子向量输入至
K
‑
means
模型中,以使所述
K
‑
means
模型输出
K
个类簇,针对每个类簇,确定所述类簇对应的所有向量的向量均值,将所述向量均值作为所述类簇的类中心向量
。4.
根据权利要求1所述的方法,其特征在于,所述确定所述句子对应的句子向量,包括:针对至少一个所述句子中的任一句子,利用自然语言处理工具包对所述句子进行预处理,得到所述句子对...
【专利技术属性】
技术研发人员:刘启明,
申请(专利权)人:北京国双科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。