【技术实现步骤摘要】
一种精选文本内容确定方法和系统
本说明书涉及数据处理领域,特别涉及一种精选文本内容确定方法和系统。
技术介绍
互联网技术迅猛发展,网上信息爆炸式增长,用户为了找到自己需要的信息,可能需要花费大量的时间浏览并过滤大量无关信息。因此,如何向用户推荐众多数据中其可能感兴趣的内容,已成为本领域技术人员需要解决的主要问题。目前,对于要推荐给用户的精选文本内容,需要从海量文本中提取。需要处理的文本数据量大,且要推荐的精选文本内容要求的时效性较高。因此,需要提供一种自动确定精选文本内容的方法和系统。
技术实现思路
本说明书的一个方面提供一种精选文本内容确定方法。所述方法包括:获取文本内容;利用编码算法对所述文本内容进行编码,获得每个所述文本内容对应的句向量,计算所述句向量间的语义距离;基于所述语义距离,利用聚类算法对所述文本内容进行聚类,获得一个或多个文本内容类别;对于所述一个或多个文本内容类别中的每一个类别,利用复合评分方法对聚类后的每个文本内容进行评分,基于所述评分确定精选文本内容;所述评分包括语句质量分、 ...
【技术保护点】
1.一种精选文本内容确定方法,包括:/n获取文本内容;/n利用编码算法对所述文本内容进行编码,获得每个所述文本内容对应的句向量,计算所述句向量间的语义距离;/n基于所述语义距离,利用聚类算法对所述文本内容进行聚类,获得一个或多个文本内容类别;/n对于所述一个或多个文本内容类别中的每一个类别,利用复合评分方法对聚类后的每个文本内容进行评分,基于所述评分确定精选文本内容;/n所述评分包括语句质量分、语句新鲜度分以及语句丰富度分,所述语句质量分表示所述文本内容的语句通顺维度、语句完整维度和/或语义清晰维度,所述语句新鲜度分表示所述文本内容的时间维度,所述语句丰富度分表示所述文本内 ...
【技术特征摘要】
1.一种精选文本内容确定方法,包括:
获取文本内容;
利用编码算法对所述文本内容进行编码,获得每个所述文本内容对应的句向量,计算所述句向量间的语义距离;
基于所述语义距离,利用聚类算法对所述文本内容进行聚类,获得一个或多个文本内容类别;
对于所述一个或多个文本内容类别中的每一个类别,利用复合评分方法对聚类后的每个文本内容进行评分,基于所述评分确定精选文本内容;
所述评分包括语句质量分、语句新鲜度分以及语句丰富度分,所述语句质量分表示所述文本内容的语句通顺维度、语句完整维度和/或语义清晰维度,所述语句新鲜度分表示所述文本内容的时间维度,所述语句丰富度分表示所述文本内容携带的图片数量和/或语句长度。
2.如权利要求1所述的方法,所述计算所述句向量间的语义距离,包括:
基于所述句向量,利用余弦相似度公式计算所述句向量间的语义距离。
3.如权利要求1所述的方法,所述利用复合评分方法对聚类后的每个文本内容进行评分包括:
基于语句质量分析模型分析聚类后的文本内容,确定所述聚类后的文本内容对应的语句质量分;
基于语句新鲜度判断规则分析所述聚类后的文本内容,确定所述聚类后的文本内容对应的语句新鲜度分;
基于语句丰富度判断模型分析所述聚类后的文本内容,确定所述聚类后的文本内容对应的语句丰富度分;
对于所述语句质量分、所述语句新鲜度分及所述语句丰富度分,赋予不同权重值,基于不同分值和其对应的权重值,确定所述聚类后的文本内容的评分。
4.如权利要求3所述的方法,所述语句质量分析模型通过以下方式获得:
获取样本文本内容;
获取与所述样本文本内容相关的第一特征参数,所述第一特征参数至少包括:所述样本文本内容中的语句通顺维度、所述样本文本内容中的语句完整维度和/或所述样本文本内容中的语义清晰维度;
基于所述样本文本内容的语句通顺维度、语句完整维度和/或语义清晰维度标注所述样本文本内容对应的语句质量分;
基于所述样本文本内容的标记结果,训练第一初始模型得到所述语句质量分析模型。
5.如权利要求3所述的方法,所述基于语句新鲜度判断规则分析所述聚类后的文本内容,确定所述聚类后的文本内容对应的语句新鲜度分包括:
基于所述聚类后的文本内容中的语句产生的时间先后顺序判断所述聚类后的文本内容对应的语句新鲜度分,所述语句产生的时间越晚,所述语句新鲜度分越高。
6.如权利要求3所述的方法,所述语句丰富度判断模型通过以下方式获得:
获取样本文本内容;
获取与所述样本文本内容相关的第二特征参数,所述第二特征参数至少包括:所述样本文本内容中携带的图片数量和/或所述样本文本内容中的语句的长度;
基于所述样本文本内容中携带的图片数量和/或语句的长度标注所述样本文本内容对应的语句丰富度分;
基于所述样本文本内容的标记结果,训练第二初始模型得到所述语句丰富度判断模型。
7.如权利要求1所述的方法,所述利用复合评分方法对聚类后的每个文本内容进行评分,基于所述评分确定精选文本内容包括:
对于所述一个或多个文本内容类别中的每一个类别,基于所述评分对所述文本内容进行排序,选取每一个类别中排名靠前的文本内容作为精选文本内容。
8.如权利要求1所述的方法,还包括:
对所述文本内容进行预处理,筛除所述文本内容中语法存在明显错误的、涉及安全风险的和/或涉及推销广告的文本内容。
9.一种精选文本内容确定系统,包括:
获取模块,用于获取文本内容;
距离计算模块,用于利用编码算法对所述文本...
【专利技术属性】
技术研发人员:谢杨易,潘寅旭,陈岑,代世喆,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。