【技术实现步骤摘要】
本申请涉及数据处理,尤其涉及一种文本处理方法及相关装置。
技术介绍
1、随着互联网和信息技术的不断发展与进步,越来越多的服务通过互联网进行,越来越多的信息通过互联网传输,互联网上的文本也越来越多,互联网上文本的相似度计算是自然语言处理中的重要环节,可以用于文本分类、信息检索、聚类分析等多种任务中;文本的相似度就是比较两个文本之间的相似性,如何准确有效的计算两个文本之间的相似性是文本提供方和文本处理方式日益关注的重点。
技术实现思路
1、第一方面,本申请实施例提供了一种文本处理方法,包括:
2、获取n个文本并计算每两个文本之间的文本距离,得到文本对集合;所述文本对集合中包括m个文本对以及每个文本对的两个文本之间的文本距离;
3、基于所述文本对集合,构建文本关系图;所述文本关系图中包括文本节点和文本节点之间的连接边;所述连接边的权重反映连接的两个节点对应的文本之间的文本距离;
4、根据所述文本关系图中非关联文本对之间的路径,确定所述非关联文本对中两个文本之间
...【技术保护点】
1.一种文本处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述文本对集合,构建文本关系图,包括:
3.根据权利要求1所述的方法,其特征在于,所述预设阈值,采用如下方式计算:
4.根据权利要求3所述的方法,其特征在于,所述N个文本中包括第i个文本,i为小于或等于N的整数;所述第i个文本的文本筛选阈值,采用如下方式计算:
5.根据权利要求1所述的方法,其特征在于,所述根据所述文本关系图中非关联文本对之间的路径,确定所述非关联文本对中两个文本之间的文本相似度,包括:
6.根
...【技术特征摘要】
1.一种文本处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述文本对集合,构建文本关系图,包括:
3.根据权利要求1所述的方法,其特征在于,所述预设阈值,采用如下方式计算:
4.根据权利要求3所述的方法,其特征在于,所述n个文本中包括第i个文本,i为小于或等于n的整数;所述第i个文本的文本筛选阈值,采用如下方式计算:
5.根据权利要求1所述的方法,其特征在于,所述根据所述文本关系图中非关联文本对之间的路径,确定所述非关联文本对中两个文本之间的文本相似度,包括:
【专利技术属性】
技术研发人员:李长林,
申请(专利权)人:马上消费金融股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。