【技术实现步骤摘要】
基于多路召回和ESIM精排的表格相关性推荐方法
[0001]本专利技术主要涉及文本内容相似度以及自然语言处理的推荐算法领域。
技术介绍
[0002]现有技术,对一张未知输入表格,仅能通过人的自然理解和简单的字符匹配去查找与其相似的表格内容。步骤如下:
[0003]1、观察表名和字段内容,通过字典等业务资源提取出关键词。
[0004]2、通过统计方法或字符串对比方法查找与输入表表名最相似的表。
[0005]3、使用集合相似度方法对比输入表的字段集合和标准表字段集合的相似度。
[0006]4、将2、3两者结果进行合并,输出与输入表最相似的完整标准表。
[0007]这种方法基于文本的硬匹配,通常会带来以下问题:
[0008]1、首先没有考虑到因为单词语序对整个文本的的影响,如“目录版本”和“版本目录”,两者的关键信息分别是“版本”和“目录”,但是在匹配过程中则会忽略这一语序信息;
[0009]2、其次硬匹配带来的最大问题就是近义词或语义相关的文本在匹配上的遗漏(比如“学校”和 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种基于多路召回和ESIM精排的表格相关性推荐方法,其特征在于包括以下步骤:步骤S1,对输入表进行预处理,清洗去除表名或字段中的噪声内容,并整理成模型的输入格式;步骤S2,通过jaccard相似系数、BM25算法、预训练词向量模型分别对输入表的文本进行多路召回,得到每种算法下与输入表最相似的若干候选表;步骤S3,将步骤S2得到多种召回结果进行合并,使用投票策略做初步的粗排;步骤S4,将步骤S3得到的粗排结果格式化为模型输入,并送入ESIM模型进行预测,模型对输入进行精排序,并按照相似程度从大到小输出为表推荐结果。2.根据权利要求1所述基于多路召回和ESIM精排的表格相关性推荐方法,其特征在于:步骤S2中所述通过jaccard相似系数的算法对输入表的文本进行多路召回的具体过程如下:首先,由表名、字段中文名、数据元标识符的jieba分词组成分别得到STG表和ODS表的关键词集合,并以STG表和ODS表的关键词集合作为输入;然后,通过式(1)计算STG表和所有ODS的jaccard相似系数J(A,B)并进行排序,得到相似程度最高的top
‑
k个召回结果;式中,集合A和B分别代表STG表和ODS表的关键词集合;当集合A和B均为时,定义J(A,B)=1。3.根据权利要求1所述基于多路召回和ESIM精排的表格相关性推荐方法,其特征在于:步骤S2中所述预训练词向量算法,根据单词词性赋予不同权重,通过加权求和的方式得到文本的向量表示,并以向量余弦距离来度量表之间的相似程度。4.根据权利要求3所述基于多路召回和ESIM精排的表格相关性推荐方法,其特征在于:所述预训练词向量算法的具体过程如下:(1)首先,提取表格特征向量,按照粒度划分生成不同粒度下的特征向量,并进行拼接,形成单张表的表征向量;所述表征向量包括表粒度和字段粒度,表粒度表示表中文名和表名概述,字段粒度表示字段中文名,字段描述,数据源和限定词;(2)内部权重:对表名和字段部分分别进行分词并获取词向量,对词向量根据词性赋予不同的词性权重,将这些带权向量累加得到对应的表名向量和字段向量;(3)外部权重:外部权重是将表名向量和字段向量分别赋予不同的权重,并通过式(2)计算整个表的向量vec
table
,vec
table
=w
i
*vec
name
+w
j
*vec
技术研发人员:穆宁,汪健,张晓燕,孙宗飞,
申请(专利权)人:南京烽火星空通信发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。