【技术实现步骤摘要】
一种应用于新闻领域的短文本匹配方法及系统
本专利技术涉及数据处理及新闻检索
,具体地,涉及一种应用于新闻领域的短文本匹配方法及系统;更为具体地,涉及一种字符串处理及高并发新闻机构匹配的方法及系统。
技术介绍
随着互联网的发展,在科技不断进步的形势下,数据进入大爆发时代,尤其是各式各样的新闻,层出不穷。而在海量的新闻中,如何快速获取新闻中机构的,成为新闻数据处理领域的一项重要技术。当前新闻机构匹配技术发展过程中主要面临两个挑战:第一个是匹配时间复杂度问题,随着大数据时代的到来,新闻数据量激增,匹配特征越来越多,导致匹配过程越来越复杂;第二挑战是效率要求,随着互联网发展,数据的时效性要求越来越高,对机构匹配系统的处理能力很高的要求。为解决上述难点,本系统采用K字前缀树方法,对千万级机构构造索引,利用Redis集群进行分布式索引存储,极大降低大空间复杂度,并具有折中后缀数和后缀数组在计算空间和搜索速度上的优点。同时采用KMP算法,提高匹配性能。专利文献CN110321562A(申请号:201910576788.3)公开了一种基于BERT的短文本匹配方法,根据第一场景的需求,获取第一场景的第一监督任务数据,并对第一监督任务数据进行降噪处理,生成第一数据,然后从第一数据中提取第一关键词,并对第一数据和第一关键词进行转换处理,生成第一原始表达式和第一特征表达式,再分别将第一原始表达式和第一特征表达式输入至预设的短文本匹配模型,生成第一原始表达式的第一得分和第一特征表达式的第二得分,最后判断第一得分和 ...
【技术保护点】
1.一种应用于新闻领域的短文本匹配方法,其特征在于,包括:/n步骤M1:将待匹配的机构词利用K字前缀树方法构建机构索引;/n步骤M2:将机构索引及待匹配的新闻按照预设格式进行存储;/n步骤M3:根据待匹配新闻以及机构索引进行新闻机构匹配。/n
【技术特征摘要】
1.一种应用于新闻领域的短文本匹配方法,其特征在于,包括:
步骤M1:将待匹配的机构词利用K字前缀树方法构建机构索引;
步骤M2:将机构索引及待匹配的新闻按照预设格式进行存储;
步骤M3:根据待匹配新闻以及机构索引进行新闻机构匹配。
2.根据权利要求1所述的应用于新闻领域的短文本匹配方法,其特征在于,所述步骤M1包括:
步骤M1.1:机构词包括N个字,选取机构词前K字作为机构词前缀,将N-K个字作为机构词后缀;
步骤M1.2:将K字前缀词作为key值,前缀词相同的机构后缀词作为value值,构建前缀树。
3.根据权利要求2所述的应用于新闻领域的短文本匹配方法,其特征在于,所述步骤M1.2包括:当前缀词相同的机构后缀词value值列表大小超过预设值时,则进行前缀长度扩充,使每个key值的value值列表大小在预设范围内。
4.根据权利要求1所述的应用于新闻领域的短文本匹配方法,其特征在于,所述步骤M2包括:
步骤M2.1:将机构索引中K字前缀词通过哈希算法转换为哈希码并进行存储,存储为前缀词字典;
步骤M2.2:将机构索引中value值列表中的机构进行编码并进行存储。
5.根据权利要求1所述的应用于新闻领域的短文本匹配方法,其特征在于,所述步骤M3包括:
步骤M3.1:对不同格式文件的待匹配新闻进行格式化预处理,得到预处理后的待匹配新闻;
步骤M3.2:将预处理后的待匹配新闻按照预设规则进行分句和分词;
步骤M3.3:根据机构索引进行机构前缀匹配以及机构全称匹配;
步骤M3.4:对匹配到的机构进行包括数据过滤处理,输出匹配到的机构。
6.根据权利要求5所述的应用于新闻领域的短文本匹配方法,其特征在于,所述步骤M3.3包括:
步骤M3.3.1:加载前缀文件获取前缀词字典;
步骤M3.3.2:循环待匹配新闻的句子集,将每句中的K字短词与前缀词字典进行比较,当短词存在于前缀词字典中,则将包含前缀词的句子与前缀词对应的value列表进行机构全称匹配;当短词不存在与前缀词字典中,则重复执行步骤M3.3.2;当包含前缀词的句子中匹配到value列表中的机构,则将匹配结构加入结果列表中,当包含前缀词的句子中没有匹配到value...
【专利技术属性】
技术研发人员:张友豪,冯卫强,
申请(专利权)人:上海大智慧财汇数据科技有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。