一种应用于新闻领域的短文本匹配方法及系统技术方案

技术编号:27742038 阅读:14 留言:0更新日期:2021-03-19 13:35
本发明专利技术提供了一种应用于新闻领域的短文本匹配方法及系统,包括:步骤M1:将待匹配的机构词利用k字前缀树方法构建机构索引;步骤M2:将机构索引及待匹配的新闻按照预设格式进行存储;步骤M3:根据待匹配新闻以及机构索引进行新闻机构匹配。本发明专利技术能够在海量新闻数据中,能够快速匹配相关机构,解决新闻数据匹配效率低,提高查询效率,同时节省存储空间。

【技术实现步骤摘要】
一种应用于新闻领域的短文本匹配方法及系统
本专利技术涉及数据处理及新闻检索
,具体地,涉及一种应用于新闻领域的短文本匹配方法及系统;更为具体地,涉及一种字符串处理及高并发新闻机构匹配的方法及系统。
技术介绍
随着互联网的发展,在科技不断进步的形势下,数据进入大爆发时代,尤其是各式各样的新闻,层出不穷。而在海量的新闻中,如何快速获取新闻中机构的,成为新闻数据处理领域的一项重要技术。当前新闻机构匹配技术发展过程中主要面临两个挑战:第一个是匹配时间复杂度问题,随着大数据时代的到来,新闻数据量激增,匹配特征越来越多,导致匹配过程越来越复杂;第二挑战是效率要求,随着互联网发展,数据的时效性要求越来越高,对机构匹配系统的处理能力很高的要求。为解决上述难点,本系统采用K字前缀树方法,对千万级机构构造索引,利用Redis集群进行分布式索引存储,极大降低大空间复杂度,并具有折中后缀数和后缀数组在计算空间和搜索速度上的优点。同时采用KMP算法,提高匹配性能。专利文献CN110321562A(申请号:201910576788.3)公开了一种基于BERT的短文本匹配方法,根据第一场景的需求,获取第一场景的第一监督任务数据,并对第一监督任务数据进行降噪处理,生成第一数据,然后从第一数据中提取第一关键词,并对第一数据和第一关键词进行转换处理,生成第一原始表达式和第一特征表达式,再分别将第一原始表达式和第一特征表达式输入至预设的短文本匹配模型,生成第一原始表达式的第一得分和第一特征表达式的第二得分,最后判断第一得分和/或第二得分是否达到预设阈值,若是,则判定第一监督任务数据属于正面样本,否则判定第一监督任务数据属于负面样本,能够在监督任务数据有限的情况下,最大限度地发挥先验知识的作用,具有较强的鲁棒性和可解释性。
技术实现思路
针对现有技术中的缺陷,本专利技术的目的是提供一种应用于新闻领域的短文本匹配方法及系统。根据本专利技术提供的一种应用于新闻领域的短文本匹配方法,包括:步骤M1:将待匹配的机构词利用K字前缀树方法构建机构索引;步骤M2:将机构索引及待匹配的新闻按照预设格式进行存储;步骤M3:根据待匹配新闻以及机构索引进行新闻机构匹配。优选地,所述步骤M1包括:步骤M1.1:机构词包括N个字,选取机构词前K字作为机构词前缀,将N-K个字作为机构词后缀;步骤M1.2:将K字前缀词作为key值,前缀词相同的机构后缀词作为value值,构建前缀树。优选地,所述步骤M1.2包括:当前缀词相同的机构后缀词value值列表大小超过预设值时,则进行前缀长度扩充,使每个key值的value值列表大小在预设范围内。优选地,所述步骤M2包括:步骤M2.1:将机构索引中K字前缀词通过哈希算法转换为哈希码并进行存储,存储为前缀词字典;步骤M2.2:将机构索引中value值列表中的机构进行编码并进行存储。优选地,所述步骤M3包括:步骤M3.1:对不同格式文件的待匹配新闻进行格式化预处理,得到预处理后的待匹配新闻;步骤M3.2:将预处理后的待匹配新闻按照预设规则进行分句和分词;步骤M3.3:根据机构索引进行机构前缀匹配以及机构全称匹配;步骤M3.4:对匹配到的机构进行包括数据过滤处理,输出匹配到的机构。优选地,所述步骤M3.3包括:步骤M3.3.1:加载前缀文件获取前缀词字典;步骤M3.3.2:循环待匹配新闻的句子集,将每句中的K字短词与前缀词字典进行比较,当短词存在于前缀词字典中,则将包含前缀词的句子与前缀词对应的value列表进行机构全称匹配;当短词不存在与前缀词字典中,则重复执行步骤M3.3.2;当包含前缀词的句子中匹配到value列表中的机构,则将匹配结构加入结果列表中,当包含前缀词的句子中没有匹配到value列表中的机构时,则重复执行步骤M3.3.2,直至待匹配新闻匹配结束。根据本专利技术提供的一种应用于新闻领域的短文本匹配系统,包括:模块M1:将待匹配的机构词利用K字前缀树方法构建机构索引;模块M2:将机构索引及待匹配的新闻按照预设格式进行存储;模块M3:根据待匹配新闻以及机构索引进行新闻机构匹配。优选地,所述模块M1包括:模块M1.1:机构词包括N个字,选取机构词前K字作为机构词前缀,将N-K个字作为机构词后缀;模块M1.2:将K字前缀词作为key值,前缀词相同的机构后缀词作为value值,构建前缀树;所述模块M1.2包括:当前缀词相同的机构后缀词value值列表大小超过预设值时,则进行前缀长度扩充,使每个key值的value值列表大小在预设范围内。优选地,所述模块M2包括:模块M2.1:将机构索引中K字前缀词通过哈希算法转换为哈希码并进行存储,存储为前缀词字典;模块M2.2:将机构索引中value值列表中的机构进行编码并进行存储。优选地,所述模块M3包括:模块M3.1:对不同格式文件的待匹配新闻进行格式化预处理,得到预处理后的待匹配新闻;模块M3.2:将预处理后的待匹配新闻按照预设规则进行分句和分词;模块M3.3:根据机构索引进行机构前缀匹配以及机构全称匹配;模块M3.4:对匹配到的机构进行包括数据过滤处理,输出匹配到的机构;所述模块M3.3包括:模块M3.3.1:加载前缀文件获取前缀词字典;模块M3.3.2:循环待匹配新闻的句子集,将每句中的K字短词与前缀词字典进行比较,当短词存在于前缀词字典中,则将包含前缀词的句子与前缀词对应的value列表进行机构全称匹配;当短词不存在与前缀词字典中,则重复触发模块M3.3.2执行;当包含前缀词的句子中匹配到value列表中的机构,则将匹配结构加入结果列表中,当包含前缀词的句子中没有匹配到value列表中的机构时,则重复触发模块M3.3.2执行,直至待匹配新闻匹配结束。与现有技术相比,本专利技术具有如下的有益效果:1、本专利技术提供了一种文本索引构建及分布式存储的方法,提高查询效率;2、本专利技术提供一种字符串匹配的方法和系统,在于解决海量数据情况下,数据匹配效率低的技术问题;3、本专利技术能够在海量新闻数据中,能够快速匹配相关机构,解决新闻数据匹配效率低,提高查询效率,同时节省存储空间。附图说明通过阅读参照以下附图对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:图1为前缀树构造示意图;图2为不同前缀长度效率比较;图3为新闻机构匹配流程图。具体实施方式下面结合具体实施例对本专利技术进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本专利技术,但不以任何形式限制本专利技术。应当指出的是,对本领域的普通技术人员来说,在不脱离本专利技术构思的前提下,还可以做出若干变化和改进。这些都属于本专利技术的保护范围。实施例本文档来自技高网
...

【技术保护点】
1.一种应用于新闻领域的短文本匹配方法,其特征在于,包括:/n步骤M1:将待匹配的机构词利用K字前缀树方法构建机构索引;/n步骤M2:将机构索引及待匹配的新闻按照预设格式进行存储;/n步骤M3:根据待匹配新闻以及机构索引进行新闻机构匹配。/n

【技术特征摘要】
1.一种应用于新闻领域的短文本匹配方法,其特征在于,包括:
步骤M1:将待匹配的机构词利用K字前缀树方法构建机构索引;
步骤M2:将机构索引及待匹配的新闻按照预设格式进行存储;
步骤M3:根据待匹配新闻以及机构索引进行新闻机构匹配。


2.根据权利要求1所述的应用于新闻领域的短文本匹配方法,其特征在于,所述步骤M1包括:
步骤M1.1:机构词包括N个字,选取机构词前K字作为机构词前缀,将N-K个字作为机构词后缀;
步骤M1.2:将K字前缀词作为key值,前缀词相同的机构后缀词作为value值,构建前缀树。


3.根据权利要求2所述的应用于新闻领域的短文本匹配方法,其特征在于,所述步骤M1.2包括:当前缀词相同的机构后缀词value值列表大小超过预设值时,则进行前缀长度扩充,使每个key值的value值列表大小在预设范围内。


4.根据权利要求1所述的应用于新闻领域的短文本匹配方法,其特征在于,所述步骤M2包括:
步骤M2.1:将机构索引中K字前缀词通过哈希算法转换为哈希码并进行存储,存储为前缀词字典;
步骤M2.2:将机构索引中value值列表中的机构进行编码并进行存储。


5.根据权利要求1所述的应用于新闻领域的短文本匹配方法,其特征在于,所述步骤M3包括:
步骤M3.1:对不同格式文件的待匹配新闻进行格式化预处理,得到预处理后的待匹配新闻;
步骤M3.2:将预处理后的待匹配新闻按照预设规则进行分句和分词;
步骤M3.3:根据机构索引进行机构前缀匹配以及机构全称匹配;
步骤M3.4:对匹配到的机构进行包括数据过滤处理,输出匹配到的机构。


6.根据权利要求5所述的应用于新闻领域的短文本匹配方法,其特征在于,所述步骤M3.3包括:
步骤M3.3.1:加载前缀文件获取前缀词字典;
步骤M3.3.2:循环待匹配新闻的句子集,将每句中的K字短词与前缀词字典进行比较,当短词存在于前缀词字典中,则将包含前缀词的句子与前缀词对应的value列表进行机构全称匹配;当短词不存在与前缀词字典中,则重复执行步骤M3.3.2;当包含前缀词的句子中匹配到value列表中的机构,则将匹配结构加入结果列表中,当包含前缀词的句子中没有匹配到value...

【专利技术属性】
技术研发人员:张友豪冯卫强
申请(专利权)人:上海大智慧财汇数据科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1