一种企业简称提取方法、系统、设备及介质技术方案

技术编号:36946788 阅读:10 留言:0更新日期:2023-03-22 19:08
本申请涉及一种企业简称提取方法、系统、设备及介质,所述方法包括以下步骤:通过分词器根据预置的分词规则将待缩写企业全称划分并标注为若干个特征语素;根据特征语素通过预置的缩写模型对待缩写企业全称进行缩写得出若干个备选企业简称;通过用户习惯模型对若干个备选企业简称进行评级,选取评级最高的备选企业简称作为待缩写企业全称的有效企业简称;在得出备选企业简称后,还将对多个备选企业简称进行合法性校验与搜索关键词匹配,对得到的备选企业简称进行筛选。本申请通过分词器与缩写模型将企业全称进行缩写,再通过分析用户习惯,选取与用户用词习惯最贴合的企业简称,完成了对企业全称的有效缩写,且生成的企业简称满足用户使用习惯。满足用户使用习惯。满足用户使用习惯。

【技术实现步骤摘要】
一种企业简称提取方法、系统、设备及介质


[0001]本申请涉及自然语言处理领域,尤其是涉及一种企业简称提取方法、系统、设备及介质。

技术介绍

[0002]简称,是一种对语句进行求简的过程,它以方便精简为原则,在更短的语句上凝练了与原有语句相同的信息含义;对于企业而言,全称的简化有利于对企业品牌与文化的宣传,据统计,从网易财经随机获取的100篇新闻文本中,共出现了近2000个企业名,其中简称占比高达九成,由此可见,简称在现代社会中被广泛使用着。
[0003]通常而言,当用户需要搜索某个企业时,不会直接搜索企业全称,而是以惯用简称作为搜索关键词进行搜索;这就导致了从搜索关键词中找到用户希望搜索的结果需要进行企业简称与全称的匹配,因此如何从百万数量级别的各类公司全称中有效的提取出公司简称,是许多检索公司需要解决的技术问题。
[0004]目前,对于企业简称的提取通常是采用基于规则或基于规则与统计结合的方法,还有少部分采用人工标注对企业全称进行缩写;由于中文具有复杂的语境与语义,因此如何确定缩写规则变得十分困难,上述方式效率较低且缩写出的企业简称容易出现歧义与概括不全的情况,难以与人员的普遍口头习惯相适应,不能有效的提取企业简称。

技术实现思路

[0005]为了高效准确的对企业的有效简称进行提取,本申请提供一种企业简称提取方法、系统、设备及介质。
[0006]第一方面本申请提供的一种企业简称提取方法采用如下的技术方案:通过分词器根据预置的分词规则将待缩写企业全称划分并标注为若干个特征语素;根据所述特征语素通过预置的缩写模型对所述待缩写企业全称进行缩写得出若干个备选企业简称;通过用户习惯模型对若干个所述备选企业简称进行评级,选取评级最高的所述备选企业简称作为所述待缩写企业全称的有效企业简称。
[0007]通过采用上述技术方案,完成了对待缩写企业全称的缩写,并根据用户习惯对多个生成的备选企业简称进行评级,得出与用户口头习惯最相符的备选企业简称,将其作为有效企业简称,得出的有效企业简称符合缩写规则且为用户日常使用最频繁的企业简称,准确的完成了企业简称的提取。
[0008]优选的,在通过分词器根据预置的分词规则将待缩写企业全称划分并标注为若干个特征语素中,具体包括以下步骤:根据预置的地名词库划分所述待缩写企业全称中的地名词;根据预置的企业常用后缀词库划分所述待缩写企业全称中的后缀词;
将所述待缩写企业全称剩余部分通过关键词拆分算法拆分为关键词与修饰词;根据预置的分词规则标注完成拆分的语素为特征语素。
[0009]通过采用上述技术方案,将企业全称划分的构成语素划分为地名词、后缀词、关键词与修饰词四种类型,这四类词基本覆盖当前存在的企业全称,实现了企业全称的结构化。
[0010]优选的,在根据所述缩写规则对所述待缩写企业全称进行缩写得出若干个备选企业简称后,还包括以下步骤:通过预置的违禁词库对所述备选企业简称进行合法性校验;剔除未通过所述合法性校验的备选企业简称。
[0011]通过采用上述技术方案,对备选企业简称进行筛选,避免得到的有效企业简称中存在不符规定的违禁词。
[0012]优选的,在剔除未通过所述合法性校验的备选企业简称后,还包括以下步骤:获取所述待缩写企业全称在搜索引擎中的查询历史记录;获取所述查询历史记录中与所述待缩写企业全称对应的全部用户搜索关键词;剔除与所述用户搜索关键词不匹配的所述备选企业简称。
[0013]通过采用上述技术方案,在通过用户习惯模型对多个备选企业简称进行评级之前,通过用户搜索记录对备选企业简称进行初步筛选,使最后生成的有效企业简称是用户在使用的企业简称,且减少了后续用户习惯分析的计算数据量。
[0014]优选的,在通过用户习惯模型对若干个所述备选企业简称进行评级,选取评级最高的所述备选企业简称作为所述待缩写企业全称的有效企业简称中,具体包括以下步骤:获取通过合法性校验与搜索关键词匹配的所述备选企业简称的查询信息,所述查询信息包括所述备选企业简称搜索导向页面信息、用户鼠标指针热力图、导向页面停留时间及备选企业简称查询频次;将所述查询信息导入所述用户习惯模型分析用户对所述备选企业简称的偏好并进行评级;选取评级最高的所述备选企业简称作为所述待缩写企业全称的有效企业简称。
[0015]通过采用上述技术方案,根据用户查询记录,导入用户习惯模型,计算各备选企业简称与企业全称的关联性及在用户日常使用中的常用度,选取各项综合评价最高的备选企业简称作为有效企业简称,使有效企业简称贴合用户习惯。
[0016]优选的,在通过用户习惯模型对若干个所述备选企业简称进行评级,选取评级最高的所述备选企业简称作为所述待缩写企业全称的有效企业简称中,具体包括以下步骤:在预置的已知简称库中查找是否存在与所述评级最高的所述备选企业简称相同的企业简称;若是,则选取所述评级次高的所述备选企业简称作为所述待缩写企业全称的有效企业简称。
[0017]通过采用上述技术方案,使企业对应有唯一的企业简称,防止在后续使用简称进行检索或展示时出现歧义的情况。
[0018]优选的,在通过用户习惯模型对若干个所述备选企业简称进行评级,选取评级最高的所述备选企业简称作为所述待缩写企业全称的有效企业简称后,还包括以下步骤:将所述有效企业简称与其对应的所述待缩写企业全称导入训练语料库;
根据所述训练语料库对所述缩写模型进行训练。
[0019]通过采用上述技术方案,将生成的有效简称作为缩写模型的训练基础,有效的扩大了缩写模型的训练数据量,保证缩写模型的准确度。
[0020]第二方面,本申请提供一种企业简称提取系统,所述系统包括以下模块:分词器模块,用于根据预置的分词规则将待缩写企业全称划分并标注为若干个特征语素;缩写模块,用于根据所述特征语素通过预置的缩写模型对所述待缩写企业全称进行缩写得出若干个备选企业简称;简称评级模块,用于对若干个所述备选企业简称进行评级,选取评级最高的所述备选企业简称作为所述待缩写企业全称的有效企业简称。
[0021]第三方面,本申请提供一种计算机设备,采用如下技术方案:包括存储器和处理器,所述存储器上存储有能够被处理器加载并执行如上述任一种企业简称提取方法的计算机程序。
[0022]第四方面,本申请提供一种计算机可读存储介质,采用如下技术方案:存储有能够被处理器加载并执行上述任一种企业简称提取方法程序。
[0023]综上所述,本申请包括以下至少一种有益技术效果:1.从待缩写企业全称中有效的提取出若干个备选企业简称,根据用户习惯对多个备选企业简称进行评级最终生成有效企业简称,得到的有效企业简称能够很好的代表该企业且较贴合用户口头习惯;2.对所有备选企业简称进行了合法性校验,保证生成的有效企业简称不存在合法性问题;3.完成了相同企业简称的筛选,有效防止了多家企业全称结构缩写生成得出有相同的企业简称,避免企业简称指代不明的情况发生。
附图说明
[0024]图1是本申请实施例提供的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种企业简称提取方法,其特征在于,所述方法包括以下步骤:通过分词器根据预置的分词规则将待缩写企业全称划分并标注为若干个特征语素;根据所述特征语素通过预置的缩写模型对所述待缩写企业全称进行缩写得出若干个备选企业简称;通过用户习惯模型对若干个所述备选企业简称进行评级,选取评级最高的所述备选企业简称作为所述待缩写企业全称的有效企业简称。2.根据权利要求1所述的一种企业简称提取方法,其特征在于,在通过分词器根据预置的分词规则将待缩写企业全称划分并标注为若干个特征语素中,具体包括以下步骤:根据预置的地名词库划分所述待缩写企业全称中的地名词;根据预置的企业常用后缀词库划分所述待缩写企业全称中的后缀词;将所述待缩写企业全称剩余部分通过关键词拆分算法拆分为关键词与修饰词;根据预置的分词规则标注完成拆分的语素为特征语素。3.根据权利要求1所述的一种企业简称提取方法,其特征在于,在根据所述缩写规则对所述待缩写企业全称进行缩写得出若干个备选企业简称后,还包括以下步骤:通过预置的违禁词库对所述备选企业简称进行合法性校验;剔除未通过所述合法性校验的备选企业简称。4.根据权利要求3所述的一种企业简称提取方法,其特征在于,在剔除未通过所述合法性校验的备选企业简称后,还包括以下步骤:获取所述待缩写企业全称在搜索引擎中的查询历史记录;获取所述查询历史记录中与所述待缩写企业全称对应的全部用户搜索关键词;剔除与所述用户搜索关键词不匹配的所述备选企业简称。5.根据权利要求1所述的一种企业简称提取方法,其特征在于,在通过用户习惯模型对若干个所述备选企业简称进行评级,选取评级最高的所述备选企业简称作为所述待缩写企业全称的有效企业简称中,具体包括以下步骤:获取通过合法性校验与搜索关键词匹配的所述备选企业简称的查询信息,所述查询信息包括所述备选企业简称搜索导向页面信息、用户鼠标指针热力图、导向页面停留时间...

【专利技术属性】
技术研发人员:赵丽娜曾思亮邹水林
申请(专利权)人:企知道网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1