语义泛化方法及显示设备技术

技术编号:25948816 阅读:28 留言:0更新日期:2020-10-17 03:40
本申请实施例提供一种语义泛化方法及显示设备,所述方法包括:接收输入事件,所述输入事件用于表示输入待搜索内容;获取关联图,所述关联图用于表示多个关键词之间的关系图;根据所述待搜索内容和所述关联图,对所述待搜索内容进行语义泛化,确定与所述待搜索内容匹配的目标搜索内容。本申请能够解决现有技术中需要人工大量的数据标注支撑,同时导致提供的搜索内容不精准的问题。

【技术实现步骤摘要】
语义泛化方法及显示设备
本申请实施例涉及数据处理
,尤其涉及一种语义泛化方法及显示设备。
技术介绍
针对能够为用户提供检索或搜索服务的应用平台,通常是基于用户输入的检索项进行检索,由于表述同一语义的检索项往往具有不止一种表述形式,因此,针对检索项进行语义匹配同义词尤为重要。目前,利用人工建立同义词典、同义标签,然后通过深度学习技术进行无监督学习同义词,实现同义词搜索。但是,该深度学习技术的语义匹配搜索需要大量的数据标注支撑,太耗时、浪费人力且无法解决标签缺失导致无法搜到同义词或学习到的同义词搜不到相关内容,进而影响用户体验。
技术实现思路
本申请实施例提供一种语义泛化方法及显示设备,以解决现有技术中需要人工大量的数据标注支撑,同时导致提供的搜索内容不精准的问题。第一方面,本申请实施例提供一种语义泛化方法,包括:接收输入事件,所述输入事件用于表示输入待搜索内容;获取关联图,所述关联图用于表示多个传媒数据中的各个关键词形成的关系图;根据所述待搜索内容和所述关联图,对所述待搜索内容进行语义泛化,确定与所述待搜索内容匹配的目标搜索内容。第二方面,本申请实施例提供一种显示设备,包括:至少一个处理器和存储器;所述存储器存储计算机执行指令;所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上述第一方面以及第一方面各种可能的设计所述的语义泛化方法。本实施例提供的语义泛化方法及显示设备,首先接收用户输入的待搜索内容,并获取存储的关联图,由于该关联图用于表示多个关键词之间的关系图,则可以基于待搜索内容以及该关联图,执行对待搜索内容的语义泛化操作,产生同义词即得到与该待搜索内容匹配的目标搜索内容,实现了同义词搜索。本申请通过输入的待搜索内容以及创建的关联图,无需大量的数据标注即可进行语义泛化,产生待搜索内容的同义词,并且泛化得到的同义词与待搜索内容匹配度较高,能够精准地且更多的搜索到相关联的传媒数据,提高用户体验。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本申请提供的语义泛化方法的应用场景图;图2为本申请实施例提供的语义泛化方法的流程示意;图3为本申请另一实施例提供的语义泛化方法的流程示意图;图4为本申请实施例提供的关联图的示意图;图5为本申请实施例提供的语义泛化装置的结构示意图;图6为本申请实施例提供的显示设备的硬件结构示意图。具体实施方式为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请的保护的范围。用户对于感兴趣内容进行检索时,用户使用冷门的关键字,导致搜不到相关媒资,比如,用户输入:“唱歌的综艺节目”,但是搜不到相关媒资,原因是“唱歌”这两个字较少出现在媒体的标题或是媒体的描述中,因此,需要对“唱歌”进行关键字泛化。目前,传统达到关键字泛化替换搜索词的方法是建立大量同义词典,或对媒资打上标签,采用深度学习技术的无监督学习同义词,实现同义词搜索。但是,该深度学习技术的语义匹配搜索需要大量的数据标注支撑,太耗时、浪费人力且无法解决标签缺失导致无法搜到同义词或学习到的同义词搜不到相关内容,进而影响用户体验。针对深度学习技术的无监督学习同义词,示例性的,“天气很热我想打开空调;天气很热我想打开冰箱;天气很热我想打开窗户”,“空调,冰箱,窗户”,由于前后文(context)相似,因此[空调,冰箱,窗户]会被自动学习成同义词。实际应用上,空调与冰箱,存在部分语义相似,都是家电。但是空调与窗户,明显已经不是同语义。因此,为了解决大量数据标注带来的耗时、浪费人力且由于标签缺失导致提供的搜索内容不精准的问题,本申请的技术构思是采用机器统计学习人工建立传媒数据标签标注的能力,建立关键词之间的关联图,基于用户输入的待搜索内容,通过查询关联图,无需大量的数据标注,自动实时产生同义词,然后将同义词替换待搜索内容进行搜索,能够精准地搜索到相关联的传媒数据,进而为用户提供了较多且匹配度较高的搜索结果,提高了用户体验。在实际应用中,本公开实施例的执行主体可以是终端设备,比如固定终端、移动终端、计算机设备(如,台式机、笔记本电脑、一体机等)等,固定终端可以包括智能电视、带显示屏的设备等具有传媒数据显示和/或播放功能的固定设备;移动终端可以包括智能手机、掌上电脑、平板电脑、带显示屏的可穿戴设备等具有传媒数据显示和/或播放功能的移动设备。示例性的,参见图1所示,以移动终端10为例,当用户需要搜索传媒数据时,在提供的搜索框11中通过语音或是通过触摸屏或是特殊按键输入待搜索的内容,为了提高搜索结果的准确性,需要对待搜索的内容进行语义泛化,在语义泛化的过程中,需要结合机器学习建立的关键词之间的关联图,通过查询关联图,确定对待搜索的内容进行语义泛化后的候选泛化词,因此,为用户提供的该泛化词准确度高,同时通过该泛化后的泛化词进行搜索,不但能够精准地搜索到相关联的传媒数据且可供用户选择的相关联的传媒数据较多,进而提高用户体验,同时提高了传媒数据的点击率。下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。图2为本申请实施例提供的语义泛化方法的流程示意图。如图2所示,该方法可以包括:S201:接收输入事件,所述输入事件用于表示输入待搜索内容。本实施例中,用户随时可以通过在终端设备上安装的为用户提供检索或搜索服务的应用平台,比如客户端,在提供的搜索框中输入待搜索内容,终端设备检测到有输入事件触发时,接收输入事件中的待搜索内容。S202、获取关联图,所述关联图用于表示多个关键词之间的关系图。其中,传媒数据可以包括商品、广告、图片、音视频等含有描述信息的数据。本实施例中,关联图是由多个传媒数据对应的各个关键词形成的关系图,因此,该关联图是具有网状、树状或是拓扑结构等结构图,且该关联图可以存储在终端设备的内存中,也可以存储在数据库中,在此不做具体限定。由于该关联图是关于学习到多个传媒数据对应的各个关键词之间的关联关系形成的关系图,因此,通过关联图中的关键词可以精准地搜索到相关的传媒数据,所以该关联图中的关键词具备提供泛化词的泛化能力,能够为用户输入的待搜索内容提供相关联本文档来自技高网...

【技术保护点】
1.一种语义泛化方法,其特征在于,包括:/n接收输入事件,所述输入事件用于表示输入待搜索内容;/n获取关联图,所述关联图用于表示多个关键词之间的关系图;/n根据所述待搜索内容和所述关联图,对所述待搜索内容进行语义泛化,确定与所述待搜索内容匹配的目标搜索内容。/n

【技术特征摘要】
1.一种语义泛化方法,其特征在于,包括:
接收输入事件,所述输入事件用于表示输入待搜索内容;
获取关联图,所述关联图用于表示多个关键词之间的关系图;
根据所述待搜索内容和所述关联图,对所述待搜索内容进行语义泛化,确定与所述待搜索内容匹配的目标搜索内容。


2.根据权利要求1所述的方法,其特征在于,所述获取关联图,包括:
获取多个传媒数据中的每个传媒数据对应的传媒数据描述信息;
针对每个所述传媒数据,确定所述传媒数据描述信息对应的多个描述词;
根据每个所述传媒数据对应的所述多个描述词,生成与所述多个传媒数据匹配的关联图。


3.根据权利要求2所述的方法,其特征在于,所述根据每个所述传媒数据对应的所述多个描述词,生成与所述多个传媒数据匹配的关联图,包括:
根据每个所述传媒数据对应的所述多个描述词,获取各个所述描述词对应的词频以及每两个描述词在同一个传媒数据对应的传媒数据描述信息中同时存在所述每两个描述词的第一次数,所述描述词对应的词频用于表示在所述多个传媒数据对应的传媒数据描述信息中存在所述描述词的目标传媒数据的个数;
针对每两个描述词,根据各个所述描述词对应的所述目标传媒数据的个数和所述第一次数,生成与所述多个传媒数据匹配的关联图。


4.根据权利要求3所述的方法,其特征在于,针对每两个描述词,根据各个所述描述词对应的所述目标传媒数据的个数和所述第一次数,生成与所述多个传媒数据匹配的关联图,包括:
针对所述每两个描述词,根据各个所述描述词对应的所述目标传媒数据的个数和所述第一次数,计算各个所述描述词之间的相关系数,所述相关系数用于表示每两个描述词的相关程度;
根据各个所述相关系数,生成与所述多个传媒数据匹配的关联图;或者,
根据各个所述相关系数和所述第一次数,生成与所述多个传媒数据匹配的关联图。


5.根据权利要求4所述的方法,其特征在于,针对所述每两个描述词,根据各个所述描述词对应的所述目标传媒数据的个数和所述第一次数,计算各个所述描述词之间的相关系数,包括:
针对所述每两个描述词,对各个所述描述词对应的所述目标传媒数据的个数分别与所述多个传媒数据的个数进行比例计算,得到各个所述描述词出现在所述多个传媒数据对应的传媒数据描述信息中的第一概率和第二概率;
对所述述第一次数与所述多个传媒数据的个数进行比例计算,得到所述每两个描述词同时出现在同一个传媒数据对应的传媒数据描述信息中的第三概率;
根据所述第一概率、所述第二概率以及所述第三概率,通过点互信息PMI指标进行计算,得到所述每两个描述词之间的相关系数。


6.根据权利要求4所述的方法,其特征在于,所述根据各个所述相关系数,生成与所述多个传媒数据匹配的关联图,包括:
针对所述每两个描述词,将所述相关系数与第一预设阈值进行比较,若所述...

【专利技术属性】
技术研发人员:蔡効谦杨梅杨云龙赵明
申请(专利权)人:聚好看科技股份有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1