场景元素的抽取方法、装置、设备及存储介质制造方法及图纸

技术编号:25439560 阅读:29 留言:0更新日期:2020-08-28 22:27
本申请提出了一种场景元素的抽取方法、装置、设备及存储介质,涉及知识图谱领域,具体实现方案为:获取兴趣点的评论信息;通过序列标注模型对兴趣点的评论信息进行抽取以获取评论信息之中的场景元素标签。由此,实现了从评论信息中抽取出场景元素,从而进一步基于场景元素建立场景图谱,以用于POI推荐。

【技术实现步骤摘要】
场景元素的抽取方法、装置、设备及存储介质
本申请涉及计算机
,尤其涉及知识图谱
,提出一种场景元素的抽取方法、装置、设备及存储介质。
技术介绍
在地图等产品的个性化推荐场景中,用户需求通常会随着用户所处场景的变化而改变。目前,存在着基于知识图谱技术建立适用于场景化推荐的图谱,以满足场景化推荐的需求。而在建立适用于场景化推荐的图谱时,需要挖掘出组合为场景的各种场景元素与兴趣点之间的关系。目前,为了满足场景化推荐的需求,需要一种建立场景元素与兴趣点之间的关系的方案。
技术实现思路
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本申请提出了一种场景元素的抽取方法、装置、设备及存储介质。本申请第一方面实施例提出了一种场景元素的抽取方法,包括:获取兴趣点的评论信息;通过序列标注模型对所述兴趣点的评论信息进行抽取以获取所述评论信息之中的场景元素标签。本申请第二方面实施例提出了一种场景元素的抽取装置,包括:获取模块,用于获取兴趣点的评论信息;抽取模块,用于通过序列标注模型对所述兴趣点的评论信息进行抽取以获取所述评论信息之中的场景元素标签。本申请第三方面实施例提出了一种电子设备,包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如第一方面实施例所述的场景元素的抽取方法。本申请第四方面实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如第一方面实施例所述的场景元素的抽取方法。上述申请中的一个实施例具有如下优点或有益效果:由于采用了获取兴趣点的评论信息,通过序列标注模型对兴趣点的评论信息进行抽取以获取评论信息之中的场景元素标签。由此,实现了基于兴趣点的评论信息抽取出场景元素,从而进一步基于场景元素建立场景图谱,以用于POI推荐。应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。附图说明附图用于更好地理解本方案,不构成对本申请的限定。其中:图1为本申请实施例所提供的一种场景元素的抽取方法的流程示意图;图2为本申请实施例所提供的一种生成场景元素标签的示意图;图3为本申请实施例所提供的另一种场景元素的抽取方法的流程示意图;图4为本申请实施例所提供的另一种场景元素的抽取方法的流程示意图;图5为本申请实施例所提供的一种场景元素的抽取装置的结构示意图;图6为本申请实施例所提供的另一种场景元素的抽取装置的结构示意图;图7示出了适于用来实现本申请实施例的示例性电子设备的框图。具体实施方式以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。在地图等产品的个性化推荐中,用户的需求通常会随着用户所处场景发生变化,且大多数用户在同一场景下具有趋同性,目前,存在着基于知识图谱技术丰富POI(PointofInterest,兴趣点)信息,建立适用于场景化推荐的图谱,以满足场景化推荐的需求。而在建立适用于场景化推荐的图谱时,需要挖掘出组合为场景的各种场景元素与POI之间的关系。本申请实施例提出了一种场景元素的抽取方法,以实现基于评论信息抽取场景元素,从而进一步基于场景元素建立场景图谱,用于POI推荐。图1为本申请实施例所提供的一种场景元素的抽取方法的流程示意图,如图1所示,该方法包括:步骤101,获取兴趣点的评论信息。本实施例中,可以先获取与兴趣点对应的评论信息,作为一种示例,兴趣点指可以抽象为点的地理对象,例如兴趣点包括商店、酒吧、加油站、医院、车站等,评论信息例如为“这里适合带朋友来聚餐”等。作为一种可能的实现方式,可以通过相关应用程序抓取兴趣点的评论信息,例如,获取某餐厅兴趣点的评论信息时,可以通过相关餐饮应用程序搜索该餐厅兴趣点,进而获取与该餐厅兴趣点相关的评论信息。在本申请的一个实施例中,获取的评论信息可能存在整段的文本,因此,在获取兴趣点的评论信息之后,还可以对评论信息进行预处理。可选地,获取评论信息之中的标点符号,根据标点符号对评论信息进行切分以生成多个分句,进而,对多个分句进行切词以形成多个字。作为一种示例,根据标点符号对评论信息进行分句,对于分句后的评论信息“这里适合聚餐”进行切词,形成多个字“这”“里”“适”“合”“聚”“餐”。其中,标点符号可以是中文标点符号「!;。?…」,也可以是英文标点符号「!?」。步骤102,通过序列标注模型对兴趣点的评论信息进行抽取以获取评论信息之中的场景元素标签。本实施例中,可以收集标注有场景元素标签的样本数据,根据样本数据预先训练序列标注模型,序列标注模型输入为评论信息,输出为评论信息中的场景元素标签,进而,在获取兴趣点的评论信息后,通过序列标注模型对兴趣点的评论信息进行抽取以获取评论信息之中的场景元素标签。其中,场景元素标签例如包括人群标签、时间标签、地点标签、需求标签和情感标签,序列标注模型可以由预训练模型、至少一个双向门循环单元GRU层、条件随机场CRF层构成,其中预训练模型例如为ERNIE模型。在本申请的一个实施例中,场景元素标签可以包括O、B-WHO(人群)、I-WHO(人群)、B-WHEN(时间)、I-WHEN(时间)、B-WHERE(地点)、I-WHERE(地点)、B-DEM(需求)、I-DEM(需求)、B-EMO(情感)、I-EMO(情感)共11种。其中,B表示标注的词的开头,I表示标注的词的后续,O表示非目标项,即空结果。作为一种示例,对于评论信息“这里适合带朋友来聚餐”,通过序列标注模型对该评论信息进行抽取,获取的场景元素标签依次为[这(O),里(O),适(O),合(O),带(O),朋(B-WHO),友(I-WHO),来(O),聚(B-DEM),餐(I-DEM)]。由此,实现了评论信息中场景元素的抽取。下面对序列标注模型的处理过程进行说明。本实施例中,序列标注模型包括预训练模型、两个双向门循环单元GRU(gaterecurrentunit)层、条件随机场CRF(conditionalrandomfield)层。其中,预训练模型用于中文字词的编码,以将字词转换为向量。通过预训练模型对多个分句之中的字进行转换以生成字对应的编码。例如,对于句子“这里适合朋友聚餐”,通过预训练模型对句子中的字进行转换,对于句子中的每个字生成对应的字编码。其中,双向门循环单元GRU层,用于获取本文档来自技高网...

【技术保护点】
1.一种场景元素的抽取方法,其特征在于,包括:/n获取兴趣点的评论信息;/n通过序列标注模型对所述兴趣点的评论信息进行抽取以获取所述评论信息之中的场景元素标签。/n

【技术特征摘要】
1.一种场景元素的抽取方法,其特征在于,包括:
获取兴趣点的评论信息;
通过序列标注模型对所述兴趣点的评论信息进行抽取以获取所述评论信息之中的场景元素标签。


2.如权利要求1所述的场景元素的抽取方法,其特征在于,在获取所述兴趣点的评论信息之后,还包括:
获取所述评论信息之中的标点符号;
根据所述标点符号对所述评论信息进行切分以生成多个分句;
对所述多个分句进行切词以形成多个字。


3.如权利要求2所述的场景元素的抽取方法,其特征在于,还包括:
通过预训练模型对所述多个分句之中的字进行转换以生成所述字对应的编码。


4.如权利要求3所述的场景元素的抽取方法,其特征在于,所述序列标注模型包括:
至少一个双向门循环单元GRU层,用于获取目标字的编码,并根据所述分句之中字对应的编码生成目标字的上下文信息;以及
条件随机场CRF层,用于根据所述GRU层输入的所述目标字的编码以及所述目标字的上下文信息生成所述目标字的场景元素标签。


5.如权利要求4所述的场景元素的抽取方法,其特征在于,所述场景元素标签包括人群标签、时间标签、地点标签、需求标签和情感标签。


6.如权利要求1所述的场景元素的抽取方法,其特征在于,还包括:
根据所述场景元素标签生成所述兴趣点的标签;以及
根据所述兴趣点的标签进行推荐。


7.如权利要求1所述的方法,其特征在于,在通过序列标注模型对所述兴趣点的评论信息进行抽取以获取所述评论信息之中的场景元素标签之后,还包括:
对所述评论信息进行切词以形成多个分词,获取各分词对应的第一词边界;
根据所述场景元素标签确定各场景元素对应的第二词边界;
从各场景元素中确定满足预设条件的目标场景元素,并删除所述目标场景元素对应的场景元素标签,所述预设条件包括不存在包含于所述第二词边界的第一词边界。


8.如权利要求1所述的方法,其特征在于,在通过序列标注模型对所述兴趣点的评论信息进行抽取以获取所述评论信息之中的场景元素标签之后,还包括:
通过语义通顺度模型对所述场景元素标签对应的场景元素进行处理,获取各场景元素对应的语义通顺度;
确定语义通顺度小于预设阈值的目标场景元素,并删除所述目标场景元素对应的场景元素标签。


9.一种场景元素的抽取装置,其特征在于,包括:
获取模块,用于获取兴趣点的评论信息;
抽取模块,用于通过序列标注模型对所述兴趣点的评论信息进行抽取以获取...

【专利技术属性】
技术研发人员:李千史亚冰蒋烨柴春光朱勇
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1