主题关键词的提取方法和装置、电子设备制造方法及图纸

技术编号:22166861 阅读:39 留言:0更新日期:2019-09-21 10:33
本说明书一个或多个实施例提供一种主题关键词的提取方法和装置、电子设备,所述方法包括:从问答型知识库中读取目标问答条目;其中,所述目标问答条目包括问题数据和答案数据;分别从所述问题数据和所述答案数据中提取关键词;确定从所述问题数据中提取出的关键词与从所述答案数据中提取出的关键词中是否存在相同的目标关键词;如果存在相同的目标关键词,则将所述目标关键词确定为所述目标问答条目的主题关键词。

Extraction Method and Device of Subject Keyword and Electronic Equipment

【技术实现步骤摘要】
主题关键词的提取方法和装置、电子设备
本说明书一个或多个实施例涉及计算机应用
,尤其涉及一种主题关键词的提取方法和装置、电子设备。
技术介绍
在很多
,都会将一些常见的问题以及对应的答案(FrequentlyAskedQuestions,FAQ)记录下来,以便于后续遇到同样的问题时能够快速找到答案。随着记录下来的问题和答案越来越多,通常会将这些问题和答案录入至数据库,形成知识库。而随着知识库中的数据量越来越大时,通常需要对知识库中的条目进行分类,以便于对知识库进行快速检索。
技术实现思路
本说明书提出一种主题关键词的提取方法,所述方法包括:从问答型知识库中读取目标问答条目;其中,所述目标问答条目包括问题数据和答案数据;分别从所述问题数据和所述答案数据中提取关键词;确定从所述问题数据中提取出的关键词与从所述答案数据中提取出的关键词中是否存在相同的目标关键词;如果存在相同的目标关键词,则将所述目标关键词确定为所述目标问答条目的主题关键词。可选地,所述方法还包括:基于所述目标问答条目的主题关键词,为所述目标问答条目添加分类标签。可选地,所述基于所述目标问答条目的主题关键词,为所述目标问答条目添加分类标签,包括:如果所述目标问答条目存在多个主题关键词,则确定在所述问题数据和所述答案数据中出现次数最多的目标主题关键词,并将所述目标主题关键词作为所述目标问答条目的分类标签存储至所述问答型知识库;如果所述目标问答条目存在唯一的主题关键词,则将所述目标主题关键词作为所述目标问答条目的分类标签存储至所述问答型知识库。可选地,所述方法还包括:将所述主题关键词添加至与所述问答型知识库对接的搜索引擎的搜索关键词集合。可选地,从所述问题数据和所述答案数据中提取关键词所采用的关键词提取算法为TextRank算法或TF-IDF算法。本说明书还提出一种主题关键词的提取装置,所述装置包括:读取模块,用于从问答型知识库中读取目标问答条目;其中,所述目标问答条目包括问题数据和答案数据;提取模块,用于分别从所述问题数据和所述答案数据中提取关键词;第一确定模块,用于确定从所述问题数据中提取出的关键词与从所述答案数据中提取出的关键词中是否存在相同的目标关键词;第二确定模块,用于在存在相同的目标关键词时,将所述目标关键词确定为所述目标问答条目的主题关键词。可选地,所述装置还包括:第一添加模块,用于基于所述目标问答条目的主题关键词,为所述目标问答条目添加分类标签。可选地,所述第一添加模块具体用于:如果所述目标问答条目存在多个主题关键词,则确定在所述问题数据和所述答案数据中出现次数最多的目标主题关键词,并将所述目标主题关键词作为所述目标问答条目的分类标签存储至所述问答型知识库;如果所述目标问答条目存在唯一的主题关键词,则将所述目标主题关键词作为所述目标问答条目的分类标签存储至所述问答型知识库。可选地,所述装置还包括:第二添加模块,用于将所述主题关键词添加至与所述问答型知识库对接的搜索引擎的搜索关键词集合。可选地,从所述问题数据和所述答案数据中提取关键词所采用的关键词提取算法为TextRank算法或TF-IDF算法。本说明书还提出一种电子设备,所述电子设备包括:处理器;用于存储机器可执行指令的存储器;其中,通过读取并执行所述存储器存储的与关键词提取的控制逻辑对应的机器可执行指令,所述处理器被促使:从问答型知识库中读取目标问答条目;其中,所述目标问答条目包括问题数据和答案数据;分别从所述问题数据和所述答案数据中提取关键词;确定从所述问题数据中提取出的关键词与从所述答案数据中提取出的关键词中是否存在相同的目标关键词;如果存在相同的目标关键词,则将所述目标关键词确定为所述目标问答条目的主题关键词。在上述技术方案中,针对问答型知识库,可以分别对其中的问答条目所包含的问题数据和答案数据进行关键词提取,进一步地可以将从该问题数据中提取出的与从该答案数据中提取出的相同的关键词确定为该问答条目的主题关键词。这样,一方面可以利用各个问答条目的主题关键词对问答型知识库中的问答条目进行分类,从而可以便于利用主题关键词对问答型知识库进行快速检索。另一方面,由于主题关键词是从问题数据中提取出的与从答案数据中提取出的相同的关键词,因此可以更加精确地反映问答条目的主要内容,从而可以提高针对问答型知识库的检索准确度。附图说明图1是本说明书一示例性实施例示出的一种主题关键词的提取系统的示意图;图2是本说明书一示例性实施例示出的一种主题关键词的提取方法的流程图;图3是本说明书一示例性实施例示出的一种用户界面的示意图;图4是本说明书一示例性实施例示出的另一种用户界面的示意图;图5是本说明书一示例性实施例示出的一种主题关键词的提取装置所在电子设备的硬件结构图;图6是本说明书一示例性实施例示出的一种主题关键词的提取装置的框图。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。本说明书旨在提供一种针对问答型知识库,将其中的问答条目所包含的问题数据以及答案数据中相同的关键词,确定为该问答条目的主题关键词的技术方案。在具体实现时,可以对问答型知识库中的问答条目进行遍历,以从该问答型知识库中读取某个未被分类的问答条目。进一步地,可以从该问答条目所包含的问题数据中提取关键词,并从该问答条目所包含的答案数据中提取关键词。后续,可以通过将从该问题数据中提取出的关键词与从该答案数据中提取出的关键词进行比对,来确定从该问题数据中提取出的关键词与从该答案数据中提取出的关键词中是否存在相同的目标关键词。如果存在相同的目标关键词,则可以将该目标关键词确定为该问答条目的主题关键词。采用这样的方式,可以进一步地实现根据问答型知识库中的各个问答条目的主题关键词,对该问答型知识库中的问答条目进行分类。在上述技术方案中,针对问答型知识库,可以分别对其中的问答条目所包含的问题数据和答案数据进行关键词提取,进一步地可以将从该问题数据中提取出的与从该答案数据中提取出的相同的关键词确定为该问答条目的主题关键词。这样,一方面可以利用各个问答条目的主题关键词对问答型知识库中的问答条目进行分类,从而可以便于利用主题本文档来自技高网...

【技术保护点】
1.一种主题关键词的提取方法,所述方法包括:从问答型知识库中读取目标问答条目;其中,所述目标问答条目包括问题数据和答案数据;分别从所述问题数据和所述答案数据中提取关键词;确定从所述问题数据中提取出的关键词与从所述答案数据中提取出的关键词中是否存在相同的目标关键词;如果存在相同的目标关键词,则将所述目标关键词确定为所述目标问答条目的主题关键词。

【技术特征摘要】
1.一种主题关键词的提取方法,所述方法包括:从问答型知识库中读取目标问答条目;其中,所述目标问答条目包括问题数据和答案数据;分别从所述问题数据和所述答案数据中提取关键词;确定从所述问题数据中提取出的关键词与从所述答案数据中提取出的关键词中是否存在相同的目标关键词;如果存在相同的目标关键词,则将所述目标关键词确定为所述目标问答条目的主题关键词。2.根据权利要求1所述的方法,所述方法还包括:基于所述目标问答条目的主题关键词,为所述目标问答条目添加分类标签。3.根据权利要求2所述的方法,所述基于所述目标问答条目的主题关键词,为所述目标问答条目添加分类标签,包括:如果所述目标问答条目存在多个主题关键词,则确定在所述问题数据和所述答案数据中出现次数最多的目标主题关键词,并将所述目标主题关键词作为所述目标问答条目的分类标签存储至所述问答型知识库;如果所述目标问答条目存在唯一的主题关键词,则将所述目标主题关键词作为所述目标问答条目的分类标签存储至所述问答型知识库。4.根据权利要求1所述的方法,所述方法还包括:将所述主题关键词添加至与所述问答型知识库对接的搜索引擎的搜索关键词集合。5.根据权利要求1所述的方法,从所述问题数据和所述答案数据中提取关键词所采用的关键词提取算法为TextRank算法或TF-IDF算法。6.一种主题关键词的提取装置,所述装置包括:读取模块,用于从问答型知识库中读取目标问答条目;其中,所述目标问答条目包括问题数据和答案数据;提取模块,用于分别从所述问题数据和所述答案数据中提取关键词;第一确定模块,用于确定从所述问题数据中提取出的关键词与从所述答案...

【专利技术属性】
技术研发人员:谷银波
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1