一种主题相关性确定方法、装置、存储介质及终端设备制造方法及图纸

技术编号:22076132 阅读:33 留言:0更新日期:2019-09-12 14:16
本发明专利技术涉及数据处理技术领域,尤其涉及一种主题相关性确定方法、装置、存储介质及终端设备。本发明专利技术在进行英语作文的内容与主题相关性确定时,可首先提取作文题目对应的题目关键词和作文内容对应的内容关键词,其次可分别对所提取的题目关键词和内容关键词进行分类,以得到对应的实体关键词和修饰关键词,然后基于预设英语词汇语义网Wordnet分别计算实体关键词之间的第一相似度和修饰关键词之间的第二相似度,从而可根据第一相似度和第二相似度确定内容与题目之间的相关性,以在实现相关性的自动确定的基础上,提高相关性确定的准确率,同时因不需要建立作文库,还可极大地降低相关性确定的实施难度,方便快速得到主题相关性的确定结果。

A Method, Device, Storage Media and Terminal Device for Determining Theme Relevance

【技术实现步骤摘要】
一种主题相关性确定方法、装置、存储介质及终端设备
本专利技术涉及数据处理
,尤其涉及一种主题相关性确定方法、装置、计算机可读存储介质及终端设备。
技术介绍
目前市面上的作文自动批改系统,例如ETS的E-rater、批改网和粉笔申论批改等,在自动识别内容与主题相关性的问题上,均主要是采用给定关键字匹配或基于庞大的主题做文库进行相似度比较,进而判别作文内容与主题或题干的贴合度。其中,采用给定关键字匹配的方式进行相关性确定在识别模式上过于简单,使得内容与主题相关性识别准确度较低,容易成为骗分攻击漏洞;而基于庞大的主题做文库进行相似度比较的方式则需要建立主题作文库,且需要进行人工标注,实施难度较大。
技术实现思路
本专利技术实施例提供了一种主题相关性确定方法、装置、计算机可读存储介质及终端设备,能够在实现主题相关性自动确定的基础上,提高相关性确定的准确率,且不需要建立作文库,极大地降低相关性确定的实施难度,方便快速得到主题相关性的确定结果。本专利技术实施例第一方面,提供了一种主题相关性确定方法,包括:分别对作文题目和作文内容进行关键词提取,得到所述作文题目对应的题目关键词和所述作文内容对应的内容关键词;对所述题目关键词和所述内容关键词进行关键词分类,得到所述作文题目对应的第一实体关键词和第一修饰关键词,以及得到所述作文内容对应的第二实体关键词和第二修饰关键词;基于预设英语词汇语义网Wordnet,分别计算各所述第二实体关键词与各所述第一实体关键词之间的第一相似度,并基于所述Wordnet分别计算各所述第二修饰关键词与各所述第一修饰关键词之间的第二相似度;根据所述第一相似度和所述第二相似度,确定所述作文内容与所述作文题目之间的相关性。本专利技术实施例第二方面,提供了一种主题相关性确定装置,包括:关键词提取模块,用于分别对作文题目和作文内容进行关键词提取,得到所述作文题目对应的题目关键词和所述作文内容对应的内容关键词;关键词分类模块,用于对所述题目关键词和所述内容关键词进行关键词分类,得到所述作文题目对应的第一实体关键词和第一修饰关键词,以及得到所述作文内容对应的第二实体关键词和第二修饰关键词;相似度计算模块,用于基于预设英语词汇语义网Wordnet,分别计算各所述第二实体关键词与各所述第一实体关键词之间的第一相似度,并基于所述Wordnet分别计算各所述第二修饰关键词与各所述第一修饰关键词之间的第二相似度;相关性确定模块,用于根据所述第一相似度和所述第二相似度,确定所述作文内容与所述作文题目之间的相关性。本专利技术实施例第三方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如前述第一方面所述主题相关性确定方法的步骤。本专利技术实施例第四方面,提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现如下步骤:分别对作文题目和作文内容进行关键词提取,得到所述作文题目对应的题目关键词和所述作文内容对应的内容关键词;对所述题目关键词和所述内容关键词进行关键词分类,得到所述作文题目对应的第一实体关键词和第一修饰关键词,以及得到所述作文内容对应的第二实体关键词和第二修饰关键词;基于预设英语词汇语义网Wordnet,分别计算各所述第二实体关键词与各所述第一实体关键词之间的第一相似度,并基于所述Wordnet分别计算各所述第二修饰关键词与各所述第一修饰关键词之间的第二相似度;根据所述第一相似度和所述第二相似度,确定所述作文内容与所述作文题目之间的相关性。从以上技术方案可以看出,本专利技术实施例具有以下优点:本专利技术实施例中,在进行英语作文批改的内容与主题相关性确定时,可首先分别提取作文题目中的题目关键词和作文内容中的内容关键词,其次可分别对所提取的题目关键词和内容关键词进行分类,以得到对应的实体关键词和修饰关键词,然后基于预设英语词汇语义网Wordnet分别计算实体关键词之间的第一相似度和修饰关键词之间的第二相似度,从而可根据第一相似度和第二相似度确定内容与题目之间的相关性,以在实现相关性的自动确定的基础上,提高相关性确定的准确率,同时因不需要建立作文库,还可极大地降低相关性确定的实施难度,方便快速得到主题相关性的确定结果。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例中一种主题相关性确定方法的一个实施例流程图;图2为本专利技术实施例中一种主题相关性确定方法在一个应用场景下确定第一相似度的流程示意图;图3为本专利技术实施例中一种主题相关性确定方法在一个应用场景下确定第二相似度的流程示意图;图4为本专利技术实施例中一种主题相关性确定方法在一个应用场景的流程示意图;图5为本专利技术实施例中一种主题相关性确定装置的一个实施例结构图;图6为本专利技术一实施例提供的一种终端设备的示意图。具体实施方式本专利技术实施例提供了一种主题相关性确定方法、装置、计算机可读存储介质及终端设备,用于在实现主题相关性自动确定的基础上,提高相关性确定的准确率,且不需要建立作文库,极大地降低相关性确定的实施难度,方便快速得到主题相关性的确定结果。为使得本专利技术的专利技术目的、特征、优点能够更加的明显和易懂,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本专利技术一部分实施例,而非全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。请参阅图1,本专利技术实施例提供了一种主题相关性确定方法,所述主题相关性确定方法包括:步骤S101、分别对作文题目和作文内容进行关键词提取,得到所述作文题目对应的题目关键词和所述作文内容对应的内容关键词;本专利技术实施例的执行主体为终端设备,所述终端设备包括但不限于:服务器、计算机、智能手机以及平板电脑等设备。具体地,当需要确定英语作文中内容与主题之间的相关性时,可将该英语作文导入所述终端设备,所述终端设备则可按照英语作文的格式将所述英语作文划分为作文题目和作文内容两个部分,并分别对这两部分进行关键词提取,以提取出作文题目对应的题目关键词和作文内容对应的内容关键词,如可通过词频-逆文档频率TF_IDF矩阵来进行关键词提取。在此,通过TF_IDF矩阵来进行关键词提取仅作示意性解释,不应理解为对本专利技术实施例的限制,本专利技术实施例中,当然也可以采用其他关键词提取方法来进行关键词的提取。步骤S102、对所述题目关键词和所述内容关键词进行关键词分类,得到所述作文题目对应的第一实体关键词和第一修饰关键词,以及得到所述作文内容对应的第二实体关键词和第二修饰关键词;本专利技术实施例中,在提取出作文题目对应的题目关键词和作文内容对应的内容关键词之后,则可根据自然语言处理中的词性标注(即NLPpos-tagging处理)来分别对题目关键词和内容关键词进行关键词分类,以得到作文题目对应的第一实体关键词和第一修本文档来自技高网...

【技术保护点】
1.一种主题相关性确定方法,其特征在于,包括:分别对作文题目和作文内容进行关键词提取,得到所述作文题目对应的题目关键词和所述作文内容对应的内容关键词;对所述题目关键词和所述内容关键词进行关键词分类,得到所述作文题目对应的第一实体关键词和第一修饰关键词,以及得到所述作文内容对应的第二实体关键词和第二修饰关键词;基于预设英语词汇语义网Wordnet,分别计算各所述第二实体关键词与各所述第一实体关键词之间的第一相似度,并基于所述Wordnet分别计算各所述第二修饰关键词与各所述第一修饰关键词之间的第二相似度;根据所述第一相似度和所述第二相似度,确定所述作文内容与所述作文题目之间的相关性。

【技术特征摘要】
1.一种主题相关性确定方法,其特征在于,包括:分别对作文题目和作文内容进行关键词提取,得到所述作文题目对应的题目关键词和所述作文内容对应的内容关键词;对所述题目关键词和所述内容关键词进行关键词分类,得到所述作文题目对应的第一实体关键词和第一修饰关键词,以及得到所述作文内容对应的第二实体关键词和第二修饰关键词;基于预设英语词汇语义网Wordnet,分别计算各所述第二实体关键词与各所述第一实体关键词之间的第一相似度,并基于所述Wordnet分别计算各所述第二修饰关键词与各所述第一修饰关键词之间的第二相似度;根据所述第一相似度和所述第二相似度,确定所述作文内容与所述作文题目之间的相关性。2.根据权利要求1所述的主题相关性确定方法,其特征在于,所述基于预设英语词汇语义网Wordnet,分别计算各所述第二实体关键词与各所述第一实体关键词之间的第一相似度,包括:分别将所述第一实体关键词和所述第二实体关键词映射至预设英语词汇语义网Wordnet中,以根据所述Wordnet确定各所述第一实体关键词对应的第一上位实体词和各所述第二实体关键词对应的第二上位实体词;分别计算各所述第二上位实体词与各所述第一上位实体词之间的距离;根据所述距离确定各所述第二实体关键词与各所述第一实体关键词之间的第一相似度。3.根据权利要求2所述的主题相关性确定方法,其特征在于,所述分别计算各所述第二上位实体词与各所述第一上位实体词之间的距离,包括:根据下述公式计算各所述第二上位实体词与各所述第一上位实体词之间的距离:其中,Distanceij为第i个第二上位实体词与第j个第一上位实体词之间的距离,Xi为第i个第二上位实体词,Yi为第j个第一上位实体词,hop(Xi,Yi)为Wordnet中Xi和Yi之间的跳数。4.根据权利要求1所述的主题相关性确定方法,其特征在于,所述基于所述Wordnet分别计算各所述第二修饰关键词与各所述第一修饰关键词之间的第二相似度,包括:分别将所述第一修饰关键词和所述第二修饰关键词映射至所述Wordnet中,以根据所述Wordnet获取各所述第一修饰关键词对应的第一相似词列表和各所述第二修饰关键词对应的第二相似词列表;分别计算各所述第二相似词列表与各所述第一相似词列表之间的Jaccard系数;根据所述Jaccard系数确定各所述第二修饰关键词与各所述第一修饰关键词之间的第二相似度。5.根据权利要求4所述的主题相关性确定方法,其特征在于,所述分别计算各所述第二相似词列表与各所述第一相似词列表之间的Jaccard系数,包括:根据下述公式计算所述Jaccard系数:Jaccardrt=|FSimilarWordr∩SSimilarWordt|/|FSimilarWordr∪SSimilarwordt|其中,Jaccardrt为第r个第二相似词列表与第t个第一相似词列表之间的Jaccard系数,FSimilarWordr为第r个第二相似词列表所对应的第二词集合,SSimilarWordt为第...

【专利技术属性】
技术研发人员:李文斌
申请(专利权)人:平安国际智慧城市科技股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1