【技术实现步骤摘要】
一种主题相关性确定方法、装置、存储介质及终端设备
本专利技术涉及数据处理
,尤其涉及一种主题相关性确定方法、装置、计算机可读存储介质及终端设备。
技术介绍
目前市面上的作文自动批改系统,例如ETS的E-rater、批改网和粉笔申论批改等,在自动识别内容与主题相关性的问题上,均主要是采用给定关键字匹配或基于庞大的主题做文库进行相似度比较,进而判别作文内容与主题或题干的贴合度。其中,采用给定关键字匹配的方式进行相关性确定在识别模式上过于简单,使得内容与主题相关性识别准确度较低,容易成为骗分攻击漏洞;而基于庞大的主题做文库进行相似度比较的方式则需要建立主题作文库,且需要进行人工标注,实施难度较大。
技术实现思路
本专利技术实施例提供了一种主题相关性确定方法、装置、计算机可读存储介质及终端设备,能够在实现主题相关性自动确定的基础上,提高相关性确定的准确率,且不需要建立作文库,极大地降低相关性确定的实施难度,方便快速得到主题相关性的确定结果。本专利技术实施例第一方面,提供了一种主题相关性确定方法,包括:分别对作文题目和作文内容进行关键词提取,得到所述作文题目对应的题目关键词和所述作文内容对应的内容关键词;对所述题目关键词和所述内容关键词进行关键词分类,得到所述作文题目对应的第一实体关键词和第一修饰关键词,以及得到所述作文内容对应的第二实体关键词和第二修饰关键词;基于预设英语词汇语义网Wordnet,分别计算各所述第二实体关键词与各所述第一实体关键词之间的第一相似度,并基于所述Wordnet分别计算各所述第二修饰关键词与各所述第一修饰关键词之间的第二相似度;根据所述 ...
【技术保护点】
1.一种主题相关性确定方法,其特征在于,包括:分别对作文题目和作文内容进行关键词提取,得到所述作文题目对应的题目关键词和所述作文内容对应的内容关键词;对所述题目关键词和所述内容关键词进行关键词分类,得到所述作文题目对应的第一实体关键词和第一修饰关键词,以及得到所述作文内容对应的第二实体关键词和第二修饰关键词;基于预设英语词汇语义网Wordnet,分别计算各所述第二实体关键词与各所述第一实体关键词之间的第一相似度,并基于所述Wordnet分别计算各所述第二修饰关键词与各所述第一修饰关键词之间的第二相似度;根据所述第一相似度和所述第二相似度,确定所述作文内容与所述作文题目之间的相关性。
【技术特征摘要】
1.一种主题相关性确定方法,其特征在于,包括:分别对作文题目和作文内容进行关键词提取,得到所述作文题目对应的题目关键词和所述作文内容对应的内容关键词;对所述题目关键词和所述内容关键词进行关键词分类,得到所述作文题目对应的第一实体关键词和第一修饰关键词,以及得到所述作文内容对应的第二实体关键词和第二修饰关键词;基于预设英语词汇语义网Wordnet,分别计算各所述第二实体关键词与各所述第一实体关键词之间的第一相似度,并基于所述Wordnet分别计算各所述第二修饰关键词与各所述第一修饰关键词之间的第二相似度;根据所述第一相似度和所述第二相似度,确定所述作文内容与所述作文题目之间的相关性。2.根据权利要求1所述的主题相关性确定方法,其特征在于,所述基于预设英语词汇语义网Wordnet,分别计算各所述第二实体关键词与各所述第一实体关键词之间的第一相似度,包括:分别将所述第一实体关键词和所述第二实体关键词映射至预设英语词汇语义网Wordnet中,以根据所述Wordnet确定各所述第一实体关键词对应的第一上位实体词和各所述第二实体关键词对应的第二上位实体词;分别计算各所述第二上位实体词与各所述第一上位实体词之间的距离;根据所述距离确定各所述第二实体关键词与各所述第一实体关键词之间的第一相似度。3.根据权利要求2所述的主题相关性确定方法,其特征在于,所述分别计算各所述第二上位实体词与各所述第一上位实体词之间的距离,包括:根据下述公式计算各所述第二上位实体词与各所述第一上位实体词之间的距离:其中,Distanceij为第i个第二上位实体词与第j个第一上位实体词之间的距离,Xi为第i个第二上位实体词,Yi为第j个第一上位实体词,hop(Xi,Yi)为Wordnet中Xi和Yi之间的跳数。4.根据权利要求1所述的主题相关性确定方法,其特征在于,所述基于所述Wordnet分别计算各所述第二修饰关键词与各所述第一修饰关键词之间的第二相似度,包括:分别将所述第一修饰关键词和所述第二修饰关键词映射至所述Wordnet中,以根据所述Wordnet获取各所述第一修饰关键词对应的第一相似词列表和各所述第二修饰关键词对应的第二相似词列表;分别计算各所述第二相似词列表与各所述第一相似词列表之间的Jaccard系数;根据所述Jaccard系数确定各所述第二修饰关键词与各所述第一修饰关键词之间的第二相似度。5.根据权利要求4所述的主题相关性确定方法,其特征在于,所述分别计算各所述第二相似词列表与各所述第一相似词列表之间的Jaccard系数,包括:根据下述公式计算所述Jaccard系数:Jaccardrt=|FSimilarWordr∩SSimilarWordt|/|FSimilarWordr∪SSimilarwordt|其中,Jaccardrt为第r个第二相似词列表与第t个第一相似词列表之间的Jaccard系数,FSimilarWordr为第r个第二相似词列表所对应的第二词集合,SSimilarWordt为第...
【专利技术属性】
技术研发人员:李文斌,
申请(专利权)人:平安国际智慧城市科技股份有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。