【技术实现步骤摘要】
基于排版和图文关联融合分析的文章质量评价方法及装置
[0001]本专利技术属于人工智能
,具体涉及基于排版和图文关联融合分析的文章质量评价方法及装置。
技术介绍
[0002]随着现代医学的飞速发展,对患者的治疗越来越倾向于以人为本,不再是问诊开药这一单一路径,对患者的心理健康和诊后康复越来越重视。其中,健康宣教就是其中一种重要的手段。有效的健康宣教不仅能够告知患者对疾病的正确认识,也能让患者学会正确的康复和预防手段。同时,良好的健康宣教也能帮助建立良好的医患关系,是病人积极配合治疗的基础。但是,随着宣教文章数量的爆发性增长,其中也参杂了很多低质量的文章。例如,排版编排混乱的剽窃文,或图文不匹配的广告推荐文等。低质量的文章往往会让患者对医院的第一印象变差,从而滋生不信任的心理,影响后续的诊断治疗。因此,为了提高宣教文章的整体质量,但又不依赖大量人工的逐一排查,亟需一种能对宣教文章进行自动质量评价的方法。
[0003]相关专利文献,“一种文章评分方法及系统”,201610427512.5,该专利主要描述了一种文章评分方法及系统,该方法基于预先定义的特征模版,提取对应的文章特征,包括:词汇特征和/文采特征、立意特征、篇章结构特征、词汇级语义特征等。再将提取到的特征输入到支持向量回归模型得到具体地评分。但该方法仅提出一种针对纯文字编排的篇章的分析方法,并不适用于图文搭配的宣教文章评分。
技术实现思路
[0004]为解决现有技术的不足,实现剔除排版混乱和图文不匹配的宣教文章的目的,本专利技术采用如 ...
【技术保护点】
【技术特征摘要】
1.基于排版和图文关联融合分析的文章质量评价方法,其特征在于包括如下步骤:步骤S1:构建图文关联性分析模型,对输入的图片和文字进行关联性分析;步骤S2:生成文章布局特征,对文章的布局进行结构化解析,生成结构化的文本数据,基于文本数据,通过特征模版,生成文章区块特征;当相邻文章区块分别为文字和图片时,基于图文关联性分析模型,将图片和文字的关联性作为相应文章区块的特征;步骤S3:构建文章质量评价模型,根据文章各区块特征及区块序列,通过时序循环神经网络,得到基于时序的最终语义向量,通过最终语义向量,对文章质量进行评价。2.根据权利要求1所述的基于排版和图文关联融合分析的文章质量评价方法,其特征在于:所述步骤S1包括如下步骤:步骤S1.1:规整训练数据,从现有文章中提取图片数据,并为图片添加相应的描述性话术,作为正样本数据;步骤S1.2:图文匹配模型训练,获取对应的图文数据进行融合,基于融合向量得到是否匹配的预测结果,通过比较预测结果和真实的匹配结果,训练图文匹配模型;步骤S1.3:存储最佳的图文匹配模型。3.根据权利要求2所述的基于排版和图文关联融合分析的文章质量评价方法,其特征在于:所述步骤S1.2中,训练的损失函数为交叉熵损失函数,用于衡量模型输出的概率分布与实际标签之间的差异,具体地,对于基于图文数据的融合向量,其标签为y,即匹配程度,模型输出的概率分布向量为p,交叉熵损失函数的计算方式如下:其中,n表示类别的数量,y
i
表示实际标签中第i类匹配程度的概率,p
i
表示模型输出的概率分布中第i类匹配程度的概率。4.根据权利要求1所述的基于排版和图文关联融合分析的文章质量评价方法,其特征在于:所述步骤S1的图文关联性分析模块包括特征向量提取模块和特征向量分析模块,特征向量提取模块用于提取原始数据的特征向量,包括图片特征提取模型和语义向量提取模型,特征向量分析模块包括图文匹配模型,该模型的输入为特征向量提取模块的输出;所述步骤S2中的特征模版包括如下维度:维度1:针对当前区块的内容类型,构建离散特征,当前区块内容类型包括文字、图片;维度11:针对当前区块的内容与前置区块的关联度,构建离散特征;若当前区块没有前置区块,则维度11的值为0;若当前区块的内容为文字,且前置区块的内容为文字,则通过语义向量提取模型,生成两段文字的特征向量,并计算两者的余弦相似度,作为维度11的值;若当前区块的内容为图片,且前置区块的内容为图片,则通过图片特征提取模型,生成两幅图片的特征向量,并计算两者的余弦相似度,作为维度11的值;若当前区块的内容为文字,且前置区块的内容为图片,或当前区块的内容为图片,且前置区块的内容为文字,则通过图文匹配模型,计算两者的关联性分数作为维度11的值。5.根据权利要求1所述的基于排版和图文关联融合分析的文章质量评价方法,其特征在于:所述步骤S1的图文关联性分析模块包括特征向量提取模块和特征向量分析模块,特
征向量提取模块用于提取原始数据的特征向量,包括图片特征提取模型和语义向量提取模型,特征向量分析模块包括图文匹配模型,该模型的输入为特征向量提取模块的输出;所述步骤S2中的特征模版包括如下维度:维度1:针对当前区块的内容类型,构建离散特征,当前区块内容类型包括文字、图片;维度12:针对当前区块的内容与后置区块的关联度,构建离散特征;若当前区块没有后置区块,则维度12的值为0;若当前区块的内容为文字,且后置区块的内容为文字,则通过语义向量提取模型,生成两段文字的特征向量,并计算两者的余弦相似度,作为维度12的值;若当前区块的内容为图片,且后置区块的内容为图片,则通过图片特征提取模型,生成两幅图片的特征向量,并计算两者的余弦相似度,作为维度12的值;若当前区块的内...
【专利技术属性】
技术研发人员:许海波,朱阳阳,周鹏宏,袁佰军,陶金,陈禹,赵晰铖,林剑,钟南南,陈通文,曹沈栋,
申请(专利权)人:杭州健海科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。