基于排版和图文关联融合分析的文章质量评价方法及装置制造方法及图纸

技术编号:38096915 阅读:10 留言:0更新日期:2023-07-06 09:12
本发明专利技术公开了基于排版和图文关联融合分析的文章质量评价方法及装置,构建图文关联性分析模型,对输入的图片和文字进行关联性分析;生成文章布局特征,对文章的布局进行结构化解析,生成结构化的文本数据,基于文本数据,通过特征模版,生成文章区块特征;当相邻文章区块分别为文字和图片时,基于图文关联性分析模型,将图片和文字的关联性作为相应文章区块的特征;构建文章质量评价模型,根据文章各区块特征及区块序列,通过时序循环神经网络,得到基于时序的最终语义向量,通过最终语义向量,对文章质量进行评价;从而提升对包含图文的文章进行质量评价的准确度,实现对排版混乱和图文不匹配的文章的筛选。和图文不匹配的文章的筛选。和图文不匹配的文章的筛选。

【技术实现步骤摘要】
基于排版和图文关联融合分析的文章质量评价方法及装置


[0001]本专利技术属于人工智能
,具体涉及基于排版和图文关联融合分析的文章质量评价方法及装置。

技术介绍

[0002]随着现代医学的飞速发展,对患者的治疗越来越倾向于以人为本,不再是问诊开药这一单一路径,对患者的心理健康和诊后康复越来越重视。其中,健康宣教就是其中一种重要的手段。有效的健康宣教不仅能够告知患者对疾病的正确认识,也能让患者学会正确的康复和预防手段。同时,良好的健康宣教也能帮助建立良好的医患关系,是病人积极配合治疗的基础。但是,随着宣教文章数量的爆发性增长,其中也参杂了很多低质量的文章。例如,排版编排混乱的剽窃文,或图文不匹配的广告推荐文等。低质量的文章往往会让患者对医院的第一印象变差,从而滋生不信任的心理,影响后续的诊断治疗。因此,为了提高宣教文章的整体质量,但又不依赖大量人工的逐一排查,亟需一种能对宣教文章进行自动质量评价的方法。
[0003]相关专利文献,“一种文章评分方法及系统”,201610427512.5,该专利主要描述了一种文章评分方法及系统,该方法基于预先定义的特征模版,提取对应的文章特征,包括:词汇特征和/文采特征、立意特征、篇章结构特征、词汇级语义特征等。再将提取到的特征输入到支持向量回归模型得到具体地评分。但该方法仅提出一种针对纯文字编排的篇章的分析方法,并不适用于图文搭配的宣教文章评分。

技术实现思路

[0004]为解决现有技术的不足,实现剔除排版混乱和图文不匹配的宣教文章的目的,本专利技术采用如下的技术方案:
[0005]基于排版和图文关联融合分析的文章质量评价方法,包括如下步骤:
[0006]步骤S1:构建图文关联性分析模型,对输入的图片和文字进行关联性分析;
[0007]步骤S2:生成文章布局特征,对文章的布局进行结构化解析,生成结构化的文本数据,基于文本数据,通过特征模版,生成文章区块特征;当相邻文章区块分别为文字和图片时,基于图文关联性分析模型,将图片和文字的关联性作为相应文章区块的特征;
[0008]步骤S3:构建文章质量评价模型,根据文章各区块特征及区块序列,通过时序循环神经网络,得到基于时序的最终语义向量,通过最终语义向量,对文章质量进行评价。
[0009]进一步地,所述步骤S1包括如下步骤:
[0010]步骤S1.1:规整训练数据,从现有文章中提取图片数据,并为图片添加相应的描述性话术,作为正样本数据;
[0011]步骤S1.2:图文匹配模型训练,获取对应的图文数据进行融合,基于融合向量得到是否匹配的预测结果,通过比较预测结果和真实的匹配结果,训练图文匹配模型;
[0012]步骤S1.3:存储最佳的图文匹配模型。
[0013]进一步地,所述步骤S1.2中,训练的损失函数为交叉熵损失函数,用于衡量模型输出的概率分布与实际标签之间的差异,具体地,对于基于图文数据的融合向量,其标签为y,即匹配程度,模型输出的概率分布向量为p,交叉熵损失函数的计算方式如下:
[0014][0015]其中,n表示类别的数量,y
i
表示实际标签中第i类匹配程度的概率,p
i
表示模型输出的概率分布中第i类匹配程度的概率,该损失函数是可导的,故可以直接用梯度下降法不断优化和迭代,得到一个最佳的模型M
best
并保存。
[0016]进一步地,所述步骤S1的图文关联性分析模块包括特征向量提取模块和特征向量分析模块,特征向量提取模块用于提取原始数据的特征向量,包括图片特征提取模型和语义向量提取模型,特征向量分析模块包括图文匹配模型,该模型的输入为特征向量提取模块的输出;
[0017]所述步骤S2中的特征模版包括如下维度:
[0018]维度1:针对当前区块的内容类型,构建离散特征,当前区块内容类型包括文字、图片;
[0019]维度11:针对当前区块的内容与前置区块的关联度,构建离散特征;
[0020]若当前区块没有前置区块,则维度11的值为0;
[0021]若当前区块的内容为文字,且前置区块的内容为文字,则通过语义向量提取模型,生成两段文字的特征向量,并计算两者的余弦相似度,作为维度11的值;
[0022]若当前区块的内容为图片,且前置区块的内容为图片,则通过图片特征提取模型,生成两幅图片的特征向量,并计算两者的余弦相似度,作为维度11的值;
[0023]若当前区块的内容为文字,且前置区块的内容为图片,或当前区块的内容为图片,且前置区块的内容为文字,则通过图文匹配模型,计算两者的关联性分数作为维度11的值。
[0024]进一步地,所述步骤S1的图文关联性分析模块包括特征向量提取模块和特征向量分析模块,特征向量提取模块用于提取原始数据的特征向量,包括图片特征提取模型和语义向量提取模型,特征向量分析模块包括图文匹配模型,该模型的输入为特征向量提取模块的输出;
[0025]所述步骤S2中的特征模版包括如下维度:
[0026]维度1:针对当前区块的内容类型,构建离散特征,当前区块内容类型包括文字、图片;
[0027]维度12:针对当前区块的内容与后置区块的关联度,构建离散特征;
[0028]若当前区块没有后置区块,则维度12的值为0;
[0029]若当前区块的内容为文字,且后置区块的内容为文字,则通过语义向量提取模型,生成两段文字的特征向量,并计算两者的余弦相似度,作为维度12的值;
[0030]若当前区块的内容为图片,且后置区块的内容为图片,则通过图片特征提取模型,生成两幅图片的特征向量,并计算两者的余弦相似度,作为维度12的值;
[0031]若当前区块的内容为文字,且后置区块的内容为图片,或当前区块的内容为图片,且后置区块的内容为文字,则通过图文匹配模型,计算两者的关联性分数作为维度12的值。
[0032]进一步地,所述步骤S2中的维度11,若当前区块的内容为文字,并包含加粗字体的文本,则使用加粗字体的文本生成特征向量。一段文本中的加粗字体,则可以理解为特别能够代表作者对这段文本想要表达的含义,因此仅用加粗的几句文本去做语义的特征匹配,会比全段落的文本做语义的特征匹配效果更好。
[0033]进一步地,所述步骤S2中的特征模版的维度包括:
[0034]维度2至4:针对当前区块的位置边界,构建离散特征;
[0035]其中,维度2的值为当前区块的左边界空隙占区块的宽度百分比;
[0036]其中,维度3的值为当前区块的右边界空隙占区块的宽度百分比;
[0037]两边留白的空隙过少,会使阅览者觉得文章内容太多,留白的空隙过多,又会使阅览者觉得文章内容太少,因此需要使区块具备合适的留白;
[0038]其中,维度4的值为当前区块内的行间距占区块的高度百分比;
[0039]行间距需要与整个区块的高度相匹配,高度越高允许的行间距可以越大,但区块内的行间距需要合本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于排版和图文关联融合分析的文章质量评价方法,其特征在于包括如下步骤:步骤S1:构建图文关联性分析模型,对输入的图片和文字进行关联性分析;步骤S2:生成文章布局特征,对文章的布局进行结构化解析,生成结构化的文本数据,基于文本数据,通过特征模版,生成文章区块特征;当相邻文章区块分别为文字和图片时,基于图文关联性分析模型,将图片和文字的关联性作为相应文章区块的特征;步骤S3:构建文章质量评价模型,根据文章各区块特征及区块序列,通过时序循环神经网络,得到基于时序的最终语义向量,通过最终语义向量,对文章质量进行评价。2.根据权利要求1所述的基于排版和图文关联融合分析的文章质量评价方法,其特征在于:所述步骤S1包括如下步骤:步骤S1.1:规整训练数据,从现有文章中提取图片数据,并为图片添加相应的描述性话术,作为正样本数据;步骤S1.2:图文匹配模型训练,获取对应的图文数据进行融合,基于融合向量得到是否匹配的预测结果,通过比较预测结果和真实的匹配结果,训练图文匹配模型;步骤S1.3:存储最佳的图文匹配模型。3.根据权利要求2所述的基于排版和图文关联融合分析的文章质量评价方法,其特征在于:所述步骤S1.2中,训练的损失函数为交叉熵损失函数,用于衡量模型输出的概率分布与实际标签之间的差异,具体地,对于基于图文数据的融合向量,其标签为y,即匹配程度,模型输出的概率分布向量为p,交叉熵损失函数的计算方式如下:其中,n表示类别的数量,y
i
表示实际标签中第i类匹配程度的概率,p
i
表示模型输出的概率分布中第i类匹配程度的概率。4.根据权利要求1所述的基于排版和图文关联融合分析的文章质量评价方法,其特征在于:所述步骤S1的图文关联性分析模块包括特征向量提取模块和特征向量分析模块,特征向量提取模块用于提取原始数据的特征向量,包括图片特征提取模型和语义向量提取模型,特征向量分析模块包括图文匹配模型,该模型的输入为特征向量提取模块的输出;所述步骤S2中的特征模版包括如下维度:维度1:针对当前区块的内容类型,构建离散特征,当前区块内容类型包括文字、图片;维度11:针对当前区块的内容与前置区块的关联度,构建离散特征;若当前区块没有前置区块,则维度11的值为0;若当前区块的内容为文字,且前置区块的内容为文字,则通过语义向量提取模型,生成两段文字的特征向量,并计算两者的余弦相似度,作为维度11的值;若当前区块的内容为图片,且前置区块的内容为图片,则通过图片特征提取模型,生成两幅图片的特征向量,并计算两者的余弦相似度,作为维度11的值;若当前区块的内容为文字,且前置区块的内容为图片,或当前区块的内容为图片,且前置区块的内容为文字,则通过图文匹配模型,计算两者的关联性分数作为维度11的值。5.根据权利要求1所述的基于排版和图文关联融合分析的文章质量评价方法,其特征在于:所述步骤S1的图文关联性分析模块包括特征向量提取模块和特征向量分析模块,特
征向量提取模块用于提取原始数据的特征向量,包括图片特征提取模型和语义向量提取模型,特征向量分析模块包括图文匹配模型,该模型的输入为特征向量提取模块的输出;所述步骤S2中的特征模版包括如下维度:维度1:针对当前区块的内容类型,构建离散特征,当前区块内容类型包括文字、图片;维度12:针对当前区块的内容与后置区块的关联度,构建离散特征;若当前区块没有后置区块,则维度12的值为0;若当前区块的内容为文字,且后置区块的内容为文字,则通过语义向量提取模型,生成两段文字的特征向量,并计算两者的余弦相似度,作为维度12的值;若当前区块的内容为图片,且后置区块的内容为图片,则通过图片特征提取模型,生成两幅图片的特征向量,并计算两者的余弦相似度,作为维度12的值;若当前区块的内...

【专利技术属性】
技术研发人员:许海波朱阳阳周鹏宏袁佰军陶金陈禹赵晰铖林剑钟南南陈通文曹沈栋
申请(专利权)人:杭州健海科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1