版权的多粒度拆分及其商业价值的挖掘方法技术

技术编号:22187367 阅读:12 留言:0更新日期:2019-09-25 03:59
本申请属于人工智能技术领域,进一步地,是涉及版权的多粒度拆分及其商业价值的挖掘方法,包括版权的多粒度拆分方法和版权商业价值的挖掘方法,版权的多粒度拆分方法包括场景角度拆分和特定人物拆分,所述版权的多粒度拆分方法还包括面向全文的语言特征挖掘和以场景角度拆分为基础的场景特征挖掘、人物特征挖掘、人物关系特征挖掘,所述版权商业价值的挖掘方法包括版权题材挖掘、版权质量判定和版权商业价值定价。本申请可以解决现有技术中机器识别无法对版权进行正确的质量判断,易错失优质版权,无法实现基于自动形成的版权质量评估报告,无法构建大规模的版权孵化平台等问题。

Multi-granularity Splitting of Copyright and Its Business Value Mining Method

【技术实现步骤摘要】
版权的多粒度拆分及其商业价值的挖掘方法
本申请属于人工智能
,进一步地,是涉及版权的多粒度拆分及其商业价值的挖掘方法。
技术介绍
目前发现优质版权的主要路径为:成名作者的新版权;专业人员的人工评审,如出版公司的图书策划人员、影视公司的项目开发人员,有相当一部分精力放在发现优质版权上;海量用户的试读,如各种网文站点,会分配一部分流量给新网文,再根据后继的阅读深度、口碑等决定该版权的流量分配额度。但一方面现有机器识别效果不佳,相较于人工识别还存在差距,使用机器识别易错过优质版权;成名作者的产量有限,行业需要新作者的不断涌现,以提升版权资源的供给,进而,对新作者的发现能力决定了每个版权孵化公司的收益上限;与此同时,专业人员审核的成本极高,且相对于千万量级的新版权,专业人员能够处理的数量极为有限;此外千万量级的新版权分配至用户试读,会造成极大的用户伤害。
技术实现思路
本申请解决的主要问题是提供版权的多粒度拆分及其商业价值的挖掘方法,以解决现有技术中机器识别版权时,对版权的拆分不完全,导致对版权的认识不完全,从而导致无法对版权进行正确的质量判断,易错失优质版权,与此同时,现有技术中并不存在对版权的商业价值评估,因此无法实现基于自动形成的版权质量评估报告,无法构建大规模的版权孵化平台,与此同时,非机器识别的人工识别审核的成本极高,且相对于千万量级的新版权,专业人员能够处理的数量极为有限,与此同时,由于并没有对版权进行正确的质量判断,如果将千万量级的新版权分配至用户试读,会造成极大的用户伤害等问题。版权的多粒度拆分及其商业价值的挖掘方法,包括版权的多粒度拆分方法和版权商业价值的挖掘方法,版权的多粒度拆分方法包括场景角度拆分和特定人物拆分,所述版权的多粒度拆分方法还包括面向全文的语言特征挖掘和以场景角度拆分为基础的场景特征挖掘、人物特征挖掘、人物关系特征挖掘,所述版权商业价值的挖掘方法包括版权题材挖掘、版权质量判定和版权商业价值定价。进一步地,所述全文语言特征挖掘的包括:情感特征挖掘、文采特征挖掘和语义特征挖掘,所述情感特征挖掘包括词情感分布。进一步地,所述情感特征挖掘包括收集整理常用词的情感取值和统计版权正文中每种词性下的词情感分布(分区间统计)。进一步地,所述文采特征挖掘包括:词长度分布,统计每种词性下单字词、双字词……N字词的占比情况;词常见性分布,统计每种词性下常见词、非常见词的占比情况(按idf排名分区间统计);单句中词数量分布,统计每种词性下在单个句子中的数量分布;词丰富度度量,统计每种词性下的词丰富度(用信息熵度量)。进一步地,所述语义特征挖掘包括:文档的词特征,由信息增益(IG)选取前N个词,统计每个词在当前版权中的tfidf权重;文档的语义分布,由词向量(通过word2vec获得常用词的词向量)按照tfidf叠加并归一化产生文档的语义分布。进一步地,所述场景特征挖掘包括:场景中的统计特征,包括场景长度、对话人物数量、场景内文字在全部文字中的占比;场景中的人物情绪,包括场景中主要角色的情感平均值、方差、走势和场景中主要角色间的情感一致性、对立度统计;场景中的人物关系,包括场景中主要人物的关系类型(亲密、对立、无)和场景中主要人物的关系变化。进一步地,所述人物特征挖掘包括:人物基础属性,通过人物知识库挖掘人物的性别、年龄、性格、目标、困境、内心冲突等基础信息;人物成长属性,通过场景序列分析人物在故事推动过程中的变化。进一步地,所述人物关系特征挖掘包括:关系复杂度分析,特定两个角色间所经历的关系类型、情感均值、情感方差、情感差异、情感一致性等特征;关系变化序列分析,包括特定两个角色间所经历的关系转化序列、情感波动序列、情感差异性|一致性序列。进一步地,所述版权题材挖掘包括将所述版权的多粒度拆分方法的特征套用合适的机器学习模型,所述版权质量判定的依据为所述版权的多粒度拆分方法所得的特征。进一步地,所述版权商业价值定价的依据为所述版权质量判定和所述版权题材挖掘。本申请的有益效果:(1)对版权做多维度的质量判断,从而自动形成对版权的质量评估报告。现有技术中机器识别版权时,对版权的拆分不完全,导致对版权的认识不完全,从而导致无法对版权进行正确的质量判断,易错失优质版权,本申请中对版权进行多方面多粒度的拆分,由于在对版权拆分时相较于现有技术更加多角度更加细致,因此可以实现对版权多方面多维度的质量判断。(2)基于自动形成的版权质量评估报告,构建大规模的版权孵化平台。现有技术中并不存在对版权的商业价值评估,而现有技术中根据版权质量判断和版权题材进行了针对版权的独特的商业价值评估,可以实现对版权的准确的质量判断,由于海量数据为机器计算而非人工,因此可以在做出准确质量判断时自动形成针对版权的质量评估报告,从而实现版权的孵化,构建大规模的版权孵化平台。(3)通过千万量级的正文发现优质的新版权,通过发现优质的新版权而发现优质的新作者。非机器识别的人工识别审核的成本极高,且相对于千万量级的新版权,专业人员能够处理的数量极为有限,因此人工识别出现了巨大的阻碍,本申请中将版权进行多粒度拆分,可以使得机器识别在效果上更加趋近于人工识别,由于机器识别速度较快,费用低,因此可以节省识别时间和节约识别费用,与此同时,由于机器的成本相对人工成本非常低廉,所以可以在第一时间对全网所有新版权进行分析,进而在第一时间锁定所有新晋优质作者(4)现有技术中由于并没有对版权进行正确的质量判断,如果将千万量级的新版权分配至用户试读,会造成极大的用户伤害,而本申请中对版权的质量评估筛选后的版权具有较高的质量,将其分配给用户试读可以带来较好的用户体验。具体实施方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合对本专利技术的具体实施方式做详细的说明、在下面的描述中阐述了很多具体细节以便与充分理解本专利技术。但是本专利技术能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本专利技术内涵的情况下做类似改进,因此本专利技术不受下面公开的具体实施的限制。版权的多粒度拆分及其商业价值的挖掘方法,包括版权的多粒度拆分方法和版权商业价值的挖掘方法,版权的多粒度拆分方法包括场景角度拆分和特定人物拆分,所述版权的多粒度拆分方法还包括面向全文的语言特征挖掘和以场景角度拆分为基础的场景特征挖掘、人物特征挖掘、人物关系特征挖掘,所述版权商业价值的挖掘方法包括版权题材挖掘、版权质量判定和版权商业价值定价。进一步地,所述全文语言特征挖掘的包括:情感特征挖掘、文采特征挖掘和语义特征挖掘,所述情感特征挖掘包括词情感分布。进一步地,所述情感特征挖掘包括收集整理常用词的情感取值和统计版权正文中每种词性下的词情感分布(分区间统计)。进一步地,所述文采特征挖掘包括:词长度分布,统计每种词性下单字词、双字词……N字词的占比情况;词常见性分布,统计每种词性下常见词、非常见词的占比情况(按idf排名分区间统计);单句中词数量分布,统计每种词性下在单个句子中的数量分布;词丰富度度量,统计每种词性下的词丰富度(用信息熵度量)。进一步地,所述语义特征挖掘包括:文档的词特征,由信息增益(IG)选取前N个词,统计每个词在当前版权中的tfidf权重;文档的语义分布,由词向量(通过word2v本文档来自技高网...

【技术保护点】
1.版权的多粒度拆分及其商业价值的挖掘方法,包括版权的多粒度拆分方法和版权商业价值的挖掘方法,版权的多粒度拆分方法包括场景角度拆分和特定人物拆分,其特征在于,所述版权的多粒度拆分方法还包括面向全文的语言特征挖掘和以场景角度拆分为基础的场景特征挖掘、人物特征挖掘、人物关系特征挖掘,所述版权商业价值的挖掘方法包括版权题材挖掘、版权质量判定和版权商业价值定价。

【技术特征摘要】
1.版权的多粒度拆分及其商业价值的挖掘方法,包括版权的多粒度拆分方法和版权商业价值的挖掘方法,版权的多粒度拆分方法包括场景角度拆分和特定人物拆分,其特征在于,所述版权的多粒度拆分方法还包括面向全文的语言特征挖掘和以场景角度拆分为基础的场景特征挖掘、人物特征挖掘、人物关系特征挖掘,所述版权商业价值的挖掘方法包括版权题材挖掘、版权质量判定和版权商业价值定价。2.根据权利要求1所述的版权的多粒度拆分及其商业价值的挖掘方法,其特征在于,所述全文语言特征挖掘的包括:情感特征挖掘、文采特征挖掘和语义特征挖掘,所述情感特征挖掘包括词情感分布。3.根据权利要求2所述的版权的多粒度拆分及其商业价值的挖掘方法,其特征在于,所述情感特征挖掘包括收集整理常用词的情感取值和统计版权正文中每种词性下的词情感分布(分区间统计)。4.根据权利要求2所述的版权的多粒度拆分及其商业价值的挖掘方法,其特征在于,所述文采特征挖掘包括:词长度分布,统计每种词性下单字词、双字词……N字词的占比情况;词常见性分布,统计每种词性下常见词、非常见词的占比情况(按idf排名分区间统计);单句中词数量分布,统计每种词性下在单个句子中的数量分布;词丰富度度量,统计每种词性下的词丰富度(用信息熵度量)。5.根据权利要求2所述的版权的多粒度拆分及其商业价值的挖掘方法,其特征在于,所述语义特征挖掘包括:文档的词特征,由信息增益(IG)选取前N个词,统计每个词在当前版权中的tfidf权重;文档的语义分布,由词向量(通过word2vec获得常用词的词向量...

【专利技术属性】
技术研发人员:徐兴军吴又杨宇航
申请(专利权)人:北京云莱坞文化传媒有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1