System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于人工智能的图书出版智慧选题系统技术方案_技高网

一种基于人工智能的图书出版智慧选题系统技术方案

技术编号:40419627 阅读:5 留言:0更新日期:2024-02-20 22:38
本发明专利技术涉及文本处理技术领域,具体涉及一种基于人工智能的图书出版智慧选题系统,所述系统包括:数据采集模块:获取各月的热点评论数据作为各月的文档集合;数据处理模块:选取文档集合中的实体词;根据文档集合中的实体词筛选得到候选词;根据候选词自身特征得到图书出版选题自身重要性;采用PageRank算法对各候选词进行迭代得到图书出版选题重要性;根据各候选词的选题重要性变化序列得到图书出版选题指数;选题推荐模块:根据候选词以及用户输入选题要求中的各实体词之间的相关性关系得到候选词的语义匹配选题指数序列,将序列中前r个候选词作为给用户选题推荐的关键词。本发明专利技术提高了用户选题需求的关键词推荐精准性。

【技术实现步骤摘要】

本申请涉及文本处理,具体涉及一种基于人工智能的图书出版智慧选题系统


技术介绍

1、随着互联网和数字化技术的发展,大量文本数据被生成和存储,传统的图书选题方式面临着海量信息的挑战。基于人工智能的图书出版智慧选题系统能够从庞大的数据中提取出有价值的信息,帮助编辑人员快速准确的进行选题。而且人工智能技术可以分析读者的行为喜好,了解他们的阅读兴趣和偏好,从而选题时候能够更贴切读者的需求,提供符合市场需求的图书,提高销量和读者满意度。

2、由于智慧选题系统通常需要能够理解和分析大量的文本数据,因此采用自然语言处理技术能够起到很好的效果。在进行智慧选题时,通常需要涉及文本分类、实体识别、情感分析等技术帮助编辑人员更好的理解并处理大量的文本数据。文本数据通常具有高度的多样性和复杂性,来自不同的领域、不同的获取源,且还可能存在噪声和错误。常规方法可以通过主题词提取相关的算法根据词频等信息获取热点话题,并根据热点进行图书出版选题推荐。以此方法获取的关键词虽然是当前讨论的热点话题,但是,该热点话题可能包含负面情绪、没有更细粒度的实时性或可书写内容不够丰富等问题,不符合图书出版话题应该具备的性质。


技术实现思路

1、为了解决上述技术问题,本专利技术的目的在于提供一种基于人工智能的图书出版智慧选题系统,所采用的技术方案具体如下:

2、本专利技术提出了基于一种基于人工智能的图书出版智慧选题系统,所述系统包括:

3、数据采集模块:获取各月内的热点评论数据作为各月的文档集合

4、数据处理模块:选取文档集合中的实体词并标注对应的词性;根据文档集合中的实体词筛选得到候选词以及对应出现共现关系的共现次数;根据文档集合中的候选词以及对应的共现次数构建无向图;根据文档集合中候选词的长度、出现频率等特征得到各候选词的图书出版选题自身重要性;

5、采用pagerank算法根据无向图中各节点候选词的图书出版选题自身重要性以及存在共现关系的候选词的图书出版选题重要性得到各候选词的图书出版选题重要性;根据所有文档集合中各候选词的图书出版选题重要性构建各候选词的选题重要性变化序列;根据选题重要性变化序列中元素的分布得到候选词的图书出版选题指数;

6、选题推荐模块:根据候选词以及用户输入选题要求中的各实体词之间的语义相关性、图书出版选题指数得到候选词的语义匹配选题指数,其中,采用文档集合中的实体词选取方法获取用户输入选题要求中的各实体词;

7、将候选词按照语义匹配选题指数从大到小进行排序得到选题序列,将选题序列中前r个候选词输出作为给用户选题推荐的关键词。

8、优选的,所述选取文档集合中的实体词并标注对应的词性,包括:

9、采用bert-bilstm-crf模型识别文档集合中的实体词;

10、采用隐马尔可夫模型对各实体词进行词性标注得到各实体词的词性,所述词性包括但不限于:名词、动词、形容词。

11、优选的,所述根据文档集合中的实体词筛选得到候选词以及对应出现共现关系的共现次数,包括:

12、采用频率-逆文档频率获取文档集合中前n个词作为候选词,其中,n为预设候选词数量;

13、将出现在同一个句子中的两个候选词作为一个共现关系,统计候选词在文档集合中出现共现关系的次数作为共现次数。

14、优选的,所述根据文档集合中的候选词以及对应的共现次数构建无向图,包括:

15、将文档集合中的候选词作为无向图的节点,将节点之间的共现次数作为连线的边权重。

16、优选的,所述根据文档集合中候选词的长度、出现频率等特征得到各候选词的图书出版选题自身重要性,包括:

17、对于文档集合中各候选词,获取候选词的长度、出现频率;获取候选词的表达丰富度;

18、将长度与出现频率的比值结果乘以表达丰富度得到候选词的图书出版选题自身重要性。

19、优选的,所述获取候选词的表达丰富度,包括:

20、对候选词划分一个邻域窗口,所述邻域窗口包含当前候选词以及当前候选词前、后各u个候选词;

21、统计邻域窗口内所有候选词的词性出现的种类数,将所述种类数作为候选词的表达丰富度。

22、优选的,所述采用pagerank算法根据无向图中各节点候选词的图书出版选题自身重要性以及存在共现关系的候选词的图书出版选题重要性得到各候选词的图书出版选题重要性,包括:

23、对于与当前候选词存在共现关系的各候选词,获取候选词与当前候选词在同一个句子中出现的共现次数;

24、计算所述共现次数与候选词的图书出版选题重要性的乘积,计算所有存在共现关系的候选词的所述乘积的和值;

25、将所述和值与当前候选词的图书出版选题自身重要性之和作为当前候选词的图书出版选题重要性;

26、采用pagerank算法对各候选词的图书出版选题重要性进行迭代计算,直到满足停止条件,得到迭代后的各候选词的图书出版选题重要性。

27、优选的,所述根据所有文档集合中各候选词的图书出版选题重要性构建各候选词的选题重要性变化序列,包括:

28、将所有文档集合中的候选词组成总候选词集合;

29、对于总候选词集合中各候选词,将候选词在各月的图书出版选题重要性组成候选词的选题重要性变化序列。

30、优选的,所述根据选题重要性变化序列中元素的分布得到候选词的图书出版选题指数,包括:

31、对于候选词的选题重要性变化序列中各元素,计算元素所在的月份与所在月份的图书出版选题重要性的乘积;

32、将所有元素的所述乘积的均值作为候选词的图书出版选题指数。

33、优选的,所述根据候选词以及用户输入选题要求中的各实体词之间的语义相关性、图书出版选题指数得到候选词的语义匹配选题指数,包括:

34、采用bert语言模型对用户输入选题要求中的各实体词以及总候选词集合中的各候选词进行转换得到对应的语义向量;

35、对于用户输入选题要求中的各实体词,获取实体词与候选词的语义向量的余弦值;

36、计算所述余弦值与候选词的图书出版选题指数的乘积,将用户输入选题要求中所有实体词的所述乘积的和值作为候选词的语义匹配选题指数。

37、本专利技术至少具有如下有益效果:

38、本专利技术通过对过去12个月份的数据进行分析,得到基于用户描述的图书出版选题关键词;其中主要通过计算每个词的热度确定热点词作为图书选题系统的候选词,并根据候选词的词性分布分别计算其每个月的热度情况,然后通过对过去12个月的整体表现进行分析,计算每个候选词的图书出版选题指数,最后根据用户输入描述计算最终的语义匹配选题指数,并输出分数最高的6个词作为此次图书选题的关键词。本专利技术在进行图书选题时不仅考虑到关键词的热度,还根据语义以及其词性分布等情况为用户提供可书写性更强,更符合用户需求的关键词。...

【技术保护点】

1.一种基于人工智能的图书出版智慧选题系统,其特征在于,所述系统包括:

2.如权利要求1所述的一种基于人工智能的图书出版智慧选题系统,其特征在于,所述选取文档集合中的实体词并标注对应的词性,包括:

3.如权利要求2所述的一种基于人工智能的图书出版智慧选题系统,其特征在于,所述根据文档集合中的实体词筛选得到候选词以及对应出现共现关系的共现次数,包括:

4.如权利要求3所述的一种基于人工智能的图书出版智慧选题系统,其特征在于,所述根据文档集合中的候选词以及对应的共现次数构建无向图,包括:

5.如权利要求1所述的一种基于人工智能的图书出版智慧选题系统,其特征在于,所述根据文档集合中候选词的长度、出现频率等特征得到各候选词的图书出版选题自身重要性,包括:

6.如权利要求5所述的一种基于人工智能的图书出版智慧选题系统,其特征在于,所述获取候选词的表达丰富度,包括:

7.如权利要求5所述的一种基于人工智能的图书出版智慧选题系统,其特征在于,所述采用PageRank算法根据无向图中各节点候选词的图书出版选题自身重要性以及存在共现关系的候选词的图书出版选题重要性得到各候选词的图书出版选题重要性,包括:

8.如权利要求7所述的一种基于人工智能的图书出版智慧选题系统,其特征在于,所述根据所有文档集合中各候选词的图书出版选题重要性构建各候选词的选题重要性变化序列,包括:

9.如权利要求8所述的一种基于人工智能的图书出版智慧选题系统,其特征在于,所述根据选题重要性变化序列中元素的分布得到候选词的图书出版选题指数,包括:

10.如权利要求9所述的一种基于人工智能的图书出版智慧选题系统,其特征在于,所述根据候选词以及用户输入选题要求中的各实体词之间的语义相关性、图书出版选题指数得到候选词的语义匹配选题指数,包括:

...

【技术特征摘要】

1.一种基于人工智能的图书出版智慧选题系统,其特征在于,所述系统包括:

2.如权利要求1所述的一种基于人工智能的图书出版智慧选题系统,其特征在于,所述选取文档集合中的实体词并标注对应的词性,包括:

3.如权利要求2所述的一种基于人工智能的图书出版智慧选题系统,其特征在于,所述根据文档集合中的实体词筛选得到候选词以及对应出现共现关系的共现次数,包括:

4.如权利要求3所述的一种基于人工智能的图书出版智慧选题系统,其特征在于,所述根据文档集合中的候选词以及对应的共现次数构建无向图,包括:

5.如权利要求1所述的一种基于人工智能的图书出版智慧选题系统,其特征在于,所述根据文档集合中候选词的长度、出现频率等特征得到各候选词的图书出版选题自身重要性,包括:

6.如权利要求5所述的一种基于人工智能的图书出版智慧选题系统,其特征在于,所述获取候选词的表达...

【专利技术属性】
技术研发人员:马驰宋宁赵小萱谢天
申请(专利权)人:全国新书目杂志有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1