一种文本语义分析方法技术

技术编号：40997004 阅读：5 留言：0更新日期：2024-04-18 21:36

本发明专利技术公开了一种文本语义分析方法，属于语义分析技术领域，包括以下步骤：S1、获取用户浏览的所有文章文本，生成文章文本集合；S2、将文章文本集合拆分为重点浏览文本子集合和次重点浏览文本子集合；S3、根据重点浏览文本子集合和次重点浏览文本子集合，生成用户的感兴趣词语集合。该方法可以有针对性地确定用户感兴趣的浏览主题，获取用户的浏览反馈，便于后续为用户推荐更准确的文章，提升了文章的可读性，减少了大量用户不喜欢的文章。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于语义分析，具体涉及一种文本语义分析方法。

技术介绍

1、在网上阅读文章是现代社会中人们的生活习惯，随着计算机技术的发展和互联网用户规模的不断扩大，越来越多的人使用通过互联网获得各种各样所需的信息。近年来，移动互联网的快速发展使得用户的阅读时间变得越来越碎片化，在这种背景下，如何确定用户的感兴趣内容，向用户个性化推荐其最感兴趣的文章，就变得极其重要。

技术实现思路

1、本专利技术为了解决以上问题，提出了一种文本语义分析方法。

2、本专利技术的技术方案是：一种文本语义分析方法包括以下步骤：

3、s1、获取用户浏览的所有文章文本，生成文章文本集合；

4、s2、将文章文本集合拆分为重点浏览文本子集合和次重点浏览文本子集合；

5、s3、根据重点浏览文本子集合和次重点浏览文本子集合，生成用户的感兴趣词语集合。

6、进一步地，s2包括以下子步骤：

7、s21、设定第一限制条件，将文章文本集合中满足第一限制条件的所有文章文本作为第一限制文本集合；

8、s22、设定第二限制条件，将文章文本集合中满足第二限制条件的所有文章文本作为第二限制文本集合；

9、s23、判断第一限制文本集合和第二限制文本集合是否存在交集，若是则进入s24，否则进入s25；

10、s24、将第一限制文本集合与第二限制文本集合的交集作为重点浏览文本子集合，将文章文本集合中除重点浏览文本子集合外的其余文章文本作为次重点浏览文本子集合；

11、s25、将第一限制文本集合作为重点浏览文本子集合，将文章文本集合中除重点浏览文本子集合外的其余文章文本作为次重点浏览文本子集合。

12、上述进一步方案的有益效果是：在本专利技术中，在用户浏览的众多文章文本中，部分文章文本的浏览时长较长，可能表示该篇文章文本的篇幅较长导致用户浏览该篇文章文本的时间增加或用户对该篇文章文本的兴趣较高；部分文章文本的浏览次数较多，也可能表示用户对该篇文章文本的兴趣较高。因此，本专利技术设置了两个限制条件，分别是浏览时长限制和浏览次数限制。如果某篇文章文本既符合浏览时长限制(即第一限制条件)又符合浏览次数限制(即第二限制条件)，则将该篇文章文本作为重点浏览文本子集合的元素，若不存在这样的文章文本，则优先将符合浏览时长限制的文章文本作为重点浏览文本子集合的元素。这样，可以对文章文本集合进行合理拆分，便于后续步骤分别针对两个子集合提取合适的词语。

13、进一步地，s21中，第一限制条件的表达式为：

14、式中，ti表示文章文本集合中第i个文章文本的浏览时长，i表示文章文本集合的文章文本个数，min(·)表示最小值运算，δt表示所有文章文本浏览时长的标准差，t′表示文章文本集合的最大浏览时长，t″表示文章文本集合的最小浏览时长。

15、进一步地，s22中，第二限制条件的表达式为：式中，di表示文章文本集合中第i个文章文本的浏览次数，i表示文章文本集合的文章文本个数。

16、进一步地，s3包括以下子步骤：

17、s31、设置浏览影响力模型；

18、s32、将重点浏览文本子集合输入至浏览影响力模型中，得到重点浏览影响力阈值；

19、s33、将重点浏览文本子集合中各个文章文本中词频大于重点浏览影响力阈值的单词作为第一部分感兴趣词语集合；

20、s34、根据第一部分感兴趣词语集合，确定次重点浏览影响力阈值；

21、s35、将次重点浏览文本子集合中各个文章文本中词频大于次重点浏览影响力阈值的单词作为第二部分感兴趣词语集合；

22、s36、根据第一部分感兴趣词语集合和第二部分感兴趣词语集合，确定用户的感兴趣词语集合。

23、上述进一步方案的有益效果是：在本专利技术中，构建一个浏览影响力模型，来确定重点浏览影响力阈值，重点浏览影响力阈值用来挑选重点浏览文本子集合中词频较大的单词，作为第一部分感兴趣词语集合，第一部分感兴趣词语集合的元素是从重点浏览文本子集合中挑选出来的，因此再用第一部分感兴趣词语集合的元素来限定次重点浏览文本子集合的重要单词，即确定次重点浏览影响力阈值。以上感兴趣词语的筛选过程可以有针对性地挑选出用户偏好的重点浏览单词，并由重点浏览文本子集合来进一步限定次重点浏览文本子集合的感兴趣单词，其挑选结果准确。

24、进一步地，s31中，浏览影响力模型g的表达式为：

25、

26、式中，n表示重点浏览文本子集合的文章文本个数，m表示重点浏览文本子集合中文章文本的单词个数，k表示重点浏览文本子集合中文章文本的非停用词个数，fn_m表示重点浏览文本子集合的第n个文章文本中第m个单词的词频，fn_k表示重点浏览文本子集合的第n个文章文本中第k个非停用词的词频，ln(·)表示对数函数。

27、进一步地，s34中，次重点浏览影响力阈值θ的计算公式为：

28、式中，r表示第一部分感兴趣词语集合的单词个数，xr表示第一部分感兴趣词语集合中第r个单词的词向量。

29、进一步地，s36中，确定用户的感兴趣词语集合的具体方法为：将第一部分感兴趣词语集合和第二部分感兴趣词语集合的并集作为用户的感兴趣词语集合。

30、本专利技术的有益效果是：该文本语义分析方法从浏览时长和浏览次数触发，对用户浏览的所有文章文本进行分类，得到重点浏览文本子集合和次重点浏览文本子集合；从重点浏览文本子集合中获取用户的部分感兴趣词语，并依据重点浏览文本子集合的部分感兴趣词语，从次重点浏览文本子集合中再挑选部分感兴趣词语，由此组成用户最终的感兴趣词语集合；该方法可以有针对性地确定用户感兴趣的浏览主题，获取用户的浏览反馈，便于后续为用户推荐更准确的文章，提升了文章的可读性，减少了大量用户不喜欢的文章。

本文档来自技高网...

【技术保护点】

1.一种文本语义分析方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的文本语义分析方法，其特征在于，所述S2包括以下子步骤：

3.根据权利要求2所述的文本语义分析方法，其特征在于，所述S21中，第一限制条件的表达式为：式中，Ti表示文章文本集合中第i个文章文本的浏览时长，I表示文章文本集合的文章文本个数，min(·)表示最小值运算，δt表示所有文章文本浏览时长的标准差，T′表示文章文本集合的最大浏览时长，T″表示文章文本集合的最小浏览时长。

4.根据权利要求2所述的文本语义分析方法，其特征在于，所述S22中，第二限制条件的表达式为：式中，Di表示文章文本集合中第i个文章文本的浏览次数，I表示文章文本集合的文章文本个数。

5.根据权利要求1所述的文本语义分析方法，其特征在于，所述S3包括以下子步骤：

6.根据权利要求5所述的文本语义分析方法，其特征在于，所述S31中，浏览影响力模型G的表达式为：

7.根据权利要求5所述的文本语义分析方法，其特征在于，所述S34中，次重点浏览影响力阈值θ的计算公式为：式中

8.根据权利要求5所述的文本语义分析方法，其特征在于，所述S36中，确定用户的感兴趣词语集合的具体方法为：将第一部分感兴趣词语集合和第二部分感兴趣词语集合的并集作为用户的感兴趣词语集合。

...

【技术特征摘要】

1.一种文本语义分析方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的文本语义分析方法，其特征在于，所述s2包括以下子步骤：

3.根据权利要求2所述的文本语义分析方法，其特征在于，所述s21中，第一限制条件的表达式为：式中，ti表示文章文本集合中第i个文章文本的浏览时长，i表示文章文本集合的文章文本个数，min(·)表示最小值运算，δt表示所有文章文本浏览时长的标准差，t′表示文章文本集合的最大浏览时长，t″表示文章文本集合的最小浏览时长。

4.根据权利要求2所述的文本语义分析方法，其特征在于，所述s22中，第二限制条件的表达式为：式中，di表示文章文本集合中第i个文章文本的浏览次数，i表示文...

【专利技术属性】
技术研发人员：宋嘉伟，祝韬，许晓昕，
申请(专利权)人：北京一笔两划科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人