【技术实现步骤摘要】
文本分析方法、装置、电子设备及存储介质
[0001]本专利技术实施例涉及自然语言处理技术,尤其涉及一种文本分析方法、装置、电子设备及存储介质。
技术介绍
[0002]目前,从网络上的页面内容中获取页面内容包括的文本的主题和主题对应的关键词,主要通过文本分析的方法确定页面内容包括的文本的主题和主题对应的关键词,然后获取文本的主题和主题对应的关键词。
[0003]但是在对文本的内容较多的页面内容进行文本分析时,由于获取待分析页面内容中的文本的获取速度较慢,增加了文本分析方法的分析时间,降低了文本分析方法的分析效率,同时也产生了额外的资源消耗。
技术实现思路
[0004]本专利技术实施例提供一种文本分析方法、装置、电子设备及存储介质,可以快速、准确地获取待分析页面内容中的文本,提高待分析页面内容中的文本获取速度,进而提高文本分析方法的分析效率,也减少文本分析方法的分析时间和额外的资源消耗,更加直观地将对目标文本进行分析得到的目标文本对应的主题和主题包括的关键词进行展示。
[0005]第一方面,本专利 ...
【技术保护点】
【技术特征摘要】
1.一种文本分析方法,其特征在于,所述方法包括:采用多线程爬虫方式获取文本;对所述文本进行文本预处理,得到目标文本;分析所述目标文本,得到所述目标文本对应的主题和所述主题包括的关键词;基于所述主题和所述主题包括的关键词,生成第一展示页面。2.根据权利要求1所述的方法,其特征在于,所述采用多线程爬虫方式获取文本,包括:通过多个页面源码获取线程获取预设网址列表对应的页面源码;利用多个文本提取线程从所述页面源码中获取所述文本。3.根据权利要求2所述的方法,其特征在于,所述利用多个文本提取线程从所述页面源码中获取所述文本,包括:采用多个文本提取线程识别所述页面源码中的预设关键字;利用所述多个文本提取线程通过所述预设关键字从所述页面源码中获取所述文本。4.根据权利要求1所述的方法,其特征在于,所述分析所述目标文本,得到所述目标文本对应的主题和所述主题包括的关键词,包括:根据所述目标文本构建三层贝叶斯概率生成模型,并采用吉布斯采样算法求解所述三层贝叶斯概率生成模型的模型参数,得到所述目标文本对应的主题概率和所述主题包括的关键词概率;根据所述目标文本对应的主题概率和所述主题包括的关键词概率,确定所述目标文本对应的主题和所述主题包括的关键词。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:将所述主题、所述主题包括的关键词和所述目标文本按照预设存储关系存储至预设数据库。6.根据权...
【专利技术属性】
技术研发人员:曹牧原,
申请(专利权)人:中国农业银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。