【技术实现步骤摘要】
一种基于AhoCorasick模式匹配机的语文课文音频节目发现方法
本专利技术属于人工智能领域,具体涉及一种基于AhoCorasick模式匹配机的语文课文音频节目发现方法。
技术介绍
随着移动互联网的快速发展,音频类产品如雨后春笋般涌现出来,这大大丰富了群众的文化生活。音频类节目数量巨大,用户想要快速找到自己喜欢的音频节目,首先要有一个高效的发现节目的方法。比如小红是一名三年级的小学生,他喜欢听语文课文的录音节目,那么她需要从海量节目中快速筛选出语文课文节目。然而,人工观察节目的标题和简介来筛选的方式过于复杂,消耗人力,且对用户的文化水平有较高要求。此外,音频类节目量数以亿计,人工无法满足快速筛选语文课文的需求。因此,自动快速地发现语文课文类音频节目很有必要。现阶段,语文课文音频节目发现主要有两种方式。第一种是运营人员手动筛选语文课文节目,这种方式虽然准确率高,但效率过低。第二种是先人工标记大量语文课文类音频节目,然后根据节目的标题和声音内容等特征,采用监督学习,构建机器学习模型,在前期标记数据的基础上进行自 ...
【技术保护点】
1.一种基于AhoCorasick模式匹配机的语文课文音频节目发现方法,其特征在于,包括如下步骤:/n步骤一:构建一个语文课文音频节目关键词词库;/n步骤二:应用AhoCorasick模式匹配机,自动抽取语文课文音频节目的标题和简介中的关键词;/n步骤三:如果抽取到语文课文关键词,则判定此节目为语文课文类节目。/n
【技术特征摘要】
1.一种基于AhoCorasick模式匹配机的语文课文音频节目发现方法,其特征在于,包括如下步骤:
步骤一:构建一个语文课文音频节目关键词词库;
步骤二:应用AhoCorasick模式匹配机,自动抽取语文课文音频节目的标题和简介中的关键词;
步骤三:如果抽取到语文课文关键词,则判定此节目为语文课文类节目。
2.根据权利要求1所述的一种基于AhoCorasick模式匹配机的语文课文音频节目发现方法,其特征在于,关键词库的构建方式:从垂直类网站上自动爬取或从节目标题和简介中人工总结。
3.根据权利要求1所述的一种基于AhoCorasick模式匹配机的语文课文音频节目发现方法,...
【专利技术属性】
技术研发人员:吴海旭,
申请(专利权)人:广州荔支网络技术有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。