标签抽取部(103)经由网络收集包括文字列和写入该文字列的时刻信息在内的博客,抽取在该文字列中出现的标签,将博客与抽取的标签建立对应而存储在标签出现数据库(104)中。暂定广播电台推定部(106)以出现在博客的文字列中的特征词为基础,推定对在博客中提及的节目进行广播的广播电台,作为暂定广播电台,与博客建立对应而存储在博客数据库(102)中。广播电台确定部(107)在标签出现数据库(104)中存储的、在规定的时刻范围内被写入的博客的文字列中出现的标签的个数超过了规定的阈值时,参照博客数据库(102)而对文字列中包含标签的博客所提及的节目的暂定广播电台进行累计,确定对该节目进行广播的广播电台。
【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及推定装置、推定方法及程序,尤其是涉及使用收集的博客的特征词,来推定广播博客提及的节目的广播电台或其节目的技术。
技术介绍
由于因特网或博客的广泛普及,极其普通的用户在自己的博客网站中实时地实况叙述广播中的电视节目等逐渐流行。尤其是能够投稿、阅览140字左右的短评论的这种微博,出于能够从手机投稿的简便性,这种节目的实况叙述的利用急速发展。另外,本说明书中的“博客”定义为个人向网站投稿的评论或记事。从这种背景出发,存在通过将用户当前收听收看的电视节目的节目信息向用户展现,而进行与该节目关联的博客记事或评论的制作支援的专利技术等(参照专利文献I)。 另外,作为相反的途径,也逐渐考虑了根据博客记事的内容来推定实况叙述的是哪个节目的方法。关于这种博客提及的节目的推定,作为使用了字幕文本的方法,列举有“字幕f 7卜Θ利用J: 3 口夕'' T引用$札t f '番組Θ推定(基于字幕文本的利用的在博客中引用的电视节目的推定)”(参照非专利文献I)。这是从EPG (ElectricProgram Guide :电子节目向导)或字幕文本中抽取特征词,与博客内的单词进行比较,由此来决定电视台制约、频道制约,进而根据时态特征词来抽取时间制约,进行记分,推定博客所提及的节目。在先技术文献专利文献专利文献I日本特开2008-124861号公报非专利文献非专利文献I及川孝德外4名,“字幕亍U卜Θ利用(二 J石7' 口夕''T引用 Xltzr V匕'番組Q 推定” ,因特网〈URL http //db-event. jpn. org/deim2010/proceedings/files/D6-4. pdf> 另一方面,现实的博客主(写博客的人)不是仅将电视节目进行365天实况叙述,而是将自己的平时的生活的一个片断或书籍的感想等混杂记载于I个博客网站中。作为这种博客主的行为模式,作为这样混杂的各个内容的附笺,确立了标注标签名的方法。例如,分成日常、书籍、电视等类别而标注#dairy、#b00kS、#tv等标签。而且,对于经常收听收看的节目,也经常标注固有的标签。例如,以连续剧A — SrendoraA等的省略语为基准的情况很多。然而,在上述的提案方法中,关于未附带字幕文本的节目,虽然未从最初开始处理(即使评价也全部除外),但现实情况是一半的节目未附带字幕文本,不实用。而且,对于收音机等原本不存在字幕文本的广播而言,难以适用。而且,现实的字幕文本是遵照剧本或广播逻辑规定的正确的日语。另一方面,用户边观看电视边向博客输入时,容易变成使用较多省略语、俗语、标签的非正式的日语。尤其是演员名或节目名等容易形成为省略语,因此无法得到如愿的推定精度。作为解决这种情况的已知的技术,也考虑了通过制作正确的日语与省略语、俗语、标签的近义词词典来提高推定精度的方法,但对日益出现的未知的单词的近义词词典进行维护会导致高成本。另外,作为博客主的行为模式,标注标签的情况的确较多,但该标签并不是广播电台指定的标签,而是自然而然決定的,出现频率也存在变动,难以与节目信息结合。
技术实现思路
因此,本专利技术目的在于不用从EPG或字幕文本抽取特征词或对近义词词典等进行维护,就能够高精度地推定博客等的社会化媒体所提及的节目。为了实现上述目的,本专利技术的ー个方式是推定装置。该装置包括标签抽取部,经由网络收集包括个人向网站写入的文字列和写入该文字列的时刻信息在内的博客,抽取在所述博客的文字列中出现的标签,将所述博客与抽取的标签建立对应而存储在标签出现数 据库中;暂定广播电台推定部,以出现在所述博客的文字列中的特征词为基础,推定对在所述博客中提及的节目进行广播的广播电台,将推定到的广播电台作为暂定广播电台,与所述博客建立对应而存储在博客数据库中;广播电台确定部,在所述标签出现数据库中存储的博客亦即在规定的时刻范围内被写入的博客的文字列中出现的标签的个数超过了规定的阈值时,參照所述博客数据库而对文字列中包含所述标签的博客所提及的节目的暂定广播电台进行累计,以累计结果为基础,确定对所述博客所提及的节目进行广播的广播电台。本专利技术的另一形态是推定方法。该方法使处理器执行如下步骤经由网络收集包括个人向网站写入的文字列和写入该文字列的时刻信息在内的博客,抽取在所述博客的文字列中出现的标签,将所述博客与抽取的标签建立对应而存储在标签出现数据库中的步骤;以出现在所述博客的文字列中的特征词为基础,推定对在所述博客中提及的节目进行广播的广播电台,将推定到的广播电台作为暂定广播电台,与所述博客建立对应而存储在博客数据库中的步骤;在所述标签出现数据库中存储的博客亦即在规定的时刻范围内被写入的博客的文字列中出现的标签的个数超过了规定的阈值时,參照所述博客数据库而对文字列中包含所述标签的博客所提及的节目的暂定广播电台进行累计,以累计结果为基础,确定对所述博客所提及的节目进行广播的广播电台的步骤。专利技术效果根据本专利技术,能够推定对博客等社会化媒体所提及的节目进行广播的广播电台。附图说明图I是本专利技术的实施方式I的推定装置的框图。图2是本专利技术的实施方式I的流程图。图3是本专利技术的实施方式I的博客DB数据结构的例子(节目推定前)。图4是本专利技术的实施方式I的博客DB数据结构的例子(节目推定后)。图5是本专利技术的实施方式I的标签出现DB数据结构的例子。图6是本专利技术的实施方式I的标签节目DB数据结构的例子(节目推定前)。图7是本专利技术的实施方式I的标签节目DB数据结构的例子(节目推定后)。图8是本专利技术的实施方式I的特征词数据的例子。图9是本专利技术的实施方式2的推定装置的框图。图10是本专利技术的实施方式2的流程图。具体实施例方式以下,參照附图,详细说明本专利技术的实施方式。(实施方式I)图I是本专利技术的实施方式I的推定装置的框图。而且,图2是本专利技术的实施方式I的流程图。 推定装置100的博客收集部101通过因特网等网络200来收集博客记事(SI),向 图3所示的博客DB (DataBase ;数据库)102登记投稿固有ID、正文、投稿时刻(S2)。另外,在该时刻,由于后述的暂定广播电台或确定广播电台、节目信息(标题、广播电台名、节目详细等)不明,因此保持为空的状态。另外,本说明书中的“博客”以个人向网站投稿(写入)I次的评论或记事为I个单位,包含构成该投稿的评论或记事的文章信息(文字列)和投稿该评论或记事的时刻信息。在此,投稿固有ID是各个博客记事特有的ID(IDentification)。在本专利技术中,并不特别限定投稿固有ID的格式。而且,关于收集博客记事的博客网站也并未特别限定。接下来,标签抽取部103从博客的正文抽取任意标签(S3)。在本实施例中,将如toendoraA这种从“#”开始的字母数字作为标签提取,但关于该标签的格式,在本专利技术中并未特别限定,按照预先決定的规则,能够机械性地自动抽取,只要是博客固有的格式(由HTML标签中的特定的格式包围的文本等)或按照用户的行为模式的格式即可,可以为任何格式。接下来,标签抽取部103将抽取的标签与博客的投稿固有ID及投稿时刻建立对应而登记在标签出现DB104中(S4)。标签出现DB104具有图5所示的数据结构。另外,在图5中,示出了推定后述的暫定的广播电台名时使用的特征本文档来自技高网...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】...
【专利技术属性】
技术研发人员:吉田健二,藤井毅也,
申请(专利权)人:JVC建伍株式会社,
类型:
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。