黄昏より暗きもの、血の流れより赤きもの

読者です 読者をやめる 読者になる 読者になる

黄昏より暗きもの、血の流れより赤きもの

自分の好きな事を好きなように書いて行きます。

第5回『ニコニコ学会β データ研究会』のスライドや感想をまとめてみた

JavaScript セミナー データーマイニング

第5回『ニコニコ学会β データ研究会』に行ってきた。ニコニコ動画でおなじみの「艦隊これくしょん」や「ボーカロイド」等の市場の動向や流行の傾向などについての講演だった。以下発表内容のスライドを簡単にまとめてみた。一部まとめきれてない箇所、間違いがあるかもしれないのでご了承願う。

基調講演 あんちべ氏(id:antibayesian氏)

開演ギリギリにあんちべ氏が登場。会場に迷ったようでTwitterには以下の書き込みが。

と言う訳であんちべ氏が到着したところでセッションが始まった。統計関係の勉強会と言えば、統計に使う数学の話が中心になりがちだが、統計や仮説検証において何をすべきか?相手に伝える上で何をグラフ化(可視化)するべきか?KPIは簡単で分かりやすいほうが良いか?と言う話や、3Dグラフのような見た目の派手なグラフを使えばいい訳ではないと言う流れに感動した。*1

この他、人を騙すような統計の例と、統計においてノイズの少ないデータを選ぶ事が大切な事に言及していた。

各セッション

各セッション同人誌「統計これくしょん」の内容を基に、著者の5人が登壇。それぞれのテーマで発表が進む。

特に凄かったのが「牧田翠 ニコニコ学会データ研究会発表 艦これエロ同人における描写分析(エロマンガ統計) 」(google資料)がすばらしかった。何と同人誌200冊、総額134,143円を使って分析したようだ。これだけでも十分凄いのだが、終始真面目な口調で話しているから何て言って良いか困った(笑)。特に自分が注目したのがどのキャラクターにどういう展開の同人誌が多いかの類似性を調べるためにコレスポンデンス分析*2した場面。さらにこんな事も。

ちなみに質問コーナーも用意されていて、楽に調査するような方法があるなら誰かがやってると言う言葉が印象的だった。何処の界隈も同じかと思ったりする。この他は人工知能の表紙に関するTweet分析。ここから「○○系の人は△△議論系の記事を読んでいる」と言うのを発表。その次は@iyokan_nico氏に依る、ボーカロイドの市場調査もなかなか面白かった。特にビリビリ動画でボーカロイドのネタが移植されていて、大ヒットである話が印象深い。

LT(ライトニングトーク)

ここからはライトニングトークで発表されたスライドをまとめようと思う。

ニコニコデータセット23 億件のデータを集計する。(@shibacow氏)

一応データベースの話なので余談を始めたい。データベースの検索速度と言うのは頭を悩ませる問題の1つで、エンジニア系の発表会ならこれだけで1イベントは組める位の内容だ。データーベースミドルウェアは、NoSQLのような検索速度は早いものの検索機能が少なくデータの抽出に向かない場合もある。このため従来のhiveやOracleMicrosoft SQL Server等のSQLが使われている場合がある。本LTではgoogle bigqueryを使う事で従来の約256倍ものの実行速度を実現したようだ。


TesselとRaspberryPiで温湿度の可視化(@mia_0032氏)

次はJavaScriptと言うなじみ深い言語で動作するマイコンを使って、温度湿度のグラフを作成してみたと言う話。インフラエンジニアならおなじみであろうFluentdだがサーバーのCPU使用状況の変化を読み取る以外の用途で使われていて驚きだ。ゲームセンターの筐体にもWindowsが使われている昨今、組み込みプログラムの練習、センサーと連動した新しいデータ収集に応用できそうだ。

pixivのデータを使って萌え要素の人気について分析してみた(@mtknnktm氏)

次のスライドはpixivのデータを使って萌え要素の人気について分析してみたというスライドだ。詳細は「LASSOでpixivのイラスト閲覧数に対する「萌え要素」効果を分析してみた:Swarm of Trials」に書いてあるので、興味のある方は見てほしい。

pixivの閲覧状況が時系列によってどう変化しているかを調べ、その分布をみてやると対数正規分布に近似的に従う事が分かり…と言う事をやってみると知らなかったタグが出て来て面白かった。pixiv等のタグがPVにどう影響を与えているかを見てみるのも面白そうだ。

この他は「第01回世界ボーカロイド大会 | VOCACON2015」やiPhoneアプリケーションの「Umamy」の告知があった。ユーザー層が集まって来てどのような展開に発展するのかが非常に楽しみだ。

最後に

メインのセッションもさることながらLTの方向性がバラバラなのが良かったです。各スタッフの皆様、各来場者のみなさんお疲れさまでした。統計これくしょんを購入したので読んでみたいです。

*1:デザインの仕事を受けることもあるが、見た目にこだわる人に当たると相性が悪い。俺は見た目に五月蝿い性分でないから困る事もある

*2:数学的な詳細は「[連載]フリーソフトによるデータ解析・マイニング第26回:Rと対応分析」