黄昏より暗きもの、血の流れより赤きもの

読者です 読者をやめる 読者になる 読者になる

黄昏より暗きもの、血の流れより赤きもの

自分の好きな事を好きなように書いて行きます。

【ラブライブ! 園田海未の誕生日前夜祭】誕生日の前日にpixiv投稿状況をまとめたよ♪

R Excel 統計 statistics

序章:園田海未ちゃんと言えば...



明日はラブライブ!(μ's)の園田海未の誕生日ですね。ラブライブ!と言えばメンバーが9人の高校生アイドル(μ's)のお話。その1人の園田海未ちゃん(画像左)と言えば、μ'sのリーダーの高坂穂乃果ちゃんのサポート役でしたね。幼なじみの立場から穂乃果ちゃんが悩んでる時に「ことりを止められるのは回りを見ない穂乃果だけでしょ?(アニメ第一期最後)」と穂乃果ちゃんの近い所で意見をしてくれる存在でしたね。

絢瀬絵里ちゃん(画像右)とともにダンスや練習メニューの総合担当をしましたね。特に第二期の卒業旅行っぽいシーンで、海から帰って来た時の駅で2人抱き合って、お互いの別れを惜しんで泣いてるシーンは印象的でした。

そんな訳で作中でよく見かける2人で、pixivの投稿状況も良かった*1ので、今回のトップイラストとしました。という訳で今回の調査結果の報告!いってみよう!

本題:どれだけみんなにあいされてるのかな?海未ちゃんのpixiv投稿数を調べてみました

まず毎度(?)おなじみの6月からのpixiv(非会員)の投稿枚数の累計をまとめました。6/7頃から3/13の12時頃までで累計4,872枚イラストが投稿されているようです。

6月からの変化と、累計投稿枚数

f:id:program_study:20150314200045j:plain

投稿数の分布について

さて話は変わりますが、最近Qiitaの方にも出展するようにしました。最近だとヤフオクの価格調査の様子をまとめた、「Simple HTML DOM Parser(PHP)+R言語で、Webスクレイピングした結果を調査してみた」等があります。

そこで各落札価格の平均値や四分位数を取ってみたのですが、これと同じ事をこっちでもやりたいと思い早速やってみます!

Rスクリプト

まずcronで出力されたcsvファイルがこちらのgistになります。この4番目が数値なのでR言語側で[,4]と指定します。まず「投稿数15枚〜20枚の日が何日続くか?」と言った事を調べる為にヒストグラムを取ってみます。

>sonoda_umi <- read.csv("lovelive5.csv")
hist(sonoda_umi[,4],col="blue")
summary(sonoda_umi[,4])

まとめ

上のR言語の結果を、意味無くイラスト形式にまとめたのが以下になります。

f:id:program_study:20150314200055j:plain

さてイラストの下の部分は平均(相加平均)と四分位数を表します。四分位数とはヒストグラムにおいて全体の順位の25%、50%(median:中央値)、75%、100%の位置にある数の事をそれぞれ指します。左から順に第一四分位数、....、第四四分位数(最大値)と言います。

これらを見てみると両方とも数値が左に偏っていて、大体同じ数だけ投稿されている事が分かります。

信頼区間を使い、1日あたり何枚投稿されているか?の目処を立てた

今度は上記のヒストグラムにおける信頼区間(confidential interval)と言うものを調べてみます。まずは信頼区間について簡単に説明します。


f:id:program_study:20150315164248p:plain

まずヒストグラムの縦軸の値を左から集めて行き(積分し)、面積を求めると確率の累計が出て来ます。上の図でいう紫の部分の面積の値が、ちょうど0.95(95%)となるような横軸の範囲の事を95%の信頼区間と言います。この信頼区間を使い、殆どの場合でどれだけ投稿されるか?の目処を立てて行こうと思います。

この値はR言語のt.test関数を使って求める事ができます。早速求めると、1日あたりの投稿数の95%の信頼区間は[16.61988, 19.30494]となります。つまり殆どの場合で16.6枚〜19.3枚投稿されていおり、投稿数のばらつきは少ないと見ることができます。

>t.test(sonoda_umi[,4])
(中略)
95 percent confidence interval:
16.61988 19.30494

最後に

ラブライブ!のキャラの誕生日にかこつけて、また色々やらかしてみました。ラブライブ!のpixiv投稿数ネタはまあ、このブログがここまで発展した切っ掛けとなったネタです。なのでPV数に関係無く、続けてれば何か変化が起るかもと思ってやってます。調査の方もあくまで数字を観察するがメインなので、仮説検証のためとかそこまでは考えてないですね(笑)。

たまには前日にデータを取ってみるのも面白いですね。誕生日に高い数値を出してしまうと、平均や標準偏差の値に影響がでます。これを避けて普段の様子を見てみるのも面白いなと。

さて信頼区間の部分については「やってみたいからやった」と言うのが正直な所です。このため説明も怪しく、信頼区間について上手い説明をしているサイトを見つけました。勉強になるサイトなので是非見て下さい。

さて自分はと言えば2月下旬にラブライブ!を第2期まで全部見ましたし、最近スクフェスも始めました。ようやくラブライバーらしくなって来た事をご報告致します。そして、6月に映画がはじまるようなので楽しみです。

そんなこんなで次は4月の西木野真姫ちゃんですね。それまでネタを組めるようにがんばります。最後に園田海未ちゃん。お誕生日おめでとうございます!