1Click飲みRomoCartTempescope色色[:iroiro]Other Projects

2014年8月16日土曜日

Wikipediaのデータで人生解析をしてみよう

■概要
人物に関するWikipediaの項目は人の出生から生き方、死に方まで色々載ってる。
せっかく大量にあるんだし、人の人生に関する解析をしてみよう。
例えば:
・こういう幼少を過ごした人はこうなるとか、
・こういう名前/誕生日の人はこういう人生を過ごしやすいっていうのは本当?とか、
・時代毎の名前/職業等傾向とか、
いろいろ調べてみよう。

■データ
・Wikipediaのデータベースダンプを取得、
・その中から人に関する項目だけ抽出(「存命人物」や「*没」などの文字列が含まれるエントリ)
・名字、名前、生年月日、死没日などをパースして取得。
・更にカテゴリ名に「日本の*」が含まれるエントリを日本人に関するエントリとして取得。
日本人は計119024人。

以下、雑多な解析結果。

■死亡した年と、その時の年齢






近代化と共に寿命が伸びている様子が見える
戦争時は(Wikipediaに載ってる人の)平均寿命が低くなっている

■「○子」みたいな名前の出現頻度
「まるこ」みたいな名前は少し昔のイメージがあるけど、実際どうなんだろう?

「○子」は1970年がピーク、古くは1875年ぐらいからある
Wikipediaに載ってる一番若い「○子」は2006年生まれの幸田雛子

■名前の長さの平均
最近名前が短くなってる気がするけど、実際どうだろう?
生年毎の平均的な名前(の読み)の長さを算出してみた。
(読みの長さ=拍の数。例えば「ヒョウ」=2)
名前の長さは単調減少している
→戦時中は少しだけ増えてるのが気になる。
→2000年以降のばらつきはデータが少ないため。



■名前と人生
「こういう名前の人は溺死しやすい」「こういう名前はサッカー選手になりやすい」みたいなこと調べてみましたが、なんとなく名前差別とかでボコられそうなので割愛します。

■逮捕されやすい職業
一番逮捕されやすい職業はなんだろう?
職業が抽出できたエントリから、職業毎の「逮捕」という単語が含まれるエントリの割合を算出し、ランキングを作ってみた。
「元幹部」エントリの9割(12人中11人)は逮捕済
→その他、いかにもな職業がランキング上位をしめた。
みんな逮捕されたくなかったらアナキストや元事業家は避けよう。

■誕生日分布
1月1日から12月31日まで、一番多い誕生日はいつだろう?
全データから算出:
1月1日の誕生が多く、年末にかけての誕生日が少ない
これって単に、届け出が適当だから?年末に生まれた子はキリよく1月1日の誕生日として届け出る人が多い、とかありそう。

1960年以降の誕生日:
→最近の誕生日だけにすると、1月1日のピークは消える。
昔の人は誕生日を盛ってた?

→今度は、3月31日の誕生日が異様に少ない。(多分有意に)
早生まれを避けるため?それにしては3月30日が下がってなさすぎる。

→7月7日がその付近と比べ1.7倍近い。
明らかに盛ってる。その他8月8日や12月12日などのゾロ目も多い傾向。

■職業毎の生まれた月
生まれた月でなりやすい職業とかあるのだろうか?
まず、全体での月ごとの生まれた人数:


→1月が若干多い傾向。6月が最小。
(本当は月の日数とかで正規化したほうがいいよね)

スポーツ選手の誕生月分布(職業に「選手」という単語が含まれる人の誕生月傾向):
4月が最多で、そこから単調減少。早生まれの悪影響がモロに出てる。
(多分、全体平均で正規化とかして、月ごとのスポーツ選手に成る確率とかに直した方が分かりやすいんだろうけど酔っぱらってるので生データだけ出します)


政治家の誕生月分布(職業に「政治家」という単語が含まれる人の誕生月傾向):


→全体傾向に従ってる?

番外編:エントリに「逮捕」という単語が含まれている人の誕生月分布:
→2月が異様に多い。(検定してないけど多分有意に。)
この記事では連続殺人犯は11月に多いらしいけど。




他の分析エントリ

山手線リアルタイム混雑情報で遊んでみよう
140文字の「重み」を言語毎に比較してみた
世界で一番住みやすい場所を計算してみた
サイゼリヤの間違い探しが難しすぎたので大人の力で解決した
建物のWifiをホッピングして東京から大阪まで通信できるか
Topcoderに一番有利な時間帯を調べてみた