1Click飲みRomoCartTempescope色色[:iroiro]Other Projects

2015年3月29日日曜日

140文字の「重み」を言語毎に比較してみた

最近tempescopeのアナウンスのため英語でツイートする機会が多くなったのですが、
日本語なら140文字制限内に詰め込める内容が、英語だと入りきらずにモヤモヤすることがあります。
英語は表音文字なので当然ですね。

そこで140文字制約の中では日本語がどれぐらい多く喋れるのか、機械翻訳を使って検証してみました。



方法

今回の検証では「各言語で書かれたツイートを英語で書いた場合、何文字分になるか」を計算することで、各言語の「密度」を評価します。


(1) TwitterのストリームAPIで三日分ぐらいのツイートを取得

「140文字で詰め込める量がどれぐらいか」を評価したいので、長め(120文字以上)のツイートだけを収集しました。
短いツイートは文字数制限を意識しない冗長な文法が使われがちなため「140文字に詰め込める内容はいくらか」という趣旨に合わないと考えたからです。

またリンクが含まれるツイート、@~~やRTの文字が含まれるツイートは排除し、312万件のツイートを取得しました。



(2) 英語に翻訳

某機械翻訳サイトを使い、各言語のツイートを最大1200件ずつ翻訳して
「英語で書いた場合文字数が何倍になるか」を表す「相対密度」を計算しました。
例えばこんなツイートなら:
日本語は14文字、英語だと30文字なので、相対密度は30/14=2.14倍です。
このツイートでは日本語1文字に対して英語2.14文字分の内容が含まれる、と解釈します。

結果

以下のグラフに言語毎の相対密度(平均,分散)を示しています。



翻訳された文章が長いんじゃないの?っていうツッコミに対して

ちなみに何故グラフの中に「英語」が入っているかというと、「翻訳による効果がどれぐらいか」を確認するためです。
機械翻訳の結果は「ツイートっぽい文章」ではないので、無駄に長い英語が作られる懸念があります。
そこで英語のツイートを「英語→日本語→英語」の順番で英語に翻訳しなおし、その長さの変化を↑の「英語(reference)」として示しました。
平均相対密度が1.01倍なので、翻訳結果が無駄に長い、ということは無いっぽいです。

CJKすげぇ

中国語・日本語・韓国語の密度が圧倒的です。
中国語で1ツイートで書ける内容は、英語では最大4ツイート必要となります。
このへんは文字数の多い言語なので意外性はあまり無いですが、改めて数字にしてみると凄いですね。
日本語のほうがツイッターで色々言える、というのは錯覚ではなさそうです。


フランス語が薄い

(すみません、最初アップしたグラフは少し計算を間違えていて、特定の言語を過小評価していました。)
フランス語は密度が英語と比べて0.87倍。フランス語で英語と同じことを言うためには1.14倍多く書かないといけません。

じゃあフランス人のほうが1.14倍長めのツイートしているのかというと、そういうわけでもなさそうです。

以下のグラフは、各言語におけるツイートの長さの頻度分布を示しています:
英語・フランス語・日本語のツイート長の頻度分布

英語とフランス語の頻度分布はほぼ同じ形、最頻長は両者とも25文字程度です。

文字毎の内容の密度が低いのに長さが同じということは、
「短いツイートでは文法の特性がちょっと違う」のかもしれないですし、「フランス人はちょっと内容が薄めの事を言ってる」のかもしれません。

ちなみに日本語の最頻長は12文字なので、ちゃんと言語の密度が濃い分少ない文字数を使っているようです。


また日本語の59文字以上のツイートは英語では1ツイートでは言えません。

59文字以上のツイートは日本語ツイートの15%です。
つまり日本語のツイートの15%は「日本語だから言えた内容」なわけです。(まあ連続ツイートすりゃいいんですが)


まとめ

UXデザインは多様性を考えよう

日本語優秀!フランス語アホ!とか言うつもりはなくて、UXデザインの観点から面白いと思いました。
当初「140文字制限」を設けた時は、あくまで「つぶやき」を集めるツールとしてデザインしたのでしょう。
それが(わざとか敢えてか知りませんが)言語の違いを考慮せず仕様を刻まなかった結果、国や文化によって違う使い方がされるツールに育ちました。
(今回はツイートの中身までは解析してないので何とも言えませんが、日本語ユーザのほうが「濃い」内容を書いている、かもしれません。)
「こういう使い方をしてもらいたい」と考えて決めた仕様は、最終的なユーザの多様性を考えないと想定外の使い方をされてしまう、というわかりやすい例ですね。


そのうちやること

・連投って言語毎にどれぐらい行われるんだろう?
・実際に話している内容を言語毎に見たら違いはあるのかな?例えばフランス語は「腹減った」ぐらいしか言ってない、とか。
・ツイッター普及率と関係するのだろうか?少なくとも言語毎の相対密度と総ツイート数はあまり関係なさそう:
言語毎の平均相対密度vsツイート数




他の分析エントリ

山手線リアルタイム混雑情報で遊んでみよう
世界で一番住みやすい場所を計算してみた
サイゼリヤの間違い探しが難しすぎたので大人の力で解決した
建物のWifiをホッピングして東京から大阪まで通信できるか
Topcoderに一番有利な時間帯を調べてみた
Wikipediaのデータで人生解析をしてみよう
明日の天気を過去の似た日から合成して可視化してみよう
「頭痛」を含むツイートと気圧の関係を調べてみた

2 件のコメント:

  1. Twitterから来ました。面白いデータですね。
    中国は1字あたりの情報量を見せつけてくれます。韓国も漢字ベースの文字なので日本と並びそうですが、日本はかな・カナの使い分けとか、省略好きだからとかでしょうか。
    南欧とドイツは低いですね。姓が文法にあるからでしょうか?オランダもドイツ似でしたっけ?
    さらに、ドイツ語は単語が長いし、フランス語は読みもしない文字が多いから、ですかね。

    返信削除
  2. 突然申し訳ありません。こちらの記事に掲載されているデータを使用してもよろしいでしょうか?
    僕はいま、中学校の卒業論文でTwitterについて書いています。もし許可をいただけたら、こちらの記事のデータをその論文にのみ使用します。学校によると、この論文が外部に公開されることはないようです。
    何卒よろしくお願いします。

    返信削除