小池イーサンだお(^O^)/

読んでーーーー

単語の頻度を数えるやつ

読んでた本に文字の出現頻度から暗号を解読する話が出てきたからRubyで書いてみたよ。(めちゃくちゃググった)
文字だけじゃ面白くないから単語の頻度も数えたよ。

ソース上に打ち込んだ文字列の頻度を数えるやつ
(ideone上で実行できるよ)

実行結果

----------word start----------
[["people", 3], ["the", 3], ["of", 1], ["by", 1], ["for", 1]]
----------word end ----------
----------char start----------
[["e", 9], ["p", 6], ["o", 5], ["h", 3], ["t", 3], ["l", 3], ["f", 2], ["y", 1], ["b", 1], ["r", 1]]
----------char end ----------

テキストファイルを読み込んで文字列の頻度を数えるやつ
(rbファイルと同じフォルダにtxtファイルおいて実行するだけ)

イーサンは
不思議の国のアリス(Alice's Adventures in Wonderland)
で試してみたよーーーー。

実行結果

----------word start----------
[["the", 1644], ["and", 872], ["to", 729], ["a", 632], ["it", 595], ["she", 553], ["i", 543], ["of", 514], ["said", 462], ["you", 411], ["alice", 398], ["in", 369], ["was", 357], ["that", 315], ["as", 263], ["her", 248], ["t", 218], ["at", 212], ["s", 201], ["on", 193], ["all", 182], ["with", 181], ["had", 178], ["but", 170], ["for", 153], ["they", 152], ["so", 151], ["be", 148], ["not", 145], ["very", 144], ["what", 141], ["this", 134], ["little", 128], ["he", 125], ["out", 117], ["is", 108], ["one", 104], ["down", 102], ["up", 100], ["there", 99], ["his", 96], ["if", 96], ["then", 94], ["about", 94], ["no", 90], ["them", 88], ["know", 87], ["like", 85], ["were", 85], ["would", 83], ["went", 83], ["herself", 83], ["again", 83], ["do", 81], ["have", 80], ["when", 79], ["could", 77], ["or", 77], ["queen", 75], ["thought", 74], ["off", 73], ["time", 71], ["me", 68], ["how", 68], ["see", 67], ["into", 67], ["well", 63], ["can", 63], ["did", 63], ["who", 63], ["m", 63], ["king", 63], ["your", 62], ["don", 61], ["now", 60], ["turtle", 59], ["began", 58], ["by", 58], ["my", 58], ["ll", 57], ["an", 57], ["its", 57], ["hatter", 56], ["way", 56], ["mock", 56], ["quite", 55], ["gryphon", 55], ["are", 54], ["think", 53], ["their", 52], ["just", 52], ["say", 51], ["rabbit", 51], ["here", 51], ["first", 51], ["some", 51], ["much", 51], ["go", 50], ["only", 50], ["head", 50],(以下略)
----------word end ----------
----------char start----------
[["e", 13576], ["t", 10689], ["a", 8791], ["o", 8145], ["i", 7515], ["h", 7375], ["n", 7016], ["s", 6501], ["r", 5438], ["d", 4931], ["l", 4716], ["u", 3468], ["w", 2676], ["g", 2531], ["c", 2399], ["y", 2262], ["m", 2107], ["f", 2001], ["p", 1524], ["b", 1475], ["k", 1158], ["v", 846], ["q", 209], ["x", 148], ["j", 146], ["z", 78], ["_", 4], ["0", 1], ["3", 1]]
----------char end ----------

これだと、koike'sのsとかcan'tのtがひとつの単語として拾われてビミョウやんなW
まあええかW