もはや意地なのか!?
『コラボでGO!』シリーズもいよいよ最終回です。
ここでは第5章で作成したCSVファイルを利用して、レース場やレース回によって1-2-3の3連単ボックスの当たりやすさに違いがあるのかを考えてみたいと思います。
データの分析にはGoogleスプレッドシートを利用します。これはブラウザで利用できる表計算ソフトで、気軽にデータ分析を行うことができます。
これまで、競争成績のファイルをダウンロードして解凍し、テキストファイルからデータを抽出してCSVファイルを作成してきましたが、これらをすべてオンラインで行いました。
ここまで来たら最後までGoogle先生でやり切りましょう! コラボでGO!(最後はコラボ使わないけどね)
組番が正しく表示されない!?
第5章の最後で見たように、GoogleドライブからCSVファイルをプレビューすると組番の列が正しく表示されませんでした。
理由は、Googleドライブが組番を日付型と認識したためで、そのままスプレッドシートで開いても同じ状態になります。
これを回避するには、新規のスプレッドシートにCSVファイルをインポートし、その際に型変換を行わずにテキストのまま読み込む必要があります。
CSVファイルのインポート
それでは、GoogleドライブからGoogleスプレッドシートを作成しましょう。
Googleドライブのメニューから「新規」と書かれたアイコンをクリックし「ファイル」→「Googleスプレッドシート」→「空白のスプレッドシート」を順番に選択してください。
スプレッドシートを開いたら、上部に表示されているファイル名を任意のものに変更しましょう。ここでは「Teimon」にしてあります。
続けて、メニューから「ファイル」→「インポート」を選択してください。
するとインポート用の画面が表示されますので、「マイドライブ」のタブからCSVファイルを保存したフォルダをクリックし、「選択」ボタンを押下します。
フォルダの中にあるCSVファイルをクリックし、「選択」ボタンを押下してください。
すると、インポートの設定画面が表示されます。
ここでは下図のようにラジオボタンを選択してください。最下部の「テキストを数値、日付、数式に変換」の部分を「いいえ」にすることがポイントです。
「データをインポート」ボタンを押下して、CSVファイルをインポートしてみましょう。すると、組番がテキスト型として読み込まれていることが分かります。
すべてのフィールドに対して型変換を行わなかったので、払戻金についてもテキスト型になっています。必要に応じて「表示形式」から数値型に変更してください。
ピボットテーブルで分析しよう
続けてピボットテーブルを作成します。
ピボットテーブルとは、シートのデータを様々な角度から分析できる機能です。Excelで利用したことがあれば、使い方はほぼ同じなのですぐに慣れるでしょう。
インポートしたデータが表示されているシートで、メニューから「データ」→「ピボットテーブル」をクリックしてください。
別のシートにピボットテーブル用のシートが作られます。
右下に表示されている「行」「列」「値」の部分に集計したいデータを追加していきます。
キョーコが知りたかったのは、1-2-3ボックスで当たる確率が、レース場やレース回で異なるのではないかということでした。
そこで、まずは行にレース場、列に3連複_組番、値にも3連複_組番を入れてください。このとき、値に入れた3連複_組番の集計は「COUNTA」、表示方法は「行集計に対する割合」とします。
列に3連複_組番を入れる理由は、1-2-3の3連複が来るときは、1-2-3の3連単ボックスが当たるときと同じためです。
値に3連複_組番を入れる理由は、1-2-3の3連単ボックスが当たったレースを数えるためです。ここで「行集計に対する割合」を選択することで、3連複のすべての組番に対して1-2-3がどれだけの割合で発生したのか計算されます。
このデータでは、津や浜名湖で1-2-3ボックスが当たりやすく、蒲郡では当たりにくいということが分かりますね。
次に、行のレース場を削除して、代わりにレース回を入れてください。下図の通りです。
このデータでは、8レースで1-2-3ボックスが当たりやすく、2レースでは当たりにくいということが分かりますね。
今回は集計期間が短いためあまり参考にはなりませんが、期間を長くしたり別の切り口で分析することで、これまで誰も気が付かなかったインサイトを発見できるかもしれません。
おわりに
いかがでしたでしょうか?
これで『コラボでGO!』シリーズは終わりになりますが、ボートレースのデータ分析はここからがスタートです。
第1章からこつこつ勉強した皆さんは、すでにPythonを使ってデータの収集や整形を自動化し、ピボットテーブルを使ってデータを分析することができるようになりました。
ここで学んだことをベースに、これからどんどんステップアップしていきましょう。
それではまた次のシリーズでお会いしましょう。コラボでGO!