【第2話アーキテクト】現役データサイエンティストが機械学習でtotoを当てるまでの物語

第2話をご覧いただきありがとうございます。第2話では、第1話で構想している全体感をアーキテクトとして落とし込んでいこうと思います。

第1話はこちらからどうぞ

アーキテクトが実現すること
もう少し具体的に
まとめ

アーキテクトが実現すること

このアーキテクトが実現することは、pythonファイルを実行すればtotoの対象試合の予測結果を返すことです。予測してtotoを購入するあたりまで行ければよかったのですが、そこまではやりません。（できません）

ということは、モデルを構築し、totoの予測結果を返すことがシンプルなアーキテクトです。

totoの予測をするためには、totoの開催試合を取得する必要があります。また勝敗の予想に最新のデータは必要不可欠です。常に新しいデータからモデルが構築され、予測したい試合を取得する必要があります。

つまり、上記のシンプルなアーキテクトに加え、常にデータが新しく更新されるようなデータの取得のアーキテクトも必要であると考えられます。
取得するデータは２種類。モデルを構築するためのデータと、モデルを適用するためのデータです。これらを取得するために、スクレイピングによる処理を噛ませます。

以下のような感じになります。

もう少し具体的に

ここからは、今イメージできているアーキテクトの部品をどのような形で実現したりしていくかを書いていきます。

試合結果など

こちらは、Jリーグのサイトからデータを取得してきます。こちらは以前記事に書かせていただきました。

【超簡単！】PythonでJリーグの試合結果を自動で取得する

はじめに本記事は、Jリーグの公式サイトから自動で結果を取得保存する処理をPythonで記述します。結果を取得することで、そのデータを基にさまざま加工することができます。加工できればこちらのもの。機械学習で予測モデルを作ってみたりも出来ます...

この記事と同じことをします。Jリーグの公式サイトには、これまでの試合結果が格納されています。この試合結果をスクレイピングにて取得してデータとしてローカルに保存していきます。

データ

ここでは、取得したデータの前処理と特徴量エンジニアリングを行うフェーズです。本記事では具体的な言及は致しませんが、モデル構築前の重要なフェーズであることには変わりありません。

前処理の部分は、細かく丁寧に処理するとして、特徴量エンジニアリングはモデルに喰わせるために非常に重要であり、試行錯誤が必須になるフェーズで柔軟性を持たせることが必要だと考えられます。

特に特徴量エンジニアリングの部分については、限られたデータでやっていく必要があり、必要以上に複雑にするとメンテナンス性が低下するためできれば避けたいところ。いったんはまず、Jリーグのスクレイピングから生成できそうなデータに限ってトライしていく必要があると考えられる。

機械学習モデル

この点については、あまり深く考えずに、「LightGBM」でとりあえず回すというアプローチでトライする。

今回のタスクとしては、分類問題。「勝ち」「負け」「引き分け」を予想するので、多クラス分類のタスクとなる。totoが求めるのは、『ホームチームの』「勝ち」「負け」「引き分け」。とはいえ対戦相手のある勝負の世界なので、ホームチームの勝敗だけを予想するのは少し現実問題から離れていると感じるため、ホームチームとアウェイチーム両方の勝敗を予想し、その結果から、最終的なtotoの予測とすることにする。

この点は、まず実装して実際の予測を行ってから、改良をしていけば良い。まずはモデル構築をして予測結果を返せるように手軽に実装してトライしていく。