【第6話ここまでの振り返り】現役データサイエンティストが機械学習でtotoを当てるまでの物語

本記事をご覧いただきありがとうございます。本記事はここまでの連載内容を振り返って、やっていることを紹介してまいります。話が進んでいくにつれて、毎回リンクを貼るのが膨大になっていってしまうので、所々で振り返りの記事を書いていこうと思います。

ぜひ最後までご覧ください。

第1話　全体感
第2話　アーキテクト
第3話　データ取得
第4話　前処理
第5話　特徴量生成
これからのトライ

第1話　全体感

【第1話全体感】現役データサイエンティストが機械学習でtotoを当てるまでの物語

本連載は、現役データサイエンティストが機械学習の知識を活用してtotoを当てるまでの物語です。第何話まで続くかわかりませんが、色々と試行錯誤してやっていければと思います。全体を俯瞰するtotoを当てるために必要なことは何だろうかと考える。t...

第1話では、これからトライしていく課題を設定しています。どんな処理の流れにする必要があるのかなどもこの段階で考えうる形でまとめています。個人でのんびりやっているので、そこまでではないですが、困ったらここに戻って考えていく的な内容を書いています。

第2話　アーキテクト

【第2話アーキテクト】現役データサイエンティストが機械学習でtotoを当てるまでの物語

第2話をご覧いただきありがとうございます。第2話では、第1話で構想している全体感をアーキテクトとして落とし込んでいこうと思います。第1話はこちらからどうぞアーキテクトが実現することこのアーキテクトが実現することは、pythonファイルを実行...

この記事では、第1話でイメージしていたものを手触り感のあるアーキテクトに落とし込んだ記事になります。

考えている概念図を書いてみてたり、計算方法の可視化をしてみたりしております。だいぶ甘々な内容となっていますが、このような形で一旦まとめて可視化する・言語化する作業って結構大事だったりするので1記事としてまとめました。

第3話　データ取得

【第3話データ取得】現役データサイエンティストが機械学習でtotoを当てるまでの物語

第2話では、アーキテクトを軸に書かせていただきました。当面はこのアーキテクトをベースに作り込んで予測して、週末にはドキドキして、また改良してを繰り返していきたいと思います。そんな本記事では、データの取得と前処理について書いていきたいと思いま...

この記事では、予測に使用するための処理方法を記載しています。特にスクレイピングの処理とか取得したデータの整形や一部前処理のコードを紹介しています。

具体的なコードの紹介があるので、コピペしてすぐに動かせるものとなっています。Jリーグのデータの予測に限らずスクレイピングの参考にどうぞ。

第4話　前処理

【第4話前処理】現役データサイエンティストが機械学習でtotoを当てるまでの物語

第3話では、データの取得から前処理の工程に入ってきました。本話も機械学習にとって非常に重要になる前処理の工程をご紹介いたします。本記事では、文字列の表記ゆれをどうにかしたり、簡略化したりといったステップの処理をご紹介いたします。前話までのお...

取得したデータの前処理をどんどん進めるパートになっています。スクレイピングで引っ張ってきたデータはかなりそのまま使えないデータとなっているので、文字列処理を中心とした処理をしています。データサイエンスプロジェクトの8割は前処理と言われるものがぎゅっと詰まっているような感じです。なんだかんだ、この処理を書き上げるのに、苦労しました。

第5話　特徴量生成

【第5話特徴量生成】現役データサイエンティストが機械学習でtotoを当てるまでの物語

本記事を読んでいただき、ありがとうございます。本記事は第5話とある通り、連載形式にて記事を掲載しています。ここまでの話について気になる方は、以下のリンクからご覧ください。さて、第4話までは前処理工程について紹介してきました。この第5話では、...

モデルの精度に大きく関わってくる、特徴量の説明をしています。基本的には得点に関する処理をして、特徴量を生成しております。かなり冗長的な処理となってしまい、省略して掲載してない処理の部分もありますが、ざっと目を通していただいて、概要を把握してもらえればと思います。

この特徴量を生成していく部分で、モデルの精度や、どういった側面から予測をしていきたいかというそれぞれの特徴が出てくるところだと思いますので、みなさんが新しいアイデアをプラスしていってもらえればと思います。

これからのトライ

これからのトライとしては、まずモデルの構築を進めていきたいと思います。さらに残されている課題としては、予測しなければならないtotoのデータを取得する必要があったりします。
加えて、イロレーティングによるスコアを特徴量として考えられるような状態にもしたいと思っています。

モデルの構築もLightGBMを想定していますが、そのほかのモデルも検討したいですし、アンサンブルもしていきたい。今はシンプルな2値分類をしているのでロジスティック回帰でも良いですね。そんなイメージを持っています。

さらに「Bet」の最適化もできると良いな〜なんて考えています。点で予測するのではなくて面で予測するようなイメージです。

そんな感じでいろんなことを考えて、形にして、実装して、記事にしていきたいと思います。これからの記事もお楽しみにしていただければと思います。

データサイエンティストの書評ブログ

趣味が読書くらいしかない駆け出しデータサイエンティストの書評ブログです。日々の勉強のアウトプットや趣味の読書のおすすめをしていきます。

総合トップページ｜スポーツくじオフィシャルサイト

スポーツくじ「WINNER・toto・BIG」オフィシャルサイト。購入方法・当せん確認・販売スケジュールはこちら！

第1話 全体感

第2話 アーキテクト

第3話 データ取得

第4話 前処理

第5話 特徴量生成