【体験談】未経験データサイエンティストの実務

コラム

今回の記事では、実際に未経験からデータサイエンティストになった私の実務経験を話せる範囲でお話しいたします。加えて周囲の未経験からデータサイエンティストになった方達の実務内容などを踏まえて、データサイエンティストの実際をお伝えしたいと思います。

時間のない人向け 本記事の要約

未経験データサイエンティストがやることは以下のことが多い

  • ダッシュボード構築(LookerStudio/tableau)
  • データ集計(SQL/Python)
  • データ抽出(SQL)
  • それらを行うためのSQL作成
  • ワークフロー内のクエリ作成
  • エクセル職人
  • 基礎分析(Python)
  • 作業自動化(RPA)関係(Python)
  • モデル構築(Python)

未経験ではなくなってくると、以下のようなイメージ

  • 分析設計
  • データパイプラインの構築
  • モデル構築
  • データ活用のコンサルティング
  • 既存モデルのリファクタリング

未経験で身につけるべきスキル

この章では、未経験データサイエンティストが身につけるべきスキルについて紹介します。Pythonができないとダメとか、他のサイトでも書いてあるようなことは当たり前として考えてください。

ハードスキル

ハードスキルとは、一般的に経験や資格取得などから得られる客観的に証明しやすいスキルのことです。以下私の考える必要なハードスキルを紹介します。

ハードスキル
  • ドメイン知識や経験
  • 統計学に関する知識や経験
  • プログラミングに関する知識や経験
  • コンピュータに関する知識や経験
  • 数学に関する知識や経験

ざっくりこんな感じです。もう少し補足すると
ドメイン→学生時代や実務経験などから、特定の分野について分かっていると胸が張れるようなレベル感
統計学→統計検定2級程度
プログラミング→タイタニックデータで色々できるくらい
コンピュータ→基本情報が取得できるくらい(優先度は低め)
数学→数学IIICがわかるくらい

これくらいが分かっていれば、未経験でも十分です。それが分かっているだけ努力できているわけですから、足りない部分は自ら埋めていくことができると思います!

ソフトスキル

ソフトスキルとは、ハードスキルとは対照的に客観的には証明しにくいスキルとイメージしてもらえれば良いと思います。以下私の考えるソフトスキルを紹介します。

ソフトスキル
  • 検索力
  • コミュニケーション力
  • 好奇心
  • 継続力
  • 学習意欲
  • 主体性

ざっくりこんな感じです。少し補足していきます。
検索力→どう調べれば、ヒントを得られるか
コミュ力→一人で完結する仕事はありません
好奇心→停滞しているとデータサイエンティストは時代に置いていかれます
継続力→常に学び続ける職業なので継続してインプットが必要です(アウトプットも)
学習意欲→好奇心の部分の補足とほぼ同義
主体性→専門知識を持っていると評論家になりがち。課題を共有する同僚やクライアントは評論なんて求めていない

継続的に学んでいくことや、コミュ力が大事というのはよく言われているかと思います。検索力も最近では結構目にするようになってきました。プラス主体性の部分では、直近で私が同僚データサイエンティストに評論家をやられて非常にイラッとした経験から書かせていただきました。客観的に見れていることは非常に大事ですが、それで終わってしまうとただの評論家です。客観的に見て主体的に動く、これができると愛されデータサイエンティストに近づけると思います!

以上、未経験からデータサイエンティストになるためのスキルでした。一朝一夕では身につけにくいハードスキルから、今意識を変えるだけで実行できるソフトスキルもあったと思います。私もここに書いておいて実行できていないと恥ずかしいので、これを肝に銘じて一緒に精進していきます!

未経験データサイエンティストの実務

次に、未経験データサイエンティストの実務についてです。
未経験からデータサイエンティストになった際にやっていく実務として、多くの場合可視化やダッシュボード構築などを任される例をよく耳にします。ただ正直なところ、採用される企業によりけりというのが実際です。

データサイエンスチームの有無

例えば、すでにデータサイエンスチームがある場合。この場合、データサイエンティストを志すきっかけになったであろう「モデル構築」や「AI開発」、「ビジネス課題をデータで解決」などは正直遠い道のりなのは間違いありません。なぜならデータサイエンスチームがあるということは、すでにデータサイエンスを用いたビジネススキームがある程度確立されている、もしくは進めている最中であることが多いからです。そこに実務経験のない、新米データサイエンティストを事業のコアに据えることは考えにくいと思います。余程のポテンシャルを秘めていないとなかなかそうはならないのが現実です。

次にデータサイエンスチームがない場合。これはそもそも採用があるのか微妙です。経験のない人材よりも、経験のある人材を採用して、作っていくことの方がベターであることは明白です。
とは言え、そういった環境に入れることもあるかもしれません。だとしても、データサイエンスを活用するための下地を作ることから始めないといけませんし、データサイエンスの華に辿り着くまでに、相当な労力が必要であると考えられます。この場合は強いコネなどがないとなかなか現実的ではないと考えられます。

少し話が逸れてしましたが、未経験データサイエンティストの実務というのは、おそらくデータサイエンティストになりたいと思った当初の業務内容にすぐ取り掛かれるというのはごく稀で、一見遠回りそうな、地道な積み重ねが大事かと思います。

じゃあどんな実務?

答えは冒頭にも書いた通り、可視化やダッシュボード構築、データ抽出や前処理などがメインであることが多いです。実際に私の周りもそうです。もうちょっと(数年単位)実務経験を積めばそれに近づけるというのに、ミスマッチを感じてやめていく若い後輩を何人も目にしました。非常にもったいない。

もちろんKaggleでトップランカーのような実績を引っ提げることができれば話は違うかもしれません。ただ、Kaggleなどのコンペの実績を賞賛してくれる現場もあれば、ちょっとした拒否反応を示される現場もあったりします。これも現実です。ビジネスの場合、コンペのようにモデルの精度を追求するだけでは価値創出に繋げにくいこともあるからです。モデルの精度を追求するよりも、説明性が必要だったり時間をかけないことの方が重要だったりすることも往々にしてあるということもあります。とは言え、データサイエンティストなのであれば、精度を追求することも大切。バランスが大事ですね。

では以下私、もしくは知人などが未経験からデータサイエンティストになって触れた実務を紹介します。

  • ダッシュボード構築(LookerStudio/tableau)
  • データ集計(SQL/Python)
  • データ抽出(SQL)
  • それらを行うためのSQL作成
  • ワークフロー内のクエリ作成
  • エクセル職人
  • 基礎分析(Python)
  • 作業自動化(RPA)関係(Python)
  • モデル構築(Python)

以上のような感じです。「モデル構築なんてできない!」ようなことを言いましたが、本人のパフォーマンスによっては任されるケースもあります。私もそうでした。(とは言え、モデルを構築してみたら全然上手くいかず、おじゃんになったのは苦い思い出…)
石の上にも三年と言いますが、データの上にも三年、話はそれからということかもしれないですね。

未経験を少し抜け出した先の実務

データサイエンティストがいかに大変な仕事で、下積みが大事かを書きたいわけではないので、次に未経験とは自称できなくなってきた後の実務を紹介します。
事業会社にデータサイエンティストとして入れば、明確に次のレベルの業務というのがある程度見えると思います。先輩社員の行っている業務だったり、新しい事業提案や課題解決もあるでしょう。それに対してデータサイエンスでアプローチするということは、現場で実務を行なっている駆け出しデータサイエンティストの方なら想像に難くないでしょう。

ここでは、志している、もしくは目指している方向けに、駆け出した後の実務を紹介します。ざっくりこんな感じです。

  • 分析設計
  • データパイプラインの構築
  • モデル構築
  • データ活用のコンサルティング
  • 既存モデルのリファクタリング

こういったことを私も実際に任されましたし、周囲で任されているようでした。上記に限りませんが、概して言えることとしては、扱う範囲が広くなくとともに、特定の範囲は深さも要求されてくるということです。この時重要なのは、機械学習などの知識に関しての深さもありますが、その分野・ドメインでの知識経験の深さも同じくらい、もしくはそれ以上に重要ということです。技術を突き詰めることも大事ですが、データを使ってその会社に貢献していくことの方がもっと重要です。(その会社の従業員として)
数年経験してくれば、そういった視野を得ることはできると思いますし、できなければなかなか違う守備範囲を任されることも少ないでしょう。

個人的にデータサイエンティストとして重要だと感じているのは、データの取得にどれだけ関われるかだと思っています。限られたデータだけでは、限られたことしかできませんが、必要なデータを自分で考えて、それが取得できるような技術力やビジネス力があれば、モデルを設計する際に試したい説明変数を自分で取得できたりしてPDCAが回せますし、分析などを設計する際も非常にスムーズに進められます。
周りを見ていると、この部分を比較的重視している駆け出しの人が少ないので、いい経験を積めているんだなーと勝手に思っています。暴論ですが、必要なcsvを他部署からもらうような立ち回りは良くない、ようなイメージですw

まとめ

以上が未経験からデータサイエンティストになった実情のお話でした。参考になれば嬉しいです。

兎にも角にも、データを扱ってスマートに解決策を出していくというイメージのあるデータサイエンティスト(個人の感想)ですが、下積みもあるんですね。
それに加えて、現役のデータサイエンス協会の中の方と喋る機会があるのですが、キャリアプランというものもそこまではっきりしていないというのが実情です。今いるベテラン世代の凄腕データサイエンティストは、統計学や数学に造詣の深いエンジニアが仕事のレベルを上げた先の延長線上がデータサイエンティストと呼ばれ始めた領域だった、という感じらしいです。

だからこそ、これからデータサイエンティストを志す方、たった今駆け出したデータサイエンティストの方、変に周りをキョロキョロするよりは、今の環境で求められていることの質を高め、興味のある分野や技術に没頭していくことが最高のキャリア形成になるかもしれませんよ

データサイエンティストの書評ブログ
趣味が読書くらいしかない駆け出しデータサイエンティストの書評ブログです。日々の勉強のアウトプットや趣味の読書のおすすめをしていきます。
一般社団法人 データサイエンティスト協会
当協会では、データサイエンティストのスキル要件の定義・レベル認定などの個人のキャリア形成に関する活動を通じて、人材と企業間の交流促進による雇用機会の創出や、企業間取引の活性化を目的としたビジネス機会の創出など、高度人材の育成と業界の健全な発展に貢献するさまざまな普及活動を行うことを目的としております。

転職・スキルアップはこちらからどうぞ

オススメ転職はこちらからどうぞ
オススメのスキルアップはこちらからどうぞ

コメント

タイトルとURLをコピーしました