データサイエンティストを目指すならやっておきたい10のこと

コラム

この記事では、未経験からデータサイエンティストになった私が肌で感じた”後悔”をベースに、『データサイエンティストを目指すならやっておきたい10のこと』と題して書かせていただきます。

あくまで私が感じた主観に基づくものですので、ご意見等ある方はぜひコメントからお願いいたします。
また、本記事を参考にしていただけると大変嬉しいですが、これらをやればデータサイエンティストに転職できるということを保証するものではございません。ご注意ください。

1. 数学・数式に慣れる

最初から大半の人は敬遠するところですが、1丁目1番地で書かせていただきました。

より深く理論を理解し、使いこなすためには数学の知識や数式でどんなことがおこなわれているか把握できる必要があります。高校数学ができれば問題ないとよく聞きますが、多くの場合そんなことはなく、大学理系教養レベルは必要なことが多いです。

ただし、この数学・数式に慣れるための裏技的な方法もあります。それはコードを動かしながら数式を理解する方法です。私は新しい分野で数式を理解するとき、なるべくコードを動かしながら数式の理解をする方法で勉強しています。

本記事はデータサイエンティストを目指す方向けの記事なので、思うようにコードを動かせない方もいるかもしれませんが、頭の片隅に置いておくと良いと思います。

2. 統計学

データサイエンスにおける統計学は、ほぼそのままイコールで考えても差し支えないくらい、コアになる学問分野です。

先程の数学・数式と一緒にここを押さえることで、データサイエンティストとそうでない人の明確な線引きになると考えても問題ないでしょう。

私自身、ビジネスの現場で「有意差」や「信頼区間」などの統計学の問題に出てきそうな内容をそのまま使うことは稀ですが、データサイエンティスト同士の会話では、統計学という共通言語の上で会話がされることが多いです。そのため必須の知識になります。

目安として『統計検定2級』程度は、取得できているとかなり良いスタートラインになるでしょう。多くの資格がビジネスでは役に立たないと揶揄されがちですが、データサイエンスの現場で『統計検定』が揶揄されているのにはまだ私自身であっていません。それくらい重要です。

3. 論文に慣れる

データサイエンスの中でも特定の分野や技術について、興味を持ち、さらに深めたいと思った時、必ずといっていいほど、論文にあたります。その理由は、データサイエンスの学問としての年齢が若いからです。

また論文にすらなっていないこともしばしばです。であるなら、論文に読み慣れておくことに越したことはありません。

この『論文に慣れる』とは、データサイエンティストになった後の未来を見据えた要素です。データサイエンティストになるために必要な要素ではありませんが、長く活躍していくには必要でしょう。であるなら、今から慣れるべきです。論文から情報を収集して、実務に活かすなんてかっこいいじゃないですか。データサイエンスの現場ではよくある光景だったりします。目指している今の段階から慣れておくと困ることがなくなると思います。

4. 勝負できる専門分野がある

四つ目は、『勝負できる専門分野がある』です。これはビジネスの経験でも、学生時代の研究分野・専門分野でもなんでもOKです。
また、勝負できるといっても、その分野で年収1000万稼げるなんてレベルでなくて大丈夫です。その分野について、ビジネスレベルでしっかりとした経験と理解があるという認識で大丈夫です。

よく言われていることとして、専門分野を3つ掛け合わせると、日本(場合によっては世界)でもトップオブトップになれるといいます。データサイエンスの世界でトップになるには、ChatGPTのようなすごいAIを開発できないといけないようなレベル感になってしまいますが、分野を掛け合わせることで簡単に上位に食い込みやすくなります。

データサイエンスという分野は特に、『手段』であることが多く、データサイエンスをすること自体が目的にはなりにくいことが多いです。つまり、「化学×データサイエンス」や「労務×データサイエンス」など、「業界×データサイエンス」が成立しやすいのです。

そのため、『勝負できる専門分野がある』ことが重要になってきます。データサイエンティストを目指すためにも、一度立ち止まって、足元の専門性を見つめ直すことも重要です。

5. PC周りに強くなる

次は、『PC周りに強くなる』です。これは主に環境構築や細かい設定、意外とパソコン関係で頼られたりなどの経験に基づきます。

データサイエンティストとPCは切っても切れない関係にあります。であるなら、その相手に詳しくなるに越したことはないでしょう。

PC周りに強くなる、とは一体どんなことを指すのでしょうか。私の経験上、PCを買ってきて設定を自分でおこない、ある程度カスタマイズできるようになるというようなレベル感になれればよいと考えています。職場で異なるセキュリティレベルや開発チーム体制などがあったりします。それも踏まえて、『言われた設定がわかる・できる』レベルや『設定できなくても、どのように調べれば解決できるか想像できる』ようなレベルを考えています。
これを要約すると『PCを買ってきて設定を自分でおこない、ある程度カスタマイズできるようになる』レベルと私は考えています。

データサイエンティストになるために、自分のPCを買ったのなら、恐れずに色々といじくり回して見るのが近道になると思います!

6. 勉強習慣をつける

データサイエンティストが日々相手にする分野は日進月歩著しい分野です。少し前に「Stable Diffusion」が出てきて、画像生成AIすごい!となったのが、今では「ChatGPT」は世界を変えるなんて風潮に支配されています。

これらについていけないと、なかなか厳しかったります。ついていくためには日々勉強する習慣があると楽についていけます。さらにこれに好奇心やミーハー心があると尚よしです。

世間を騒がしている技術はどんな理論や技術がベースとなっているのか、勉強しないと理解し活用していくことは非常に難しいです。また、世間を騒がせていなくても、「この課題を解決するには、この理論が使えるかもしれない」となった時、本当に活用することができるのか勉強して判断しなければいけませんし、何もそれが理論ではなく、コードの実装だったりもします。

これらを踏まえると、日々当たり前のように勉強して、血肉にできている必要があります。そのためには苦にならないように、習慣化することが重要です。

7. 読書習慣をつける

7つ目は、『読書習慣』をつけるです。勉強習慣はアウトプット、読書習慣はインプットとお考えいただければ、違いを理解できるかと思います。

読書習慣をつけるメリットは、さまざまなメディアでもいわれている通りです。本ブログでも多くの書評記事を書いておりますので、ぜひご覧ください。
読書をすることのメリットは言わずもがなですが、あまり語られていないメリットを上げるとするならば、私は正しい日本語に触れる機会が多いことがあると考えています。
口語の場合、修飾語の場所が変でも意味としては通じることが多いと思います。例えば次の日本語を声に出して読んでみてください。

『非常に、ためになったこともあり、有意義な時間でした』

これは、もう中学生がいってそうな意味になりますが、『非常に』が『ためになった』についているのか『有意義』についているのか不明瞭です。口語ではこのようなことが頻繁に発生しますが、出版されている書籍ではそう起こり得ません。

このように、読書習慣を身につけることができると正しい日本語に触れる機会が多くなり、遠因として仕事を進めやすくなります。決してデータサイエンティストに限ったものではありませんが、身につけて損はない習慣であると考えています。

8. エクセルが使いこなせる

終盤に差し掛かり、8つ目は『エクセルが使いこなせる』です。

高いレベルで使いこなせるに越したことはありませんが、ここでいっている使いこなすとは、「関数を自分で調べて不自由なく使える」ことを指します。VBAは、データサイエンティストを目指す段階では必要ないと考えています。

データサイエンティストがいるような現場でも、非IT人材が最終的に絡む計上処理などの事務所理系の業務はエクセルが現役バリバリで使われています。さらに関数などで中途半端な自動化などがされていて、かつ、マニュアルはないなどの現場は全然あります。
これからデータサイエンティストになって現場で活躍したいと考えているのであれば、ある意味雑務に近い業務を卒なくこなせると変に失望もされず、すんなり馴染めるのではないでしょうか。

モデル構築だけがデータサイエンスではないですし、このような業務効率化もお願いされることは往々にしてあります。信頼を勝ち取る意味でも、できていて損はないですし、Pythonはそれなりに使えるけどエクセルは全然使えませんって、一般的なイメージからしたら基礎が疎かになっているような印象を持たれかねません。お断りすると、Pythonの基礎はエクセルではないことは十分わかっておりますが、非IT人材の中で、「プログラミング>エクセル」って思っている人は想像以上に多いです。

このような現実を受け止めた上で、優先度としては決して高くないですが、やっておいて無駄には絶対なりませんので、余裕があれば使いこなしてみることをお勧めします。

9. 保守的な考えを捨てる

9つ目は、『保守的な考えを捨てる』です。

このデータサイエンス業界に飛び込んで、想像以上にアグレッシブで新しいことが大好きなオジサンが多いことに驚きました。
常に最前線を走るには、好奇心と行動力が重要なのでしょう。そこに守りに入ったような保守的な、自分のテリトリーに固執しているような印象は全くありませんでした。

これからデータサイエンティストを目指すような方には、決して保守的にならず、むしろ前のめりで時に転びながらもチャレンジしていく姿勢でいて欲しいと考えています。
私自身、そのようなメンタルの方が新たに入ってくると非常に危機感を覚え、尻に火がついたような気持ちになることができます。

保守的になるなとは、何も常に新しいものを探求しろという意味ではありません。データサイエンティストが価値を発揮するのは、データを効率的に意思決定に繋げることができるからです。これができなければどんな革新的で技術的に素晴らしくても、組織内では価値を発揮できません。

価値を発揮するために、常にチャレンジャーであることが重要なのです。

10. 行動を起こせるように

最後は、『行動を起こせるように』です。

本記事の対象者は、データサイエンティストを目指している方です。目指すだけなら誰にでもできます。目指した先に、データサイエンティストとして働いている未来があるはずです。そのために力不足だったとしても、行動することが大切です。これができないと目指しているだけで人生終わってしまいます。

試しに未経験の採用に応募してみましょう。きっと難しいはずです。ではその経験をもとに何が足りなかった考えてみて、それを克服するなり習得するなりしていきましょう。そして再度応募してみましょう。きっと次は反応が少し違うはず。これの繰り返しです。

データサイエンティストになるために繰り返した試行錯誤が本物なら、それは面接で胸を張れる経験です。実際に仮説を持って実験してデータを取って、そのデータから改善を図り、再度実験して結果を観測する。この繰り返しはまさにビジネス現場のデータサイエンスです。

さあ、一歩を踏み出すチャンスです。

コメント