データサイエンティストハトリのブログ

PythonとインテリジェントクラウドとAIが好きな学生エンジニア。データ分析、スクレイピング、就職活動などについて書いていきます。

データサイエンティストになりたいから数学を学ぶ、は間違っています!最短ルートを徹底解説!!

f:id:hatorihatorihatorik:20181002154850j:plain

 

こんにちは、どうもハトリです!!

 

TwitterでプログラミングやIT関連のことについてつぶやいているのでよかったら是非フォローしてください →→(@tori_engineer)

 

 

データサイエンティストに似た職業がたくさんありますが詳しくはこちらで紹介しています。

www.torikun.com

 

今回はデータサイエンティストという仕事について書いていきます。

 

データサイエンティストは21世紀世界で最もセクシーな職業と言われ注目を集めていました。

データサイエンティストと聞いて多くの人は、理系が多そう、数学を使いそう、プログラミングができないとだめなんでしょ?と思うかもしれません。

 

matome.naver.jp

 

 

結論からいうと全部その通りです。

 

しかし、数学やプログラミングを意識しすぎるあまりデータサイエンティストになるのを諦めている人が多いのではないでしょうか。

 

個人的にはデータサイエンティストになるなら数学から学ぶべきではないと考えています。そもそもデータサイエンティストが行なっている仕事と数学を学ぶべきでない理由をまとめてみました。

 

データサイエンティストとは

f:id:hatorihatorihatorik:20181002154824j:plain

 

データ・サイエンティストとは、さまざまな意思決定の局面において、データにもとづいて合理的な判断を行えるように意思決定者をサポートする職務またはそれを行う人のことです。統計解析やITのスキルに加えて、ビジネスや市場トレンドなど幅広い知識が求められます。

参考:

データ・サイエンティストとは? | SAS

  

つまり、プログラミングを用いてデータ分析をしたりして、最終的にはデータに基づいた意思決定を行えるようにサポートする仕事です。

 

データサイエンティストに必要なスキル

データサイエンティストにはどんなスキルが必要なのでしょうか。

プログラミング

データを扱う上でプログラミングスキルは必要不可欠です。主にPythonという言語を使います。RとかJuliaという言語も時に使われたりもします。

また、その他、Hadoopのようなミドルウェアの知識も必要です。

数学

プログラミングの裏ではこの数学が行われています。データを分析する、ということは数学をとく、ということです。このため数学や統計の知識が必要とされています。

 

f:id:hatorihatorihatorik:20180905035308p:plain

ビジネス

冒頭でも紹介しましたが、データサイエンティストの仕事はビジネスの意思決定やサービス向上のために使われます。ビジネスの課題をどう解決して行くのか、という観点でデータを分析していかなければ最適解を得ることができません。

その他クラウドなどの技術

データサイエンティストはこれだけでは務まりません。どんなに複雑なアルゴリズムをといて、最適解を導き出せたとしても限界があります。

そこでマシンパワーが必要になってきます。これはかなり重要な要素です。

 

これらの理由からデータサイエンティストにはクラウドの知識が必要不可欠です。

 

じゃあそれぞれどの程度スキルが必要なのか

3つの必須スキルを紹介しました。これらのスキルはそれぞれどのくらい必要なのでしょうか。

 

ビジネス = プログラミング >> 数学

 

だと思っています。なぜ数学の必要度が低いのでしょうか。それは、数学を使わずとも公式が用意されているからです。

数学の公式であるモデル

Pythonでプログラミングを学んで行くとモデルという概念が出てきます。モデルとはPythonで課題を解決するための公式のようなものです。

 

モデルを使うことで、テキストに書かれている文法に沿ってコードを打ち込んで行けば、勝手にコンピュータが計算をしてくれます。

 

モデルの使い分けはある程度勉強が必要

もっとも難しい部分はその課題に対してどのモデルを適応させるかです。これはある程度先人がまとめてくれています。

 

例えば、最もよく使われているscikit-learnというライブラリにはチートシートがあり、状況に応じたモデルを作ることができます。

f:id:hatorihatorihatorik:20180905033807p:plain

プログラミングもいらない時代がくる

プログラミング能力は必要だ。と言ったばかりなのですが、プログラミング能力すらいらない時代に突入するかもしれません。

 

いまは便利なツールが増え、プログラミングをしなくてもデータ分析が行える時代になっています。 

Microsoft社のAzure ML

Microsoft がお勧めする Azure Machine Learning ソリューション、Machine Learning Studio へようこそ。Machine Learning Studio は強力でシンプルなブラウザーベースのオーサリング環境です。ドラッグ アンド ドロップによるビジュアルな操作で使用でき、コードを記述せずに済みます。数回クリックするだけでアイデアをデプロイできます。

azure.microsoft.com

google社のauto ML

Cloud AutoML は、機械学習の専門知識をあまり持たないデベロッパーでも、Google の最先端転移学習や Neural Architecture Search テクノロジーを活用し、高品質なモデルをトレーニングできる機械学習プロダクト スイートです。

cloud.google.com

 

これらはすべてドラックアンドドロップだけでデータ分析が可能です。他にも様々なツールがあります。これからさらに増えていくでしょう。

頭一つ抜けるには数学が必要

やはりドラックアンドドロップだけでは限界があると思っています。チートシートも数学的に裏付けされた根拠がなければなんとも言えないし、その辺を思考停止で行なって行くと完璧な精度の分析はできないのではないかと思います。

 

データサイエンティストとしてトップに立ちたいのであれば基本的な数学からプログラミングまで幅広く勉強する必要があるかもしれません。

でもこの時代はいつか終わるかもしれない

uma66.hateblo.jp

こないだこんな記事を読みました。増え続けるデータサイエンティスト。

できるできる詐欺が横行しているようです。

 

kaggleのような定量化された基準で評価された人だけが仕事を勝ち取り、量産された偽データサイエンティストは淘汰される時代がくるでしょう。これから先のことはまだだれにもわかりません。