OFFICE風太郎

日本のエンジニア、風太郎です。問題解決が飯のタネです。仕事や生活で問題解決を活用したり、問題解決の基礎となる統計とかデータ分析の話をしていきます

【データサイエンス】データ分析環境について(WinPython編)

初学者にはお金が不要で構築できる環境を

 今からデータサイエンス(データ分析)をしようとしている人がソフトを購入するのは大変です。そのためここでは 「簡単に」 手に入れる方法を説明します。  以前に データサイエンスとその環境について(無料環境) - OFFICE風太郎google colaboratoryを紹介しました。しかし、自宅勉強ならともかく、職場ではネットで繋げないなどの問題があります。
そこで、自分のPCにインストールとなります。やはり、インストールなどは有償ソフトの方が楽だとも思います。  有償ソフトで個人で購入できる値段は購入できそうなのはMatlabのアカデミック版だけでしょうか?
 それを購入するために通信制大学・大学院の放送大学に入学する人がいます。しかし、アカデミック版は有償ソフトのメリットのサポートがないのが気になります。 当然会社のPCにインストールすることはできません。なかなか高価なソフトでそう簡単に購入できなかったりします。
そこで、多くの人はPythonやRなどのオープンソースソフトを使うことになるでしょう。

オープンソースソフト(無料)

 多くの人が、PythonやRなどの無料ソフトを使っています。これを無料というと多くの人が反発するでしょう。ただ、初心者にとって、勉強のために多くの費用が必要な恐れをなくすことが大事だと考えてこのような表現にしました。
 初心者にはオープンソースという言い方とかわかりにくくて理解されないことが多くあります。そのため無料ソフトという名称を用いました。
 突っ込みたい人はいっぱいいると思いますがご容赦ください。

おすすめはWinpython

 このブログでは WinPython を進めます。

 多くの人は www.anaconda.com

を使っています。  このAnacondaは大変よいパッケージ(ソフトウェアのセット)です。これを薦めるのは当然です。それでもあえて次のようなことを考えてこのWinPythonをお勧めします。

  • インストールそのものが不要(フォルダに展開するだけでいい)
  • そのためうまく動いた環境をそのまま他のPCに持っていける
  • ソースコード(*.Py)とセットで運用したらまるでアプリケーションのように運営できる

 と言ったメリットがあります。なぜこの環境を思い当たったか?それは次のような質問を受けたからです。
Pythonを.EXE化できないか?」ということです。状況をいろいろ伺うと上記のような対応でできることがわかりました。それを伝えたところ「私は.EXE化したいんでる」としか言われませんでした。これは問題解決の視点からかなしいですね。.EXE化というのは目的を達成する手段です。問題解決で手段そのものを変更するのはかなり有効な方法です。

Winpythonの企業でのメリット

 上記のことから企業でのメリットがかなりあります。 その活用シーンを考えてみます。

まず第1に
 「構築済みの環境を手軽に配布できる」
 ということがあります。意外とソフトのインストールと、ライブラリのインストールは大変です。さらにバージョンとか合わせることはもっと大変です。これをフォルダ一つや、zipファイル一つで済むから楽です。

続いて、
 「ソースコードとセットで配布することにより、アプリケーションの様に取り扱える」
 直接実行すれば、それがまるでアプリケーションの様に動作します。これは実務だけじゃなく、研修とかのデモ用にも最適です。

最後に
 「動作が安定する」と言うことです。
 レジストリを汚したりしないので、動作が安定します。また、複数バージョンの共存も得意です。PCになれない人は意外と細かい操作をミスります。そこで、この様な形態で配布するとトラブルが少なくなります。

 以上の理由により、企業とかでPCの扱いに疎い人が多い場合に有効な分析環境と言えるでしょう。

参考)現在Anacondaでの最新バージョンのPython3.7は色々不具合があるようです。そこで旧バージョンはAnaconda installer archiveでダウンロードできます。