【はじめに】
こんにちは。23年卒SD部Y.Mです。
前回投稿されました『機械学習part1:機械学習とは』はお読み頂けたでしょうか?
まだお読みで無い方は、ぜひpart1からお読みいただけると本投稿の内容がより分かりやすくなるかと思います!
今回は機械学習の実践を行う準備をしていただきます!前回のブログでは、機械学習の定義・学習方法・活用事例に関してご説明をしました。その中でも「教師あり学習」という学習方法を深堀して学び、実践しながらご説明していきます!
【目次】
・復習:教師あり学習
・回帰とは
・準備:環境構築
- Anacondaインストール手順
- JupyterLab利用手順
- プログラムを実行してみよう!
・さいごに
では、まず軽く「教師あり学習」に関して復習していきます!
【復習:教師あり学習】
教師あり学習とは、与えられた大量の入力データから答えを探す方法です。入力データの中には正解となるデータも用意しておきます。
正解となるデータは、目的変換・正解ラベル・ラベルなど様々な呼び名がありますが、今回のブログでは”正解データ”と呼ぶことにします。
例えば、入力データとして様々な動物の画像を1000枚用意します。これを入力データとします。次に、各画像に対応する動物の名前を正解データとします。すると、コンピュータは入力データから正解データを予測するための法則を探すことができます。これが「教師あり学習」です。
教師あり学習では、さらに「回帰」と「分岐」に分類されます。「回帰」は、正解データが数値となります。例としては、過去一週間の株価を入力データとして、明日の株価を予測します。対する「分岐」とは、正解データが文字列や範囲の狭い整数のように、いくつかの選択肢のうちの1つとして解釈できる場合の教師あり学習です。例としては、先ほどのように猫と犬の画像を入力データとして、その画像が猫か犬かを予測します。
このように入力データの中身によって教師あり学習の中でも「回帰」と「分岐」に分類されているのですが、今回はIT初心者の方でも機械学習の内容が理解できることが目的のため、比較的理解のしやすい「回帰」の手法を紹介していきたいと思います!
【回帰とは】
回帰という手法の中でも、機械学習手法(モデル)の種類が大きく分けて3つあります。「決定木モデル」「重回帰モデル」「ランダムフォレストモデル」です。『機械学習part1:機械学習とは』でも記述があった通り、実践ではこの中から「決定木モデル」を扱っていただきます!「決定木モデル」の詳しい説明に関しては機械学習part3で取り扱うのでお楽しみに!
【準備:環境構築】
では、ここからは実践に向けて準備をしていきましょう。今回使用するプログラミング言語は「Python」になります。Pythonには機械学習で使用するライブラリが多く含まれているのでIT初心者かつ機械学習初学者の方でも十分に学習しやすいと思われます。余談ではありますが、筆者はPython未経験だったので、機械学習についての勉強と並行して学習をしていました!
それではまずは、環境構築から行っていきましょう!(今回は環境構築する上で、須藤秋良著・『スッキリわかる機械学習入門』を参考にしています)
<Anacondaインストール手順>
最初にお使いのPCのOSがWindowsかMacかご確認ください。今回はWindowsを使用した方法で環境構築をしていきます。(MacOSを使用の方はこちらをご確認ください)
それでは、まず初めにAnacondaというオープンソースのディストリビューションをインストールしていきます。
Anacondaのサイトを開き、まずはSign upをしていただきます。
Sign upが完了し、Sign inするとサイトの上部にメニューバーが表示されます。
「GetStarted」をクリックし、スロールするとNavigatorと表示されますので、そこにある「install」ボタンをクリックしてください。
「install」ボタンをクリックすると、Anacondaのダウンロードボタンのある画面が表示されます。
こちらから「Doenload」ボタンをクリックし、ダウンロードを開始してください。
Anaconda:https://www.anaconda.com/
上記でダウンロードしたexeファイルをダブルクリックし、インストーラを起動します。
インストール開始画面が表示されるので、
「Next>」をクリックしてください。
「Next>」をクリックすると、ライセンス承諾画面が表示されます。問題がなければ、「I Agree」をクリックしてください。
インストールタイプの選択画面が表示されます。
推奨設定の「Just Me」を選択し、「Next >」をクリックします。
インストール先の選択画面が表示されます。
特に問題が無ければインストール先を変更せず
「Next >」ボタンをクリックします。
詳細オプションの設定画面が表示されます。特に変更点が無ければデフォルトのチェックのみで「Install」をクリックします。
インストールが開始されます。インストールが完了したら「Next >」ボタンをクリックします。
インストールが完了すると、DataSpell(後からAnacondaNavigatorでのダウンロードが可能です)の紹介画面が表示されます。本ブログでは扱わない為「Next >」をクリックしてインストールを完了します。
チュートリアルなどの資料ページを開くか確認できます。不要ならばチェックを外して「Finish」をクリックします。
インストールしたAnacondaを起動し、画面が表示されれば、インストールは完了です!
Anacondaのインストールお疲れ様でした!ここからAnacondaの使用方法について説明していきたいと思います。
<JupyterLab利用手順>
上記でインストールしたAnacondaの中にある「JupyterLab」というアプリケーションを使用して実践問題を行っていきます。
Windowsの場合はスタートメニュー、macOSの場合はアプリケーションから、Anaconda Navigatorを起動します。表示されたアプリケーションの中から、JupyterLabの「Launch」をクリックします。
下記の画面が表示された場合、「Python 3」を選択し「SELECT」をクリックします。
ブラウザが起動したら、表示された画面の「Notebook」の「Python3」を選択します。
ノートブック(ipynbファイル)が自動で生成されます。ファイル名が「Untitled.ipynb」になっているので適切なファイル名に変更します。ファイルを選択→右クリック→Renameを選択します。
<プログラムを実行してみよう!>
上記で準備したファイルの中にプログラムを書いて実行してみましょう!
Notebookには、セルと呼ばれる四角い枠があります。このセルにPythonのコードを書いていきます。ここでは「hello, python」と出力するコードを書いています。
コードを実行するには、セルを選択し(セルが青い枠線で囲まれます)、画面上部の実行ボタン(▶)をクリックします。セルの下に実行結果が表示され、新しいセルが追加されます。
以上で環境構築はすべて終了になります!お疲れ様でした!次回以降、実践問題にはこの手順でアプリケーションを開き、プログラムを実行していきます。
【さいごに】
前回の復習含め、環境構築はいかがでしたか?筆者もまだ新卒で入社し、7ヵ月ほどですが環境構築は難しくまだ時間がかかってしまいます。しかし、一度環境構築を行うと、二度目に環境構築を行う際にはかなりスムーズに手順書が読めるようになってくると思います!
ぜひ環境構築をたくさん経験して、共にさまざまなアプリケーションに触れていきましょう!
機械学習も座学だけではなく、実際にプログラムを書きながら学んでいくとより理解が深まると思います。そしていよいよ、次回から機械学習手法の一つである「決定木モデル」について詳しく触れていきます。一緒に手を動かしながら機械学習について学んでいきましょう!
最後までご覧いただきありがとうございました。