DataScience Notebook
データサイエンスに関する内容をPythonをベースにまとめていきます。 もし間違いやTypoがあればIssue/PRお待ちしております。
Contents
今後も変更する予定がありますが、とりあえず現在追加を考えているものも含めています。
データ加工(Data Wrangling)・可視化
- JupyterNotebook / numpy / pandas / matplotlib 入門
- Pandasによるデータ加工(WIP)
- 異常値・外れ値・欠損値
- 次元削減(PCA, LDA)
特殊なデータの可視化
統計(Statistics)と機械学習(Machine Learning)
- 機械学習を勉強していく前に
- 回帰分析(WIP)
- 決定木
- クラスタリング(WIP)
- GMMについても書く
- パターン認識(SVM)
- パラメータ推定
- 分類器
- 時系列データ処理 (ACF, PACF, SARIMAモデル)
応用例
- 映像品質評価に関する調査
- 日本語文書の感情分析(Sentiment Analysis)
- 日本語文書の分類(bag-of-word)
- レコメンド
- 画像のパターン認識
SlideShow
notebookの「View」>「Cell Toolbar」>「SlideShow」からスライドショーにした時の表示方法を編集できます。 ここに追加しているnotebooksはスライドショーの表示にも対応しているため、下記のコマンドによってスライド形式で表示することが可能です。
$ ipython nbconvert --to slides notebooks/getting-started.ipynb --post serve
Setup
Setup with Docker (Recommended)
Dockerを使って簡単に環境を用意することができます。 jupyter notebookは公式でdocker imageを公開してくれていますが、 ここにあるNotebooksでは一部その中に含まれていないパッケージ等を使用しているため、このRepositoryのDockerfileを使用してください。
$ docker-compose build
$ docker-compose up -d
docker-composeがない方は直接dockerのコマンドを叩いてください。
$ docker build -t c-bata/datascience .
$ docker run -p 8888:8888 -v $PWD/notebooks:/home/jovyan/work c-bata/datascience
Requirements
下記の環境を用意してください。
- Python3.5
- GraphViz
- Jupyter Notebook
- Numpy / Scipy / Pandas
- seaborn / matplotlib
- Scikit-learn
$ pip install -c constraints.txt -r requirements.txt