All Projects → wikistat → Intro Python

wikistat / Intro Python

Licence: mit
Python pour Statistique et Science des Données -- Syntaxe, Trafic de Données, Graphes, Programmation, Apprentissage

Programming Languages

python
139335 projects - #7 most used programming language

Projects that are alternatives of or similar to Intro Python

Spring2017 proffosterprovost
Introduction to Data Science
Stars: ✭ 18 (-14.29%)
Mutual labels:  jupyter-notebook, data-science
Har Keras Coreml
Human Activity Recognition (HAR) with Keras and CoreML
Stars: ✭ 23 (+9.52%)
Mutual labels:  jupyter-notebook, data-science
Mds
Modern Data Science
Stars: ✭ 19 (-9.52%)
Mutual labels:  jupyter-notebook, data-science
Coursera
Quiz & Assignment of Coursera
Stars: ✭ 774 (+3585.71%)
Mutual labels:  jupyter-notebook, data-science
Awesome Google Colab
Google Colaboratory Notebooks and Repositories (by @firmai)
Stars: ✭ 863 (+4009.52%)
Mutual labels:  jupyter-notebook, data-science
Python Machine Learning Book 2nd Edition
The "Python Machine Learning (2nd edition)" book code repository and info resource
Stars: ✭ 6,422 (+30480.95%)
Mutual labels:  jupyter-notebook, data-science
4th Place Home Credit Default Risk
Codes and dashboards for 4th place solution for Kaggle's Home Credit Default Risk competition
Stars: ✭ 23 (+9.52%)
Mutual labels:  jupyter-notebook, data-science
Statistical Rethinking With Python And Pymc3
Python/PyMC3 port of the examples in " Statistical Rethinking A Bayesian Course with Examples in R and Stan" by Richard McElreath
Stars: ✭ 713 (+3295.24%)
Mutual labels:  jupyter-notebook, data-science
Resources
PyMC3 educational resources
Stars: ✭ 930 (+4328.57%)
Mutual labels:  jupyter-notebook, data-science
Kubeflow Data Science On Steroids
The blog post about Kubeflow, including all materials
Stars: ✭ 25 (+19.05%)
Mutual labels:  jupyter-notebook, data-science
Machine learning refined
Notes, examples, and Python demos for the textbook "Machine Learning Refined" (published by Cambridge University Press).
Stars: ✭ 750 (+3471.43%)
Mutual labels:  jupyter-notebook, data-science
Pandas Profiling
Create HTML profiling reports from pandas DataFrame objects
Stars: ✭ 8,329 (+39561.9%)
Mutual labels:  jupyter-notebook, data-science
Hitchhikers Guide
The Hitchhiker's Guide to Data Science for Social Good
Stars: ✭ 732 (+3385.71%)
Mutual labels:  jupyter-notebook, data-science
Skdata
Python tools for data analysis
Stars: ✭ 16 (-23.81%)
Mutual labels:  jupyter-notebook, data-science
Industry Machine Learning
A curated list of applied machine learning and data science notebooks and libraries across different industries (by @firmai)
Stars: ✭ 6,077 (+28838.1%)
Mutual labels:  jupyter-notebook, data-science
Lambdaschooldatascience
Completed assignments and coding challenges from the Lambda School Data Science program.
Stars: ✭ 22 (+4.76%)
Mutual labels:  jupyter-notebook, data-science
H1st
The AI Application Platform We All Need. Human AND Machine Intelligence. Based on experience building AI solutions at Panasonic: robotics predictive maintenance, cold-chain energy optimization, Gigafactory battery mfg, avionics, automotive cybersecurity, and more.
Stars: ✭ 697 (+3219.05%)
Mutual labels:  jupyter-notebook, data-science
Cookbook 2nd
IPython Cookbook, Second Edition, by Cyrille Rossant, Packt Publishing 2018
Stars: ✭ 704 (+3252.38%)
Mutual labels:  jupyter-notebook, data-science
Python Introducing Pandas
Introduction to pandas Treehouse course
Stars: ✭ 24 (+14.29%)
Mutual labels:  jupyter-notebook, data-science
Data Science On Gcp
Source code accompanying book: Data Science on the Google Cloud Platform, Valliappa Lakshmanan, O'Reilly 2017
Stars: ✭ 864 (+4014.29%)
Mutual labels:  jupyter-notebook, data-science

INSA | Mathématiques Appliquées, Science des Données

Python pour Statistique et Science des Données

L'objectif de ces tutoriels, proposés sous forme de calepins (jupyter notebooks), est d'introduire les principaux concepts et fonctionnalités du langage Python en insistant sur ceux indispensable au statisticien, maintenant data scientist. Syntaxe, objets et classes, fonctions graphiques, techniques de préparation (munging ou wrangling) des données, éventuellement massives (big data), puis leur analyse (big data analytics) en enchaînant phases d'exploration et de modélisation ou apprentissage (machine / statistique). Des exemples plus détaillés sur des données spécifiques (en R et en python) sont proposés sur wikistat.fr ainsi que dans les autres dépôts de ce site. Les méthodes sont exposées dans les vignettes de wikistat.

Les documents sont des calepins (notebooks) au format .ipynb à télécharger et ouvrir dans Jupyter. Il suffit pour cela de cloner le dépôt dans son propre environnement GitHub ou de télécharger l'archive zippée.

Tutoriels d'initiation à Python

Pourquoi Python

Le langage Python est développé et diffusé par la Python Software Foundation selon une licence GPL-compatible. À partir d'applications initialement de calcul scientifique (image, signal...), son utilisation s'est généralisée dans de nombreux domaines et notamment pour l'analyse statistique de données pouvant être volumineuses. Il est donc "libre", efficace en calcul numérique (librairie NumPy), orienté objet, propose de la programmation fonctionnelle... et bénéficie d'une communauté très active qui développe de nombreuses applications et librairies.

L'objectif de ce tutoriel est d'introduire le langage Python3 et quelques librairies pour préparer puis commencer à analyser des données. Lorsque celles-ci sont trop volumineuses pour la taille du disque et distribuées sur les n\oe uds d'un cluster sous Hadoop c'est encore le langage Python (API PySpark) qui permet de passer à l'échelle en utilisant la technologie Spark et éventuellement la librairie MLlib.

De façon plus précise, Python et la librairie pandas offrent des outils efficaces, comme le découpage automatique en morceaux (chunks) adaptés à la taille de la mémoire vive ou encore l'accès à des données au format binaire HDF5 (librairie Pytable), pour lire (format .csv ou fixe), gérer, pré-traiter, trafiquer (en jargon : data munging ou wrangling), visualiser des données volumineuses. Néanmoins, la parallélisation des traitements pour des très volumineuses ou en flux donc distribuées sera sans doute plus efficace avec la technologie adaptée Spark.

La version 3.6. de Python est celle actuellement la "plus récente". Le passage à la version 3 introduisit une rupture de compatibilité par rapport à la version 2 qui est toujours en développement (2.7). Il peut rester nécessaire de pouvoir exécuter les deux versions selon les librairies utilisées et applications recherchées. La version 2.7 inclut des ajouts permettant des éléments de "rétro"-compatibilité avec la version 3. Pour l'usage rudimentaire de ces tutoriels, il semble que les deux versions soient compatibles; c'est la version 3.6 qui est utilisée.

Note that the project description data, including the texts, logos, images, and/or trademarks, for each open source project belongs to its rightful owner. If you wish to add or remove any projects, please contact us at [email protected].