Explorez et visualisez facilement les données avec Python et la bibliothèque Seaborn

L’exploration et la visualisation des données constituent une étape essentielle de l’analyse des données, car elles permettent de comprendre les modèles et les relations cachés au sein des données. En utilisant le langage de programmation Python et la bibliothèque Seaborn, vous pouvez créer des visualisations professionnelles rapidement et facilement. Dans cet article, nous vous expliquerons comment utiliser Seaborn pour explorer les données et créer des graphiques interactifs, avec des exemples pratiques pour vous aider à appliquer ces outils à vos propres projets.

python-seaborn-logo-chart Explorez et visualisez facilement les données à l'aide de Python et de la bibliothèque Seaborn

Sommaire

  • Seaborn est une bibliothèque facile à utiliser pour la visualisation de données en Python.
  • L'installation est simple à l'aide de PIP ou de Mamba, et l'importation de jeux de données est très facile.
  • Seaborn peut créer rapidement des histogrammes, des nuages ​​de points et des régressions linéaires pour l'analyse des données.

Vous avez peut-être entendu dire que Python est idéal pour l’analyse de données. Vous recherchez un moyen de visualiser des données facile à utiliser et de produire de beaux graphiques ? Seaborn pourrait être ce que vous recherchez.

Voir aussi
1 sur 2 833

Pourquoi choisir Seaborn?

J'ai choisi marin, une bibliothèque de visualisation de données en Python créée par Michael Waskom car elle semblait facile à utiliser.

Lisez aussi:  Comment réparer Avast Web Shield ne fonctionne pas

Je voulais explorer l’analyse des données et les statistiques en Python car c’est un langage populaire pour la science des données et l’analyse, et je le connaissais. J’ai suivi un cours de base en statistiques et probabilités à l’université, mais après plus de 20 ans, il y avait probablement certaines choses sur lesquelles j’hésitais.

Je n'ai jamais été doué pour les calculs manuels, mais il existe de nombreux logiciels open source de statistiques et de mathématiques qui me permettent d'explorer des concepts sans m'enliser dans des équations et des calculs.

Matplotlib est populaire pour créer des visualisations de données à l'aide de Python, mais il peut être difficile à apprendre. Seaborn peut générer de belles cartes et possède une syntaxe simple. Je suis également armé des grandes lignes de Schaum sur les statistiques.

Installer Seaborn
Si vous utilisez déjà Python, un bon moyen d'installer Seaborn est via PIP :

pip install seaborn

J'ai un environnement Mamba Il s'appelle « stats » et contient d'autres bibliothèques populaires telles que NumPy, SciPy et Pandas.

Je l'active en utilisant cette commande dans le shell

mamba activate stats

Je peux exécuter des commandes Python dans IPython ou Jupyter.

Rechercher et importer des ensembles de données

Pour démarrer Seaborn, importez-le à l’aide de la commande d’importation standard en Python.

import seaborn as sns

La convention est d’utiliser « sns » comme abréviation de « seaborn » en raison de sa brièveté dans l’écriture.

Vous pouvez importer des données à partir de feuilles de calcul comme Excel, mais les fichiers « valeurs séparées par des virgules » ou CSV sont également courants, en particulier pour les ensembles de données que vous trouverez en ligne. Vous pouvez lire ces fichiers en utilisant la bibliothèque Pandas. Pour télécharger un fichier CSV dans le répertoire actuel :

import pandas as pd
data = pd.read_csv("example.csv")

Seaborn dispose également de plusieurs ensembles de données déjà intégrés. Lorsque vous utilisez ces ensembles, utilisez la méthode get_dataset_names pour les afficher :

sns.get_dataset_names()

seaborn-dataset-names Explorez et visualisez facilement les données à l'aide de Python et de la bibliothèque Seaborn

Il y a quelques éléments intéressants qui méritent d'être examinés, mais nous utiliserons un ensemble de données de conseils de restaurants.

Lisez aussi:  Comment utiliser les taquets de tabulation dans Google Docs

Nous allons charger les données dans un cadre de données Pandas :


tips = sns.load_dataset("tips")

Les cadres de données sont organisés en colonnes de manière similaire aux feuilles de calcul. Nous obtiendrons un aperçu des données en utilisant la méthode head :

tips.head()

astuces-tête-jupyter Explorez et visualisez facilement les données à l'aide de Python et de la bibliothèque Seaborn

Dessiner des histogrammes avec Seaborn

Un histogramme est un graphique de base utile qui montre comment les valeurs d'un ensemble de données sont distribuées. Jetons un œil à l'histogramme montrant le montant total de ces factures de restaurant, la colonne « total_bill », en utilisant la méthode displot :


sns.displot(x="total_bill",data=tips)

astuces-histogramme Explorez et visualisez facilement les données à l'aide de Python et de la bibliothèque Seaborn

Vous pouvez voir que cela ressemble presque à une courbe de distribution normale en forme de cloche, bien que la queue soit inclinée vers la droite, avec le pic plus vers la gauche. Le champ « data= » est une fonction pratique lorsque vous travaillez avec des trames de données sans avoir à saisir « tips[« column »] » à chaque fois. Le nom du bloc de données est la source de données.

Créer des diagrammes de dispersion

Une chose utile à visualiser dans un ensemble de données est de voir si les colonnes sont liées les unes aux autres. Une bonne façon de procéder est de dessiner un nuage de points qui représente les valeurs d’une colonne par rapport à une autre. Traçons la facture totale par rapport au pourboire :

sns.relplot(x="total_bill",y="tip",data=tips)

Bill-vs-tips-scatter-plot Explorez et visualisez facilement les données à l'aide de Python et de la bibliothèque Seaborn

L'axe des x représente à nouveau la facture totale et l'axe des y le montant du pourboire.

Graphique de régression linéaire

Si vous avez regardé attentivement le nuage de points, vous avez peut-être remarqué que vous auriez pu tracer une ligne droite à travers les valeurs. Cela signifie qu’il semble y avoir une relation linéaire positive dans laquelle le montant du pourboire augmente à mesure que le montant total de la facture augmente.

Lisez aussi:  Comment combiner deux brouillons TikTok

Nous pouvons tracer une ligne de régression à travers ce nuage de points en utilisant la méthode regplot :


sns.regplot(x="total_bill",y="tip",data=tips)

Bill-vs-tips-linear-regression Explorez et visualisez facilement les données avec Python et la bibliothèque Seaborn

Vous verrez un graphique similaire à celui que nous avons dessiné plus tôt, mais avec une ligne, notre modèle d’une relation linéaire, dessinée dessus. C’est ce qu’on appelle la « régression des moindres carrés ordinaires ».

Il y a également une zone ombrée au-dessus et au-dessous de la ligne. Cela représente un intervalle de confiance, car la régression linéaire comporte toujours une certaine incertitude quant à la façon dont elle s'adapte aux points de données.

Vous pouvez cependant intégrer plus que de simples lignes droites et vous pouvez modéliser des courbes de cette façon, mais cela dépasse le cadre de cet article. Ce didacticiel ne fait qu'effleurer la surface de la façon de visualiser et d'explorer les données à l'aide de Python et de Seaborn.

L’utilisation de Python et de Seaborn pour explorer et visualiser les données ouvre de vastes portes vers une meilleure compréhension des ensembles de données complexes. En suivant les étapes et les exemples mentionnés, vous pouvez facilement créer des graphiques interactifs et professionnels. N’oubliez pas qu’une bonne visualisation des données n’est pas seulement un moyen d’afficher des informations, mais un outil puissant pour prendre des décisions éclairées. Continuez à expérimenter avec différents types de graphiques pour tirer le meilleur parti de vos données.

Vous pourriez l'aimer aussi