<img style = "float: left" src="https://mirrors.creativecommons.org/presskit/buttons/88x31/png/by-nc-nd.png" width="120"> &copy; 2024 Roger Villemaire, [villemaire.roger@uqam.ca](mailto:villemaire.roger@uqam.ca)  
[Creative Commons Paternité - Pas d'Utilisation Commerciale - Pas de Modification 3.0 non transcrit](http://creativecommons.org/licenses/by-nc-nd/3.0/)

# Dictionnaires et Pandas

Nous allons en profiter cette semaine pour mettre en application nos nouvelles connaissances sur les dictionnaires ainsi qu'au sujet de la bibliothèque ``pandas``.

Pour commencer il faut importer cette bibliothèque et lui associer le nom *pd*.

In [None]:
import pandas as pd

Comme mentionné la semaine dernière, la fonction *from_dict* permet de créer un *DataFrame* à partir d'un dictionnaire.

La syntaxe est un peu particulière. Dans l'instruction suivante *DataFrame* est le nom de la classe (type) et *from_dict* est une *méthode de classe* permettant la construction d'une *instance*. Nous reviendrons sur ces notions, pour le moment il s'agit simplement de retenir cette formulation particulière.

In [None]:
df = pd.DataFrame.from_dict({'Q1':{0:"oui",1:"non"},'Q2':{0:5,1:30}})

In [None]:
df

Dans l'instruction précédente on construit le *DataFrame* à partir d'un dictionnaire *littéral*, c.-à-d. donné explicitement. Il reste qu'en pratique il est beaucoup plus fréquent d'obtenir l'information d'autres structures de données Python, comme par exemple des listes.

Si, par exemple, le contenu des colonnes est donné par une liste de listes *colonnes*, où chaque élément représente une colonne, sous forme d'une liste d'éléments, et si les entêtes des colonnes sont représentées par une liste de chaînes *titres_colonnes*, comment peut-on en construire un *DataFrame* ?

Les contenus ci-dessous pour *colonnes* et *titres_colonnes* sont à titre illustratif. On veut une méthode générale qui s'appliquera avec toutes les listes similaires, dans la mesure où elles sont de mêmes longueurs.

In [None]:
colonnes = [[0,1,1,0,1,1,1,0,0,0],
            [0.8,1.5,28.0,10.5,1.0,51.5,15.0,0.50,0.00,0.0],
            [0,10,21,30,15,22,75,12,56,21],
            ["oui","non","non","oui","non","non","non","non","oui","oui"]]
titres_colonnes = ["Q1", "Q2", "Q3","Q4"]

## Stratégie par décomposition

Nous allons utiliser une stratégie générale en informatique qui consiste à décomposer le problème en tâches plus simples qui pourront chacune être réalisées par une fonction. On pourra alors combiner nos fonctions pour effectuer la tâche au complet.

Si on observe la partie intérieure du dictionnaire ci-dessus, on voit qu'il faut tout d'abord construire, à partir d'une colonne représentée par une liste 'l' d'éléments, le dictionnaire dont les clés sont les entiers 0,1,2,... et les valeurs les éléments de 'l'. C'est ce que nous allons réaliser en premier.

In [None]:
def dict_liste(l):
    """retourne un dictionnaire dont les clés sont 0,1,2,... et les valeurs les éléments de la liste 'l'"""


**Décomposition :** Il faut donc déterminer 
  * comment on va construire, et retourner un dictionnaire :
     * mais on pourrait y aller avec un algorithme d'accumulation ! Complétez donc la première et dernière étape dans le code ci-dessus,
  * comment on construit les positions 0,1,2,... à partir de la liste :
     * pensez aux notions que l'on a vues commme *len*, *range*, ...  et expérimentez sur quelques exemples concrets,
  * comment insérer une nouvelle association clé/valeur dans un dictionnaire :
     * *indice* : il s'agit de la même syntaxe que pour les listes !
  * comment on va parcourir ces positions :
     * pensez aux structures de boucles et complétez la fonction ci-dessus !

Il est bien sûr important de tester notre fonction pour vérifier qu'on obtient le résultat escompté.

Si on continue à analyser notre problème, de l'intérieur vers l'extérieur, on voit qu'il est nécessaire de construire le dictionnaire précédent pour chacune des colonnes de la liste *colonnes*.

Une méthode générale, sur laquelle nous reviendrons, est de produire, à partir de la listes des colonnes, la liste des dictionnaires.

In [None]:
def dict_listes(ll):
    """retourne la liste des dict_liste(l) pour 'l' les éléments de la liste 'll'"""


Appliquez une stratégie de décomposition pour compléter la fonction précédente !

Il ne faut pas oublier de tester cette fonction, en particulier dans les cas limites.

Comme dernière étape, il faut maintenant produire un dictionnaire dont les clés sont les intitulés des colonnes, et les valeurs les dictionnaires produits par les colonnes.

En fait, il s'agit de produire un dictionnaire à partir d'une liste de clés et d'une liste de valeurs. C'est d'ailleurs une opération générale qui pourra nous servir de nouveau.

In [1]:
def dict_cles_valeurs(cles,valeurs):
    """retourne un dictionnaire dont les clés sont les éléments de la liste 'clés' et les valeurs celles de la 
    liste 'valeurs'. Ces deux listes doivent être de la même longueur."""


Appliquez de nouveau une stratégie de décomposition pour réaliser la fonction précédente !

Comme toujours, il faut tester cette fonction !

On peut maintenant s'en servir pour obtenir le dictionnaire nécessaire à la construction du *DataFrame*.

In [None]:
 dict_colonnes_lignes = dict_cles_valeurs(titres_colonnes,dict_listes(colonnes))

Finalement on peut construire notre *DataFrame* !

In [None]:
df = pd.DataFrame.from_dict(dict_colonnes_lignes)

In [None]:
df

Considérons maintenant une autre question.

Supposons qu'on se rende compte qu'il serait préférable de travailler avec le *DataFrame* transposé, où les lignes et les colonnes sont interverties. Comment peut-on réaliser ça sans devoir tout reprendre à zéro ?

Indice : chercher dans la *docstring* de la fonction *from_dict* pour compléter l'appel ci-dessous et obtenir un *DataFrame* dont les lignes correspondent aux questions et les colonnes aux réponses.

In [None]:
pd.DataFrame.from_dict(dict_colonnes_lignes,

## Fonctions sur les *DataFrame*s

Nous allons maintenant explorer plus à fond les *DataFrame*s. 

Pour ce faire, on utilisera la valeur de la variable *df*. Il est donc bon de la faire afficher pour se rappeler la structure de ce *DataFrame*.

In [None]:
df

On peut tout d'abord accéder aux colonnes d'un *DataFrame* avec une syntaxe similaire à celle des dictionnaires.

Explorer cette possibilité avec les différentes colonnes.

In [None]:
df["Q4"]

Mais, il est important de noter que tant le *DataFrame* que le type de donnée représentant les colonnes, *Series*, est un type (classe) introduit dans *pandas*.

In [None]:
type(df["Q4"])

Identifiez et explorez maintenant les fonctions permettant d'obtenir la moyenne, la médiane (valeur du "milieu"), le mode (la valeur la plus fréquente), le nombre total de valeurs différentes et uniques pour la colonne précédente (une *Series*).

Pour bien comprendre les choses, il est sûrement préférable d'essayer avec plusieurs colonnes différentes.

In [None]:
df["Q4"].

Finalement, il est aussi bon de voir ce que la même fonction (méthode) donne sur le *DataFrame*, car *Series* et *DataFrame* sont fortement liés. L'un représente des données unidimentionnelle et l'autre bi-dimentionnelle.  
Par exemple, pour la fonction *mode* on obtient :

In [None]:
df.mode()

## *matplotlib* et les *Series*

Similairement aux *DataFrame*s, on peut faire tracer des graphiques pour les *Series*.

Il faut tout d'abord, de nouveau, configurer *JupyterLab* pour *matplotlib*.

In [None]:
#matplotlib inline

Par exemple, pour la *Series* formée par le deuxième colonne on obtient le graphique suivant.

In [None]:
df["Q4"].plot(kind="hist")

## Sélection des lignes

Pour terminer nous allons explorer quelques méthodes importantes pour la sélection des lignes.

Il pourrait être bon de faire afficher notre *DataFrame* pour se rappeler son contenu.

In [None]:
df

On peut obtenir un nouveau *DataFrame* ne contenant que les lignes pour lesquelles le contenu de la colonne *Q2* est inférieur ou égal à *6* avec l'instruction suivante.

In [None]:
df[df["Q2"] <= 6]

Cette syntaxe peut sembler surprenante et c'est d'ailleurs un choix des créateurs de *pandas*. Il reste qu'on peut faire afficher la partie intérieure pour tenter d'identifier le principe sous-jacent.

In [None]:
df["Q2"] <= 6

On voit alors qu'il s'agit d'un *masque* où le booléen *True* identifie les lignes à conserver.

Maintenant, quelle serait, selon vous, l'expression permettant de sélectionner les lignes pour lesquelles le contenu de la colonne *Q1* est égal à *0* ?

In [None]:
df

Ou l'expression permettant de sélectionner les lignes pour lesquelles la colonne *Q4* est différente de *"non"* ?

In [None]:
df

Ou encore permettant de sélectionner les lignes pour lesquelles la colonne *Q2* est supérieure ou égale à *1* ?

In [None]:
df

Finalement, on peut combiner plusieurs conditions avec *&* (et) ou | (ou).

In [None]:
df[(df["Q1"] == 1) | (df["Q4"] == "oui")]

Donnez donc l'expression permettant de sélectionner les lignes où le contenu de la colonne *Q2* est entre *1* et *6* (inclusivement). 

In [None]:
df

Finalement, on peut, de plus, sélectionner les colonnes qui seront conservées.

In [None]:
df.loc[df["Q2"] <= 6,["Q1","Q3"]]

Ou encore faire des sélections sur les indices des lignes.

In [None]:
df[df.index != 0 ]

In [None]:
df[2:4]

Bien évidemment il est nécessaire de consulter la documentation *Pandas* pour découvrir les nombreuses autres fonctions que ce module introduit.