Partielo | Créer ta fiche de révision en ligne rapidement

Chapitre 1 : Statistique à une variable

Types de Variables

A retenir :

Tout d'abord, il faut connaître (pas par cœur, parce que ce qui va suivre est une "adaptation" à ma façon des définitions) un tas de définitions (non en vrai ça va, c'est assez facile mais nécessaire)


  • Variable statistique : Propriété qui varie d'un individu

Remarque : les variables sont souvent (pas tout le temps notées par des majuscules (X, Y, Z, A, E, bref tu as compris)


  • Individus : Élément dont on étudie les propriétés. On va plus précisément étudier la valeur que va prendre la variable statistique pour chaque individu !

Remarque : Les individus ne sont pas FORCEMENT des personnes


  • Population : Ensemble des individus que l'on va considérer


  • Échantillon : Sous-ensemble d'individus choisis au sein de la population


  • Proportion d'individus qui ont une certaine propriété : (long mais tkt, facile à comprendre) Nombre entre 0 et 1 (ou 0% et 100%) qui s'obtient ainsi :

Remarque : C'est ce que l'on appelle aussi la fréquence pour ceux qui voit l'idée !


  • Modalités : Différentes valeurs que peut prendre une variable

Exemple : 1, 2, 3, 4, etc... (si on parle de frère/sœur) mais cela peut aussi être autre chose que des numéros !


MAINTENANT, ENTRONS DANS LE VIF DES DEFINITIONS IMPORTANTES


  • Variable quantitative : Variable dont les modalités sont des nombres (éventuellement munis d'une unité) pour lesquels l'addition a un sens

Exemple : La taille est bien une variable quantitative mais pas les numéros de téléphone (genre ajouter mon numéro de tel et ton numéro de tel, ça servirait à rien)


Il en existe 2 types (de variables quantitatives) :

  • Variable quantitative discrète : Variable quantitative dont les modalités sont séparées par de nombreuses valeurs "interdites"

Exemple : Le nombre de frères et sœurs peut valoir 1, 2 ou 3, etc... mais JAMAIS 1,5 ou même 2,56352424234115 (c long, mais en gros tu peux pas couper ton frère ou ta sœur en cette valeur)

  • Variable quantitative continue : Variable quantitative dont les modalités ne sont séparées par AUCUNE valeurs "interdites" (elles forment un intervalle)

Exemple : La taille



  • Variable qualitative : Bahhhh du coup, c'est juste une variable qui n'est pas quantitative... (oui c'est la définition :/ )


Il en existe 2 types (de variables qualitatives) :

  • Variable qualitative ordinale : Variable qualitative dont les modalités sont ordonnées de manière claire et consensuelle

Exemple : L'humeur (Mauvaise / Bonne / Très bonne)

  • Variable qualitative nominale : Variable qui... n'est pas ordinale (oui encore une définition nulle...)

Exemple : Couleur des yeux



On a finit avec les définitions, maintenant on va passer à la deuxième partie du cours

Regroupement des données

Il existe trois différentes façons de regrouper les données :


  • Données brutes
  • Pour faire simple, c'est lorsque dans un tableau, vous organiser de manière à mettre chaque individu dans une colonne du tableau !

Exemple théorique :

Comme le montre l'exemple, c'est lorsque que chaque individu à sa colonne propre !



  • Regroupement par modalité
  • C'est lorsque dans un tableau, tu organises les données en fonction des valeurs de X, donc pour faire simple, si l'on se base sur le nombre de frère et sœur, c'est quand tu créé une colonne 0,1,2, etc... et tu comptes le nombre d'individus

Exemple :

J'ai pris comme exemple que les modalités de la variable X était 1,2,3, etc... mais ça peut aussi être des mots, n'oubliez pas



  • Regroupement en classe :
  • C'est lorsque dans un tableau, tu organises les données à l'aide d'intervalles, de forme [a;b[ !

Exemple :

Parfois, on nomme aussi les intervalles de cette manière : [ai ; ai+1[

Mais cela revient au même


Fréquences et Fréquences cumulées

Il y a la possibilité de savoir ce qu'est une fréquence à l'aide d'une définition et à l'aide d'une formule générale de pouvoir calculer cette fréquence

Définition

Fréquence d'une modalité
Proportion d'individus qui correspondent à cette modalité

Pour pouvoir calculer la fréquence, on utilise cette formule :

Remarque : Comme vous le voyez, que vous écriviez "Pr [X = ... ]" ou encore "fi" cela revient exactement à la même chose, avec certaines modifications qui vont suivre :

  • Si vous utiliser "Pr [X = ... ]", vous pouvez l'utiliser aussi pour calculer des fréquences de données brutes, et avoir une information de + sur la valeur de votre variable X ! (Donc beaucoup plus précis)
  • Si vous utiliser "fi" vous devez changer le "i" par le numéro de colonne de votre tableau (cela marche uniquement sur le regroupement par modalité et le regroupement en classe)


Maintenant, on peut passer aux fréquences cumulées

Définition

Fréquence cumulée d'une modalité
Somme des fréquences de toutes les modalités

Etant donné que c'est une somme de fréquence, il suffit simplement d'ajouter chaque fréquence calculé ensemble, cela se présente plus facilement à l'aide d'un tableau

Remarque : Comme vous le voyez, le tableau est avec des données regroupées par modalité, mais cela est identique si on regroupe en classe !

De plus, pour calculer la fréquence cumulée dans la deuxième colonne, on a juste ajouter ensemble la fréquence de la première colonne et celle de la deuxième... il n'y a rien de plus sorcier !

Aussi, la dernière fréquence cumulée vaudra (normalement) toujours 1 (ou 100%) ! Voir 0,999 (ou 99,9%) ou 1,001 (ou 100,1%)

Enfin, il est aussi possible d'écrire un calcul de fréquence cumulée de cette manière :

  • ℙr[X <= ...] (le <= signifie "inférieur ou égal à")
  • ℙr[...<= X<= ...]

Représentations graphiques

On peut utiliser toutes sortes de représentations graphiques afin d'organiser nos données, permettent une meilleure lecture et avoir un peu plus "d'aides visuelles"


Représentation des fréquences

En effet, il est possible de représenter nos différentes fréquences que l'on a calculés à l'aide de 3 différentes représentations graphiques :


  • Le diagramme circulaire (ou encore "camemberts")

Exemple : Humeur des gens

Voici comment on organise ce diagramme circulaire :

  • Quartiers de surfaces proportionnelles aux fréquences (en gros, vous devriez bien voir que si vous avez 50% des individus qui correspondent à une modalité, alors vous aurez la moitié du diagramme dans la couleur de cette modalité... logique)
  • Typiquement, on utilise ce diagramme pour des variables qualitatives

PS : Désolé pour l'image très dégueulasse du diagramme...



  • Le diagramme "en bâtons" (ou en "tuyaux d'orgue")

Exemple : Nombre de frères/sœurs

Voici son organisation :

  • Fréquences : hauteurs des bâtons
  • Modalités : Position horizontale des bâtons
  • Typiquement utilisé pour des variables quantitatives discrètes



  • L'histogramme

Exemple : Taille

Voici son organisation :

  • Pour des données regroupées en classes
  • Typiquement utilisé pour des variables quantitatives continues
  • Classes : position horizontale des rectangles
  • Fréquences : Surface des rectangles




Représentations des fréquences cumulées

Pour représenter les fréquences cumulées, on doit déjà connaître ce qu'on appelle une "fonction de répartition" de X, qui s'écrit de la manière suivante :

Fx (...) (ce qui peut être écrit aussi ainsi "ℙr[X <=..."

Remarque :

Si c'est une variable continue, on considère que :

ℙr[X<= ...] environ égale à ℙr[X < ...]



Après, il est aussi possible de faire un polygone des fréquences cumulées !

Un polygone des fréquences cumulées est une représentation graphique (approchée) de la fonction de répartition

Exemple :

  • Sur l'abscisse (position horizontale) : Les bords ai des classes
  • Sur l'ordonnée (position verticale) : Fx(ai)


En gros, à partir de ce polygone, il est possible de lire graphiquement certaines informations, comme lire des fréquences, par exemple si on veut la proportion de gens qui font 1m65 au minimum, il suffit de lire le pourcentage des gens à 1,65 sur l'abscisse, et lire le pourcentage d'individus après cette valeur (donc la, dans l'exemple, on a 10% sur la valeur 1,65, donc on sait que 90% (le reste) des individus font au moins 1,65m)


Calculs d'indicateurs

Tout d'abord, on va parler de la médiane, mais étant donné qu'à partir de maintenant, il y a une longue partie de calcul/écriture mathématique, ce qui va suivre vont être des captures d'écrans... je suis désolé ! Vous pouvez me prendre pour un flemmard :/


Cependant, dans le cas de données regroupées en classes, il est possible soit de lire graphiquement à l'aide du polygone des fréquences cumulées (comme ci-dessus) et lire la valeur à 50% de notre fréquence !

Exemple :


Ou alors, si vous n'avez pas de graphique, il faut utiliser la formule du formulaire suivante :



Après cela, on va voir les quartiles (dans notre cours, on ne calcule que les quartiles des données regroupées en classes !), qui sont quasiment identique à la médiane (étant donné que la médiane est un quartile)


  • Q1 (Premier quartile) c'est lorsque la fonction de répartition atteint 25% (ou 0,250)
  • Q2 (Deuxième quartile) c'est tout simplement la médiane !
  • Q3 (Troisième quartile) c'est lorsque la fonction de répartition atteint 75% (ou encore 0,750)


Il est cependant possible d'utiliser la formule du formulaire en remplaçant le 0,5 de la formule de la médiane par 0,25 ou 0,75 ET il est aussi important de changer la classe que l'on va utiliser, car on va chercher la classe ou la fréquence cumulée est supérieur à 0,250 (pour Q1) et supérieur à 0,750 (pour Q3)



Après cela, on va calculer la moyenne !

Remarque :

Tout est présent dans le formulaire !

Pour ce qui est de la formule avec les données regroupées en classes, le "c" représente le centre de classe, qui se calcule de cette manière, en utilisant un exemple :

/!\ Résultat assez peu précis avec les centres de classes (mais on peut pas faire mieux :/ )



Enfin, on finit avec les calculs d'écart-type :

Afin de calculer un écart-type, voici les étapes :

  • Calcul de la moyenne de X (m(X))
  • Calcul de la moyenne de (m(X²))
  • Calcul de la variance de X (Var(X))
  • Formule : Var(X)=m(X²)-(m(X))²
  • Calcul de l'écart-type de X (s(X))
  • Formule : s(X)=sqrt(Var(X))


Remarque :

"sqrt" veut dire "square root" en anglais, ou encore "racine carré" en français, vous l'aurez donc compris, il s'agit de calculer la racine carré de la variance de X



Chapitre 1 : Statistique à une variable

Types de Variables

A retenir :

Tout d'abord, il faut connaître (pas par cœur, parce que ce qui va suivre est une "adaptation" à ma façon des définitions) un tas de définitions (non en vrai ça va, c'est assez facile mais nécessaire)


  • Variable statistique : Propriété qui varie d'un individu

Remarque : les variables sont souvent (pas tout le temps notées par des majuscules (X, Y, Z, A, E, bref tu as compris)


  • Individus : Élément dont on étudie les propriétés. On va plus précisément étudier la valeur que va prendre la variable statistique pour chaque individu !

Remarque : Les individus ne sont pas FORCEMENT des personnes


  • Population : Ensemble des individus que l'on va considérer


  • Échantillon : Sous-ensemble d'individus choisis au sein de la population


  • Proportion d'individus qui ont une certaine propriété : (long mais tkt, facile à comprendre) Nombre entre 0 et 1 (ou 0% et 100%) qui s'obtient ainsi :

Remarque : C'est ce que l'on appelle aussi la fréquence pour ceux qui voit l'idée !


  • Modalités : Différentes valeurs que peut prendre une variable

Exemple : 1, 2, 3, 4, etc... (si on parle de frère/sœur) mais cela peut aussi être autre chose que des numéros !


MAINTENANT, ENTRONS DANS LE VIF DES DEFINITIONS IMPORTANTES


  • Variable quantitative : Variable dont les modalités sont des nombres (éventuellement munis d'une unité) pour lesquels l'addition a un sens

Exemple : La taille est bien une variable quantitative mais pas les numéros de téléphone (genre ajouter mon numéro de tel et ton numéro de tel, ça servirait à rien)


Il en existe 2 types (de variables quantitatives) :

  • Variable quantitative discrète : Variable quantitative dont les modalités sont séparées par de nombreuses valeurs "interdites"

Exemple : Le nombre de frères et sœurs peut valoir 1, 2 ou 3, etc... mais JAMAIS 1,5 ou même 2,56352424234115 (c long, mais en gros tu peux pas couper ton frère ou ta sœur en cette valeur)

  • Variable quantitative continue : Variable quantitative dont les modalités ne sont séparées par AUCUNE valeurs "interdites" (elles forment un intervalle)

Exemple : La taille



  • Variable qualitative : Bahhhh du coup, c'est juste une variable qui n'est pas quantitative... (oui c'est la définition :/ )


Il en existe 2 types (de variables qualitatives) :

  • Variable qualitative ordinale : Variable qualitative dont les modalités sont ordonnées de manière claire et consensuelle

Exemple : L'humeur (Mauvaise / Bonne / Très bonne)

  • Variable qualitative nominale : Variable qui... n'est pas ordinale (oui encore une définition nulle...)

Exemple : Couleur des yeux



On a finit avec les définitions, maintenant on va passer à la deuxième partie du cours

Regroupement des données

Il existe trois différentes façons de regrouper les données :


  • Données brutes
  • Pour faire simple, c'est lorsque dans un tableau, vous organiser de manière à mettre chaque individu dans une colonne du tableau !

Exemple théorique :

Comme le montre l'exemple, c'est lorsque que chaque individu à sa colonne propre !



  • Regroupement par modalité
  • C'est lorsque dans un tableau, tu organises les données en fonction des valeurs de X, donc pour faire simple, si l'on se base sur le nombre de frère et sœur, c'est quand tu créé une colonne 0,1,2, etc... et tu comptes le nombre d'individus

Exemple :

J'ai pris comme exemple que les modalités de la variable X était 1,2,3, etc... mais ça peut aussi être des mots, n'oubliez pas



  • Regroupement en classe :
  • C'est lorsque dans un tableau, tu organises les données à l'aide d'intervalles, de forme [a;b[ !

Exemple :

Parfois, on nomme aussi les intervalles de cette manière : [ai ; ai+1[

Mais cela revient au même


Fréquences et Fréquences cumulées

Il y a la possibilité de savoir ce qu'est une fréquence à l'aide d'une définition et à l'aide d'une formule générale de pouvoir calculer cette fréquence

Définition

Fréquence d'une modalité
Proportion d'individus qui correspondent à cette modalité

Pour pouvoir calculer la fréquence, on utilise cette formule :

Remarque : Comme vous le voyez, que vous écriviez "Pr [X = ... ]" ou encore "fi" cela revient exactement à la même chose, avec certaines modifications qui vont suivre :

  • Si vous utiliser "Pr [X = ... ]", vous pouvez l'utiliser aussi pour calculer des fréquences de données brutes, et avoir une information de + sur la valeur de votre variable X ! (Donc beaucoup plus précis)
  • Si vous utiliser "fi" vous devez changer le "i" par le numéro de colonne de votre tableau (cela marche uniquement sur le regroupement par modalité et le regroupement en classe)


Maintenant, on peut passer aux fréquences cumulées

Définition

Fréquence cumulée d'une modalité
Somme des fréquences de toutes les modalités

Etant donné que c'est une somme de fréquence, il suffit simplement d'ajouter chaque fréquence calculé ensemble, cela se présente plus facilement à l'aide d'un tableau

Remarque : Comme vous le voyez, le tableau est avec des données regroupées par modalité, mais cela est identique si on regroupe en classe !

De plus, pour calculer la fréquence cumulée dans la deuxième colonne, on a juste ajouter ensemble la fréquence de la première colonne et celle de la deuxième... il n'y a rien de plus sorcier !

Aussi, la dernière fréquence cumulée vaudra (normalement) toujours 1 (ou 100%) ! Voir 0,999 (ou 99,9%) ou 1,001 (ou 100,1%)

Enfin, il est aussi possible d'écrire un calcul de fréquence cumulée de cette manière :

  • ℙr[X <= ...] (le <= signifie "inférieur ou égal à")
  • ℙr[...<= X<= ...]

Représentations graphiques

On peut utiliser toutes sortes de représentations graphiques afin d'organiser nos données, permettent une meilleure lecture et avoir un peu plus "d'aides visuelles"


Représentation des fréquences

En effet, il est possible de représenter nos différentes fréquences que l'on a calculés à l'aide de 3 différentes représentations graphiques :


  • Le diagramme circulaire (ou encore "camemberts")

Exemple : Humeur des gens

Voici comment on organise ce diagramme circulaire :

  • Quartiers de surfaces proportionnelles aux fréquences (en gros, vous devriez bien voir que si vous avez 50% des individus qui correspondent à une modalité, alors vous aurez la moitié du diagramme dans la couleur de cette modalité... logique)
  • Typiquement, on utilise ce diagramme pour des variables qualitatives

PS : Désolé pour l'image très dégueulasse du diagramme...



  • Le diagramme "en bâtons" (ou en "tuyaux d'orgue")

Exemple : Nombre de frères/sœurs

Voici son organisation :

  • Fréquences : hauteurs des bâtons
  • Modalités : Position horizontale des bâtons
  • Typiquement utilisé pour des variables quantitatives discrètes



  • L'histogramme

Exemple : Taille

Voici son organisation :

  • Pour des données regroupées en classes
  • Typiquement utilisé pour des variables quantitatives continues
  • Classes : position horizontale des rectangles
  • Fréquences : Surface des rectangles




Représentations des fréquences cumulées

Pour représenter les fréquences cumulées, on doit déjà connaître ce qu'on appelle une "fonction de répartition" de X, qui s'écrit de la manière suivante :

Fx (...) (ce qui peut être écrit aussi ainsi "ℙr[X <=..."

Remarque :

Si c'est une variable continue, on considère que :

ℙr[X<= ...] environ égale à ℙr[X < ...]



Après, il est aussi possible de faire un polygone des fréquences cumulées !

Un polygone des fréquences cumulées est une représentation graphique (approchée) de la fonction de répartition

Exemple :

  • Sur l'abscisse (position horizontale) : Les bords ai des classes
  • Sur l'ordonnée (position verticale) : Fx(ai)


En gros, à partir de ce polygone, il est possible de lire graphiquement certaines informations, comme lire des fréquences, par exemple si on veut la proportion de gens qui font 1m65 au minimum, il suffit de lire le pourcentage des gens à 1,65 sur l'abscisse, et lire le pourcentage d'individus après cette valeur (donc la, dans l'exemple, on a 10% sur la valeur 1,65, donc on sait que 90% (le reste) des individus font au moins 1,65m)


Calculs d'indicateurs

Tout d'abord, on va parler de la médiane, mais étant donné qu'à partir de maintenant, il y a une longue partie de calcul/écriture mathématique, ce qui va suivre vont être des captures d'écrans... je suis désolé ! Vous pouvez me prendre pour un flemmard :/


Cependant, dans le cas de données regroupées en classes, il est possible soit de lire graphiquement à l'aide du polygone des fréquences cumulées (comme ci-dessus) et lire la valeur à 50% de notre fréquence !

Exemple :


Ou alors, si vous n'avez pas de graphique, il faut utiliser la formule du formulaire suivante :



Après cela, on va voir les quartiles (dans notre cours, on ne calcule que les quartiles des données regroupées en classes !), qui sont quasiment identique à la médiane (étant donné que la médiane est un quartile)


  • Q1 (Premier quartile) c'est lorsque la fonction de répartition atteint 25% (ou 0,250)
  • Q2 (Deuxième quartile) c'est tout simplement la médiane !
  • Q3 (Troisième quartile) c'est lorsque la fonction de répartition atteint 75% (ou encore 0,750)


Il est cependant possible d'utiliser la formule du formulaire en remplaçant le 0,5 de la formule de la médiane par 0,25 ou 0,75 ET il est aussi important de changer la classe que l'on va utiliser, car on va chercher la classe ou la fréquence cumulée est supérieur à 0,250 (pour Q1) et supérieur à 0,750 (pour Q3)



Après cela, on va calculer la moyenne !

Remarque :

Tout est présent dans le formulaire !

Pour ce qui est de la formule avec les données regroupées en classes, le "c" représente le centre de classe, qui se calcule de cette manière, en utilisant un exemple :

/!\ Résultat assez peu précis avec les centres de classes (mais on peut pas faire mieux :/ )



Enfin, on finit avec les calculs d'écart-type :

Afin de calculer un écart-type, voici les étapes :

  • Calcul de la moyenne de X (m(X))
  • Calcul de la moyenne de (m(X²))
  • Calcul de la variance de X (Var(X))
  • Formule : Var(X)=m(X²)-(m(X))²
  • Calcul de l'écart-type de X (s(X))
  • Formule : s(X)=sqrt(Var(X))


Remarque :

"sqrt" veut dire "square root" en anglais, ou encore "racine carré" en français, vous l'aurez donc compris, il s'agit de calculer la racine carré de la variance de X


Retour

Actions

Actions