- décrire des données
- évaluer des hypothèses
- généraliser les résultats de l'échantillon à l'ensemble de la population
On les utilise dans le cadre d'une recherche ou dans une démarche évaluative thérapeutique.
Pour pouvoir analyser correctement des données et comprendre un article scientifique.
Le chercheur veut recueillir des données pour établir des conclusions générales voire universelles.
On recueille les données sur :
- une population statistique: population cible
- échantillon
- unité ou individus de l'échantillon
sample = échantillon
La taille de l'échantillon doit correspondre au nombre d'observation.
Il faut que toutes les variables soit représentées dans l'échantillon.
2 techniques d'échantillonnage:
- échantillonnage probabiliste
- échantillonnage non probabiliste
On recueil des données sur des variables, des attributs, des caractères.
Chacune de ces caractéristiques est appelé Variable.
Elle peut prendre différentes éventualités qu'on appellera modalités.
Ce recueil doit être exhaustif : tous les éléments "mesurés" doit se retrouver au moins dans une modalité possible de la variable à laquelle on s'intéresse. Et exclusif : tout objet mesuré doit se retrouver au plus dans une modalité de la variable.
A partir d'observations.
On créer un tableau (type tableur) avec toutes les informations recueillies
Dans un tableur, il est important de coder (mots --> chiffres) les modalités des variables étudiées.
La variable quantitative ou chiffrée: taille, poids, score, nombre d'enfants...
La variable ordinale (chiffrée ou nominale): notion d'ordre, de classement, de hiérarchie : degré d'accord (pas d'accord/plutôt d'accord/ très d'accord)...
La variable qualitative ou nominale : dichotomique ou plurielle : le genre (H/F: dichotomique), la couleur de cheveux (plurielle)
Effectifs conjoints et marginaux:
- tableau d'effectif conjoints:
- deux variables sont croisées entre elles pour avoir un aperçu de la manière dont les variables s'organisent entre elles
- tableau d'effectif marginaux :
- effectif conjoint + les totaux pour chaque variable
Les graphiques se font en fonction des variables en jeu et des hypothèses.
Ce sont ou des histogrammes ou des camemberts
On présente les effectifs de la modalité de façon hiérarchique (ordre décroisant).
fi= fréquence de la modalité, ni = effectif de la modalité, N = effectif total
Pour calculer la médiane :
- on range les valeurs de la série dans l’ordre croissant
- si pair: moyenne des deux valeurs centrales
- si impair: valeur centrale
Méthode de calcul similaire à la médiane
C'est 25% de chaque ensemble de donnée
Pour vérifier que la moyenne est juste on peut calculer la somme des écarts algébriques.
écart algébrique = valeur - la moyenne
si cette somme est = à 0 alors la moyenne est correcte
Remarque: plus l’étendue est « petite », plus les choix de réponses de mon échantillon a été « similaire ». Si l'échantillon est plus élevé il semble que les réponses aient été plus disparates.
Pour traduire la dispersion des données il faut calculer la somme des écart quadratiques.
écart quadratique = (écart algébrique)2 = (donnée - moyenne)2
Pour obtenir la variance on calcule la moyenne des écarts quadratiques.
Objectif de la variance : La variance est un indice qui mesure le niveau de dispersion d’une série de nombres par rapport à la moyenne.
variance > 0
L'écart-type dépend de la moyenne. Il est également influencé par les valeurs extrême.
C'est une mesure de dispersion pour appréhender la distribution normale des données.
Il sert à comparer des groupes ayant une moyenne similaire.
Les statistiques inférentielles mettent en évidence des différences ou des liens entre les variables.
(contrairement aux statistiques descriptives qui sont purement de l'observation)
Les statistiques inférentielles reposent sur des tests qui dépendent d'hypothèses:
- hypothèses opérationnelle
- hypothèse statistiques
En statistiques il y a 2 possibilités:
- H0: absence de lien ou absence de différences
- H1: mise en évidences de liens entre les variables ou de différence entre les groupes
Pour tester une hypothèse on va utiliser un procédé d'inférence visant à contrôler la validité d'hypothèses relatives à une ou plusieurs populations.
On étudie un ou plusieurs échantillons aléatoires.
L'inférence statistique permet de déterminer:
- si les diff constatées au niveau des échantillons peuvent être dues au hasard
- si les diff constatées sont suffisamment importantes pour signifier que les échantillons proviennent de populations différentes.
Comment savoir si on retient H0 ou H1 ?
On observe la valeur de p (correspond en gros à l'écart des moyenne de deux populations qu'on cherche à comparer)
Si p est supérieur au seuil (marge d'erreur) on retient HO : pas de différence significative.
Si p est inférieur au seuil on accepte H1 : les populations sont différentes sur la variable étudiée.