1. Données et Variables
Types de variables (détaillé) :
- Variable nominale : Classe des objets sans ordre spécifique. Exemples : sexe (homme/femme), pays (France, Italie).
- Les chiffres associés aux catégories sont arbitraires (ex. : Homme = 1, Femme = 2).
- Variable ordinale : Les catégories ont un ordre, mais l'intervalle entre les valeurs n’est pas nécessairement égal. Exemples : niveau d'éducation (licence, master, doctorat).
- Variable métrique (ou quantitative) : Les valeurs sont numériques avec des intervalles significatifs.
- Intervalles : La différence entre les valeurs est constante, mais il n'y a pas de "zéro" absolu (ex. : température en Celsius, score d’un test).
- Ratios : Valeurs numériques avec un "zéro" absolu (ex. : âge, revenu). L'âge de 40 ans est deux fois celui de 20 ans, ce qui est logique pour une échelle de ratio.
2. Statistiques Descriptives Univariées
Les statistiques descriptives permettent de résumer une seule variable à travers des indicateurs clés.
Indicateurs de position :
- Moyenne : Somme des valeurs divisée par le nombre total d'observations. Elle représente la tendance centrale des données, mais peut être influencée par les valeurs extrêmes.
- Médiane : Valeur au centre d’un ensemble de données trié. Elle est moins sensible aux valeurs aberrantes que la moyenne.
- Si le nombre d’observations est impair, la médiane est la valeur au milieu ; si c’est pair, c’est la moyenne des deux valeurs centrales.
- Mode : La valeur qui apparaît le plus fréquemment dans le jeu de données.
- Quartiles et déciles :
- Quartiles : Divisent les données en quatre parties égales. Par exemple, le 1er quartile (Q1) correspond à 25 % des données, le 3e quartile (Q3) à 75 %.
- Déciles : Divisent les données en dix parties égales. Le 1er décile est à 10 %, le 9e à 90 %.
Indicateurs de dispersion :
- Étendue : Différence entre la plus grande et la plus petite valeur d'un ensemble de données. Elle donne une idée rapide de l’amplitude de variation, mais ne tient pas compte de la distribution globale des données.
- Écart-type : Mesure la dispersion des données par rapport à la moyenne. Plus l’écart-type est grand, plus les données sont dispersées.
Formule :
où xˉ\bar est la moyenne, xi est chaque observation, et n est le nombre total d’observations.
- Variance : C'est l’écart-type au carré. Elle mesure également la dispersion mais en termes de carrés des écarts.
Représentations graphiques :
- Histogrammes : Utilisés pour représenter la distribution d’une variable quantitative en divisant les données en intervalles de classes.
- Diagrammes à barres et circulaires : Utilisés pour représenter des variables qualitatives ou discrètes.
3. Statistiques Bivariées
Les analyses bivariées étudient la relation entre deux variables. Différents tests sont utilisés en fonction du type de variable.
Tableau de contingence :
- Un tableau de contingence permet de croiser deux variables qualitatives. Il est souvent associé au test du chi² pour déterminer si une association existe entre ces variables.
- Formule du chi² :
où Oi est la valeur observée et Ei est la valeur attendue.
Tests t de Student :
- Utilisé pour comparer les moyennes de deux groupes indépendants (ex. : hommes/femmes). Le test vérifie si la différence entre les moyennes est significative statistiquement.
- Hypothèses :
- H0H_0H0 : les moyennes des deux groupes sont égales.
- H1H_1H1 : les moyennes sont différentes.
- Formule :
où xˉ1\bar et xˉ2\bar sont les moyennes des deux groupes, s1s_1s1 et s2s_2s2 sont leurs écarts-types, et n1n_1n1, n2n_2n2 sont leurs tailles d'échantillon.
ANOVA (Analyse de la Variance) :
- L'ANOVA est utilisée pour comparer les moyennes de trois groupes ou plus. Elle teste si les différences entre les groupes sont dues au hasard ou à un effet réel.
- Hypothèses :
- H0 : toutes les moyennes sont égales.
- H1 : au moins une des moyennes est différente.
- F-Statistique :
4. Corrélations
La corrélation de Pearson est utilisée pour mesurer l'intensité de la relation linéaire entre deux variables quantitatives.
- Formule :
où r est le coefficient de corrélation, xi et yi sont les valeurs observées des deux variables, et xˉ\bar{x}xˉ, yˉ\bar{y}yˉ sont leurs moyennes.
Interprétation :
- r=1r = 1r=1 : relation positive parfaite.
- r=−1r = -1r=−1 : relation négative parfaite.
- r=0r = 0r=0 : aucune relation.
5. Régression linéaire
La régression linéaire modélise la relation entre une variable dépendante et une ou plusieurs variables indépendantes. Elle permet de prédire les valeurs de la variable dépendante en fonction des valeurs des variables explicatives.
- Régression simple (une variable explicative) :
- Modèle : Y=α+βX+ϵY = \alpha + \beta X + \epsilonY=α+βX+ϵ où YYY est la variable dépendante, XXX la variable indépendante, α\alphaα est l'ordonnée à l’origine (valeur de YYY quand X=0X = 0X=0), β\betaβ est la pente (variation de YYY pour une variation d'une unité de XXX), et ϵ\epsilonϵ est l’erreur.
- Régression multiple (plusieurs variables explicatives) :
- Modèle : Y=α+β1X1+β2X2+⋯+βkXk+ϵY = \alpha + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_k X_k + \epsilonY=α+β1X1+β2X2+⋯+βkXk+ϵ Chaque coefficient βi\beta_iβi représente l'effet de la variable explicative XiX_iXi sur YYY.
6. Réduction et fiabilité des données
- Analyse en Composantes Principales (ACP) :
- Elle réduit le nombre de variables tout en conservant la majorité de l’information. Les variables corrélées sont combinées pour former des composantes principales, qui sont indépendantes les unes des autres.
- Analyse Factorielle des Correspondances (AFC) :
- Utilisée pour l’analyse de tableaux de contingence (variables qualitatives), elle permet de visualiser les relations entre lignes et colonnes dans un espace factoriel.
7. Utilisation de SPSS
Saisie des données :
- Vue des données : Chaque ligne correspond à une observation et chaque colonne à une variable.
- Vue des variables : On définit le type de chaque variable (nominale, ordinale, métrique).
Analyses sous SPSS :
- SPSS propose une interface conviviale pour exécuter les analyses statistiques (statistiques descriptives, tests, régressions, corrélations).
Le logiciel génère des outputs sous forme de tableaux et graphiques facilitant l’interprétation des résultats.