Partielo | Créer ta fiche de révision en ligne rapidement
Post-Bac
1

Introductions aux statistiques

statistiques

Introduction générale aux statistiques

L'objectif des statistiques:

  • décrire des données
  • évaluer des hypothèses
  • généraliser les résultats de l'échantillon à l'ensemble de la population


On les utilise dans le cadre d'une recherche ou dans une démarche évaluative thérapeutique.

Pour pouvoir analyser correctement des données et comprendre un article scientifique.

Les étapes d'une étude statistique

  1. Le recueil de données : enquêtes, sondages, recensements...
  2. Le dépouillement des données : faire un tableau et extraire des classes ou des catégories
  3. Le traitement des données : extraction d'un max d'informations.
  4. partie descriptive: organisation générale
  5. partie inférentielle: lois, théories, généralisations modélisatoires
  6. L'interprétation des résultats 

La démarche du recueil d'analyse des données

Le chercheur veut recueillir des données pour établir des conclusions générales voire universelles.

On recueille les données sur :

  • une population statistique: population cible
  • échantillon
  • unité ou individus de l'échantillon

sample = échantillon

Population
ensemble des unités, individus, sur les quels porte l'étude
Echantillon
partie de la population d'intérêt

Taille et biais d'échantillonnage

La taille de l'échantillon doit correspondre au nombre d'observation.

Il faut que toutes les variables soit représentées dans l'échantillon.


2 techniques d'échantillonnage:

  1. échantillonnage probabiliste
  2. échantillonnage non probabiliste


Le recueil des données

On recueil des données sur des variables, des attributs, des caractères.

Chacune de ces caractéristiques est appelé Variable.

Elle peut prendre différentes éventualités qu'on appellera modalités.


Ce recueil doit être exhaustif : tous les éléments "mesurés" doit se retrouver au moins dans une modalité possible de la variable à laquelle on s'intéresse. Et exclusif : tout objet mesuré doit se retrouver au plus dans une modalité de la variable.

Comment on recueille les info ?

A partir d'observations.

On créer un tableau (type tableur) avec toutes les informations recueillies

Les variables

Variable
On appelle variable une caractéristique commune à l'ensemble des individus d'une étude. La valeur de cette caractéristique varie entre les individus. C'est pour cela que nous parlons de variables.

Dans un tableur, il est important de coder (mots --> chiffres) les modalités des variables étudiées.

La nature des variables

La variable quantitative ou chiffrée: taille, poids, score, nombre d'enfants...

La variable ordinale (chiffrée ou nominale): notion d'ordre, de classement, de hiérarchie : degré d'accord (pas d'accord/plutôt d'accord/ très d'accord)...

La variable qualitative ou nominale : dichotomique ou plurielle : le genre (H/F: dichotomique), la couleur de cheveux (plurielle)

Variable indépendante
C'est la condition à modifier dans une expérience. C'est la variable contrôlée. Sa valeur ne dépend de l'état d'aucune autre variable et n'est pas affecté par aucune autre = LA CAUSE
Variable dépendante
c'est la condition que l'on mesure dans une expérience. On évalue comment elle réagit à une modification de la VI = L'EFFET

A retenir :

LA VI VARIE ET A UN EFFET SUR LA VD

Distribution des données

Effectifs conjoints et marginaux:

  • tableau d'effectif conjoints:
  • deux variables sont croisées entre elles pour avoir un aperçu de la manière dont les variables s'organisent entre elles
  • tableau d'effectif marginaux :
  • effectif conjoint + les totaux pour chaque variable

Les graphiques

Les graphiques se font en fonction des variables en jeu et des hypothèses.

Ce sont ou des histogrammes ou des camemberts

Vers les statistiques descriptives

Les effectifs en statistiques

Effectif total
Nombre de valeurs dans une série statistique
Effectif d'une valeur donnée
nombre de fois ou la valeur apparaît pour cette série

On présente les effectifs de la modalité de façon hiérarchique (ordre décroisant).

Les fréquences

fi= fréquence de la modalité, ni = effectif de la modalité, N = effectif total

Les effectifs et fréquences cumulés

effectif cumulé
noté ni de la modalité i est la somme des effectifs des modalités qui lui sont < ou =
fréquence cumulée
noté fi de la modalité i est la somme des fréquences des modalités qui lui sont < ou =

Histogrammes et distribution normale des données

distribution normale
moyenne = médiane = mode

Mode, Médiane, Quartiles, Moyenne...

Le mode
Mode
C'est la valeur la plus fréquente dans une série statistique = celle dont l'effectif est le plus grand
La médiane
Médiane
On appelle médiane d'une série statistique une valeur, notée Med, telle que le nombre de valeurs de la série inférieures à Med soit égal au nombre de valeurs supérieures à Med

Pour calculer la médiane :

  • on range les valeurs de la série dans l’ordre croissant
  • si pair: moyenne des deux valeurs centrales
  • si impair: valeur centrale
Les quartiles et les déciles

Méthode de calcul similaire à la médiane

C'est 25% de chaque ensemble de donnée

La moyenne
moyenne
La moyenne d'une variable X est la somme des valeurs prises par X divisée par la taille de l'échantillon (N)

Pour vérifier que la moyenne est juste on peut calculer la somme des écarts algébriques.

écart algébrique = valeur - la moyenne

si cette somme est = à 0 alors la moyenne est correcte

L'étendue
étendue
L'étendue est la différence entre la valeur maximum observée (plus grande donnée xmax) et la valeur minimum observée (plus petite donnée xmin)

Remarque: plus l’étendue est « petite », plus les choix de réponses de mon échantillon a été « similaire ». Si l'échantillon est plus élevé il semble que les réponses aient été plus disparates.

La dispersion des données et la variance

Pour traduire la dispersion des données il faut calculer la somme des écart quadratiques.


écart quadratique = (écart algébrique)2 = (donnée - moyenne)2


Pour obtenir la variance on calcule la moyenne des écarts quadratiques.

variance
la variance est la moyenne des carrés des écarts entre les observations et leur moyenne, pour une variable quantitative.

Objectif de la variance : La variance est un indice qui mesure le niveau de dispersion d’une série de nombres par rapport à la moyenne.

variance > 0

De la variance à l'écart-type
écart-type
c'est la racine carrée de la variance. C'est l'indice de tendance centrale le plus couramment utilisé

L'écart-type dépend de la moyenne. Il est également influencé par les valeurs extrême.

C'est une mesure de dispersion pour appréhender la distribution normale des données.

Il sert à comparer des groupes ayant une moyenne similaire.

Les statistiques inférentielles

Les statistiques inférentielles mettent en évidence des différences ou des liens entre les variables.

(contrairement aux statistiques descriptives qui sont purement de l'observation)


Les statistiques inférentielles reposent sur des tests qui dépendent d'hypothèses:

  • hypothèses opérationnelle
  • hypothèse statistiques


En statistiques il y a 2 possibilités:

  1. H0: absence de lien ou absence de différences
  2. H1: mise en évidences de liens entre les variables ou de différence entre les groupes

Pour tester une hypothèse on va utiliser un procédé d'inférence visant à contrôler la validité d'hypothèses relatives à une ou plusieurs populations.

On étudie un ou plusieurs échantillons aléatoires.

L'inférence statistique permet de déterminer:

  • si les diff constatées au niveau des échantillons peuvent être dues au hasard
  • si les diff constatées sont suffisamment importantes pour signifier que les échantillons proviennent de populations différentes.


Comment savoir si on retient H0 ou H1 ?

On observe la valeur de p (correspond en gros à l'écart des moyenne de deux populations qu'on cherche à comparer)

Si p est supérieur au seuil (marge d'erreur) on retient HO : pas de différence significative.

Si p est inférieur au seuil on accepte H1 : les populations sont différentes sur la variable étudiée.

Post-Bac
1

Introductions aux statistiques

statistiques

Introduction générale aux statistiques

L'objectif des statistiques:

  • décrire des données
  • évaluer des hypothèses
  • généraliser les résultats de l'échantillon à l'ensemble de la population


On les utilise dans le cadre d'une recherche ou dans une démarche évaluative thérapeutique.

Pour pouvoir analyser correctement des données et comprendre un article scientifique.

Les étapes d'une étude statistique

  1. Le recueil de données : enquêtes, sondages, recensements...
  2. Le dépouillement des données : faire un tableau et extraire des classes ou des catégories
  3. Le traitement des données : extraction d'un max d'informations.
  4. partie descriptive: organisation générale
  5. partie inférentielle: lois, théories, généralisations modélisatoires
  6. L'interprétation des résultats 

La démarche du recueil d'analyse des données

Le chercheur veut recueillir des données pour établir des conclusions générales voire universelles.

On recueille les données sur :

  • une population statistique: population cible
  • échantillon
  • unité ou individus de l'échantillon

sample = échantillon

Population
ensemble des unités, individus, sur les quels porte l'étude
Echantillon
partie de la population d'intérêt

Taille et biais d'échantillonnage

La taille de l'échantillon doit correspondre au nombre d'observation.

Il faut que toutes les variables soit représentées dans l'échantillon.


2 techniques d'échantillonnage:

  1. échantillonnage probabiliste
  2. échantillonnage non probabiliste


Le recueil des données

On recueil des données sur des variables, des attributs, des caractères.

Chacune de ces caractéristiques est appelé Variable.

Elle peut prendre différentes éventualités qu'on appellera modalités.


Ce recueil doit être exhaustif : tous les éléments "mesurés" doit se retrouver au moins dans une modalité possible de la variable à laquelle on s'intéresse. Et exclusif : tout objet mesuré doit se retrouver au plus dans une modalité de la variable.

Comment on recueille les info ?

A partir d'observations.

On créer un tableau (type tableur) avec toutes les informations recueillies

Les variables

Variable
On appelle variable une caractéristique commune à l'ensemble des individus d'une étude. La valeur de cette caractéristique varie entre les individus. C'est pour cela que nous parlons de variables.

Dans un tableur, il est important de coder (mots --> chiffres) les modalités des variables étudiées.

La nature des variables

La variable quantitative ou chiffrée: taille, poids, score, nombre d'enfants...

La variable ordinale (chiffrée ou nominale): notion d'ordre, de classement, de hiérarchie : degré d'accord (pas d'accord/plutôt d'accord/ très d'accord)...

La variable qualitative ou nominale : dichotomique ou plurielle : le genre (H/F: dichotomique), la couleur de cheveux (plurielle)

Variable indépendante
C'est la condition à modifier dans une expérience. C'est la variable contrôlée. Sa valeur ne dépend de l'état d'aucune autre variable et n'est pas affecté par aucune autre = LA CAUSE
Variable dépendante
c'est la condition que l'on mesure dans une expérience. On évalue comment elle réagit à une modification de la VI = L'EFFET

A retenir :

LA VI VARIE ET A UN EFFET SUR LA VD

Distribution des données

Effectifs conjoints et marginaux:

  • tableau d'effectif conjoints:
  • deux variables sont croisées entre elles pour avoir un aperçu de la manière dont les variables s'organisent entre elles
  • tableau d'effectif marginaux :
  • effectif conjoint + les totaux pour chaque variable

Les graphiques

Les graphiques se font en fonction des variables en jeu et des hypothèses.

Ce sont ou des histogrammes ou des camemberts

Vers les statistiques descriptives

Les effectifs en statistiques

Effectif total
Nombre de valeurs dans une série statistique
Effectif d'une valeur donnée
nombre de fois ou la valeur apparaît pour cette série

On présente les effectifs de la modalité de façon hiérarchique (ordre décroisant).

Les fréquences

fi= fréquence de la modalité, ni = effectif de la modalité, N = effectif total

Les effectifs et fréquences cumulés

effectif cumulé
noté ni de la modalité i est la somme des effectifs des modalités qui lui sont < ou =
fréquence cumulée
noté fi de la modalité i est la somme des fréquences des modalités qui lui sont < ou =

Histogrammes et distribution normale des données

distribution normale
moyenne = médiane = mode

Mode, Médiane, Quartiles, Moyenne...

Le mode
Mode
C'est la valeur la plus fréquente dans une série statistique = celle dont l'effectif est le plus grand
La médiane
Médiane
On appelle médiane d'une série statistique une valeur, notée Med, telle que le nombre de valeurs de la série inférieures à Med soit égal au nombre de valeurs supérieures à Med

Pour calculer la médiane :

  • on range les valeurs de la série dans l’ordre croissant
  • si pair: moyenne des deux valeurs centrales
  • si impair: valeur centrale
Les quartiles et les déciles

Méthode de calcul similaire à la médiane

C'est 25% de chaque ensemble de donnée

La moyenne
moyenne
La moyenne d'une variable X est la somme des valeurs prises par X divisée par la taille de l'échantillon (N)

Pour vérifier que la moyenne est juste on peut calculer la somme des écarts algébriques.

écart algébrique = valeur - la moyenne

si cette somme est = à 0 alors la moyenne est correcte

L'étendue
étendue
L'étendue est la différence entre la valeur maximum observée (plus grande donnée xmax) et la valeur minimum observée (plus petite donnée xmin)

Remarque: plus l’étendue est « petite », plus les choix de réponses de mon échantillon a été « similaire ». Si l'échantillon est plus élevé il semble que les réponses aient été plus disparates.

La dispersion des données et la variance

Pour traduire la dispersion des données il faut calculer la somme des écart quadratiques.


écart quadratique = (écart algébrique)2 = (donnée - moyenne)2


Pour obtenir la variance on calcule la moyenne des écarts quadratiques.

variance
la variance est la moyenne des carrés des écarts entre les observations et leur moyenne, pour une variable quantitative.

Objectif de la variance : La variance est un indice qui mesure le niveau de dispersion d’une série de nombres par rapport à la moyenne.

variance > 0

De la variance à l'écart-type
écart-type
c'est la racine carrée de la variance. C'est l'indice de tendance centrale le plus couramment utilisé

L'écart-type dépend de la moyenne. Il est également influencé par les valeurs extrême.

C'est une mesure de dispersion pour appréhender la distribution normale des données.

Il sert à comparer des groupes ayant une moyenne similaire.

Les statistiques inférentielles

Les statistiques inférentielles mettent en évidence des différences ou des liens entre les variables.

(contrairement aux statistiques descriptives qui sont purement de l'observation)


Les statistiques inférentielles reposent sur des tests qui dépendent d'hypothèses:

  • hypothèses opérationnelle
  • hypothèse statistiques


En statistiques il y a 2 possibilités:

  1. H0: absence de lien ou absence de différences
  2. H1: mise en évidences de liens entre les variables ou de différence entre les groupes

Pour tester une hypothèse on va utiliser un procédé d'inférence visant à contrôler la validité d'hypothèses relatives à une ou plusieurs populations.

On étudie un ou plusieurs échantillons aléatoires.

L'inférence statistique permet de déterminer:

  • si les diff constatées au niveau des échantillons peuvent être dues au hasard
  • si les diff constatées sont suffisamment importantes pour signifier que les échantillons proviennent de populations différentes.


Comment savoir si on retient H0 ou H1 ?

On observe la valeur de p (correspond en gros à l'écart des moyenne de deux populations qu'on cherche à comparer)

Si p est supérieur au seuil (marge d'erreur) on retient HO : pas de différence significative.

Si p est inférieur au seuil on accepte H1 : les populations sont différentes sur la variable étudiée.

Retour

Actions

Actions