L’écart-type est une technique statistique qui montre à quel point les valeurs d’une variable étudiée s’écartent en moyenne de la moyenne arithmétique. Il permet de déterminer si les éléments d’un échantillon ou d’une population sont similaires par rapport à la variable étudiée, ou s’ils diffèrent de manière significative. Si vous souhaitez apprendre ce qu’est l’écart-type ou comment le calculer dans R, continuez à lire.
Ce guide fournit une explication détaillée du calcul de l’écart-type dans R, en abordant différentes méthodes et exemples pratiques pour aider les utilisateurs à analyser efficacement leurs données.
L’écart-type mesure la variation moyenne des valeurs individuelles d’une variable statistique par rapport à la moyenne arithmétique. C’est un indicateur intuitif de la variabilité d’une distribution. Si l’on additionnait simplement les écarts à la moyenne, la somme serait toujours égale à zéro — un résultat peu utile.
La formule mathématique de l’écart-type est la suivante :
=∑(xi−μ)2N
Où :
Σ représente la somme,
xix_ixi chaque observation,
μ\muμ la moyenne,
NNN le nombre total d’observations.
L’écart-type est souvent abrégé SD (Standard Deviation). Plus il est petit, plus les valeurs sont proches de la moyenne, indiquant ainsi une plus grande cohérence des données. Pour juger si un SD est « petit » ou « grand », il faut connaître l’échelle de mesure utilisée.
L’écart-type est particulièrement utile pour comparer la variabilité entre deux ensembles de données de taille et de moyenne similaires. Se contenter de la moyenne ne permet souvent pas une analyse approfondie.
Par exemple : Que signifie le salaire moyen dans une entreprise si l’on ignore la dispersion des salaires ? Tous les employés gagnent-ils le même montant ? Ou bien un dirigeant fausse-t-il la moyenne vers le haut ? Pour comprendre la réalité, il faut calculer l’écart-type.
De même, l’écart-type est utilisé pour évaluer le risque d’un investissement. Supposons qu’une action rapporte en moyenne 4 % par an et une autre 5 %. Cela ne signifie pas automatiquement que la seconde est meilleure.
Si la première action varie légèrement (de quelques pourcents) et la seconde de plusieurs dizaines de pourcents, la première est bien moins risquée. Ainsi, pour comparer différents rendements et leurs risques, on utilise l’écart-type.
Avant toute analyse, il faut disposer de données. Dans R, vous pouvez saisir les données manuellement à l’aide d’un vecteur ou les importer depuis une source externe (Excel, CSV, etc.).
data <- c(4, 8, 6, 5, 3, 7)
Vous pouvez aussi importer des jeux de données à l’aide de la fonction read.csv() :
# Read a CSV file into a data frame
data <-read.csv("datafile.csv")
# Install the 'readxl' package
install.packages("readxl")
# Load the library
library(readxl)
# Read an Excel file into a data frame
data_excel <- read_excel("datafile.xlsx", sheet = 1)
La manière la plus simple de calculer l’écart-type d’un échantillon est d’utiliser la fonction intégrée sd() de R.
sd(data)
Résultat:
[1] 1.870829
Si votre échantillon contient des valeurs manquantes, il suffit d’ajouter le paramètre na.rm = TRUE :
standard_deviation <- sd(data, na.rm = TRUE)
Pour calculer l’écart-type d’une population, procédez comme suit :
Calculez la moyenne.
Soustrayez cette moyenne de chaque valeur.
Élevez chaque écart au carré.
Faites la moyenne des écarts au carré (variance).
Prenez la racine carrée de cette variance.
Exemple :
mean_data <- mean(data)
squared_differences <- (data - mean_data)^2
mean_squared_diff <- mean(squared_differences)
standard_deviation_manual <- sqrt(mean_squared_diff)
print(standard_deviation_manual)
Supposons que vous analysiez les notes des élèves par matière. La variable catégorielle est « Matière », et vous souhaitez calculer la moyenne et l’écart-type pour chacune.
Le package dplyr permet de le faire facilement :
install.packages("dplyr")
En suivant notre exemple précédent, prenons un ensemble de données qui contient les notes des étudiants dans différentes matières :
library(dplyr)
# Example data frame with class and grades
data <- data.frame(
Subject = c('Math', 'Math', 'Math', 'History', 'History', 'History'),
grade = c(85, 90, 78, 88, 92, 85)
)
# Calculate standard deviation for each class
grouped_sd <- data %>%
group_by(Subject) %>%
summarise(Standard_Deviation = sd(grade))
print(grouped_sd)
Résultat:
# A tibble: 2 × 2
Subject Standard_Deviation
<chr> <dbl>
1 History 3.511885
2 Math 6.027714
Pour calculer l’écart-type colonne par colonne, plusieurs méthodes sont possibles :
data_frame <- data.frame(A = c(1, 2, 3), B = c(4, 5, 6))
apply(data_frame, 2, sd)
Ou avec dplyr :
library(dplyr)
data_frame %>%
summarise(across(everything(), sd))
Dans certaines situations, une moyenne pondérée est nécessaire. Par exemple, si une équipe sportive a 5 joueurs et une autre 50, il serait injuste de leur donner le même poids dans le calcul global.
La formule de l’écart-type pondéré est la suivante :
Dw=∑wi(xi−μw)2∑wi
Où:
μw=∑wixi∑wi
R ne dispose pas d’une fonction intégrée pour cela, mais on peut le calculer manuellement :
# Example data with grades and weights
grades <- c(85, 90, 78, 88, 92, 85)
weights <- c(0.2, 0.3, 0.1, 0.15, 0.1, 0.15)
# Calculate the weighted mean
weighted_mean <- sum(grades * weights) / sum(weights)
# Calculate the squared differences from the weighted mean
squared_differences <- (grades - weighted_mean)^2
# Calculate the weighted variance
weighted_variance <- sum(weights * squared_differences) / sum(weights)
# Calculate the weighted standard deviation
weighted_sd <- sqrt(weighted_variance)
print(weighted_sd)
Résultat:
[1] 3.853245
L’écart-type est facile à calculer, malgré la formule qui semble complexe à première vue. C’est un outil fondamental en statistique, et grâce à R, il est encore plus simple à utiliser. Si vous souhaitez débuter en analyse de données ou en data science, vous devez apprendre à maîtriser cet indicateur — il vous permettra de mieux comprendre la variabilité et la cohérence de vos données.