Données
La plupart des exemples suivants analysent les données dans leEmployéensemble de données, inclus avecmoinsR. Pour lire un internemoinsRensemble de données, transmettez simplement le nom de l'ensemble de données aumoinsRfonctionLire()
. Lis leEmployédonnées dans le bloc de donnéesd. Voir leLire et écrire
vignette pour plus de détails.
d<- Lire("Employé")
## ## >>> Suggestions## Détails sur vos données, saisissez : détails() pour d, ou détails(nom)## ## Types de données## -------------- ----------------------------------------------## personnage: Valeurs de données non numériques## entier : valeurs de données numériques, entiers uniquement## double : valeurs de données numériques avec chiffres décimaux## ----------------------- -------------------------------------## ## Variable manquante Unique ## Nom Type Valeurs Valeurs Valeurs Première et dernière valeurs## --------------------------------------------------------- -----------------------------------------------## 1 Années entier 36 1 16 7 NA 7 ... 1 2 10## 2 Caractère de genre 37 0 2 M M W ... W W M## 3 Caractère du département 36 1 5 ADMN SALE FINC ... MKTG SALE FINC## 4 Salaire double 37 0 37 53788.26 94494.58 ... 56508.32 57562.36## 5 Caractère JobSat 35 2 3 med bas haut ... haut bas haut## 6 Plan entier 37 0 3 1 1 2 ... 2 2 1## 7 Pré entier 37 0 27 82 62 90 ... 83 59 80## 8 Post entier 37 0 22 92 74 86 ... 90 71 87## --------------------- -------------------------------------------------- -------------------
En option, lisez également le tableau des libellés des variables. Créez le tableau formaté en deux colonnes. La première colonne est le nom de la variable et la deuxième colonne est l'étiquette de la variable correspondante. Il n'est pas nécessaire de saisir toutes les variables dans le tableau. Le tableau peut être unCSV
fichier ou un fichier Excel.
Lisez le fichier d'étiquette dans lejetrame de données, actuellement le seul nom autorisé. Actuellement, lisez nécessairement le fichier d'étiquette dans lejetrame de données. Les étiquettes seront affichées à la fois sur la sortie de texte et de visualisation. Chaque étiquette affichée est le nom de la variable juxtaposé à l'étiquette correspondante, comme indiqué dans la sortie suivante.
je<- rd("Employé_lbl")
## ## >>> Suggestions## Détails sur vos données, saisissez : détails() pour d, ou détails(nom)## ## Types de données## -------------- ----------------------------------------------## personnage: Valeurs de données non numériques## ------------------------------------------- -----------------## ## Variable manquante unique ## Nom Type Valeurs Valeurs Valeurs Première et dernière valeurs## ------------- -------------------------------------------------- ---------------------------## 1 caractère d'étiquette 8 0 8 Durée de l'emploi dans l'entreprise ... Résultat du test sur les questions juridiques après instruction# # ------------------------------------------------- -----------------------------------------
je
## label## Années d'emploi dans l'entreprise## Sexe Homme ou Femme## Département Département Employé## Salaire Salaire annuel (USD)## JobSat Satisfaction à l'égard de l'environnement de travail## Plan 1=BonneSanté, 2=GetWell, 3=BestCare ## Score du pré-test sur les questions juridiques avant l'instruction## Score du post-test sur les questions juridiques après l'instruction
Graphique à barres d'une variable
L'une des visualisations les plus fréquemment rencontrées est le graphique à barres, créé pour les valeurs d'une variable catégorielle qui sont chacune associées à une valeur correspondante d'une variable numérique.
Diagramme à bandes: Tracez une barre pour chaque niveau d'une variable catégorielle avec sa hauteur mise à l'échelle en fonction de la valeur d'une variable numérique associée.
Un appel à une fonction de graphique à barres contient, au minimum, le nom de la variable catégorielle avec les catégories à tracer. Avec leDiagramme à bandes()
fonction, ce nom de variable est le premier argument passé à la fonction. Dans cet exemple, leseulementL'argument passé à la fonction est le nom de la variable tel que le nom du bloc de données.d, lemoinsRvaleur par défaut. Ou bien, spécifiez le bloc de données contenant la ou les variables qui vous intéressent avec ledonnées
paramètre.
Ce qui suit illustre l'appel àDiagramme à bandes()
avec une variable catégorielle nommée\(X\).
Si une seule variable catégorielle est transmise àDiagramme à bandes()
, la valeur numérique associée à chaque barre est le décompte correspondant du nombre d'occurrences, calculé automatiquement.
Graphique à barres par défaut
Considérez la variable catégorielle Dept dans la table de données Employee.UtilisezDiagramme à bandes()
pour tabuler et afficher la visualisation du nombre d'employés dans chaque service, en s'appuyant ici sur la trame de données (table) par défaut nomméed. Sinon, ajoutez ledonnées=
option pour un bloc de données avec un autre nom.
Diagramme à bandes(Département)
Graphique à barres du nombre d'employés dans chaque département.
## >>> Suggestions## BarChart(Dept, horiz=TRUE) # graphique à barres horizontales## BarChart(Dept, fill="reds") # barres rouges de luminosité variable## PieChart(Dept) # graphique en anneau (anneau) ## Plot(Dept) # bubble plot## Plot(Dept, stat="count") # lollipop plot ## ## --- Dept --- ## ## Valeurs manquantes : 1 ## ## ACCT ADMN FINC MKTG SALE Total ## Fréquences : 5 6 4 6 15 36 ## Proportions : 0,139 0,167 0,111 0,167 0,417 1,000 ## ## Test du chi carré de l'hypothèse nulle à probabilités égales ## Chisq = 10,944, df = 4, valeur p = 0,027
Le thème de couleur par défaut,"couleurs"
, remplit les barres du graphique à barres avec différentes teintes (selon la palette qualitative par défaut). Voir plus d'explications à ce sujet et sur les palettes de couleurs associées dans la vignettePersonnaliser.
Diagramme à bandes()
étiquette également chaque barre avec la valeur numérique associée. La fonction fournit la distribution de fréquence correspondante, le tableau qui répertorie le nombre de chaque catégorie, à partir duquel le graphique à barres est construit.
Nous n'avons pas besoin de voir cette sortie sur la console R répétée à nouveau pour différents graphiques à barres des mêmes données, alors désactivez-la pour l'instant avec le paramètrecalme
mis àVRAI
. Peut définir cette option pour chaque appel pourDiagramme à bandes()
, ou peut définir par défaut pour les analyses ultérieures avec lestyle()
fonction.
style(calme =VRAI)
Couleurs personnalisées
Spécifiez une seule couleur de remplissage avec leremplir
paramètre, la couleur du bord des barres aveccouleur
. Réglez le niveau de transparence avectransparence
. Sur un fond plus clair, affichez la valeur de chaque barre avec une couleur plus foncée à l'aide duvaleurs_couleur
paramètre. Pour spécifier une couleur, utilisez des noms de couleurs, spécifiez une couleur avec sonRVB()
ouhcl()
coordonnées de l'espace colorimétrique, ou utilisez lesmoinsRfonction de palette de couleurs personnaliséeobtenirCouleurs()
.
Diagramme à bandes(Département,remplir ="rouge foncé",couleur="noir",transparence=.8, valeurs_color="noir")
Utilisez lethème
paramètre pour changer tout le thème de couleur : "colors", "lightbronze", "dodgerblue", "slatered", "darkred", "gris", "gold", "darkgreen", "blue", "red", "rose" , « vert », « violet », « terre de Sienne », « marron », « orange », « blanc » et « clair ». Dans cet exemple, changer le thème complet revient à changer la couleur de remplissage. Désactivez la valeur affichée sur chaque barre avec le paramètrevaleurs
mis àdésactivé
. Spécifier un graphique à barres horizontal avec le paramètre de base Ren jaune
.
Diagramme à bandes(Département,thème ="gris",valeurs="désactivé",jaune =VRAI)
Ou, vous pouvez utiliserstyle()
pour changer également le thème des visualisations ultérieures. Voir lePersonnaliser
vignette.
Dept n'est pas une variable ordinale (c'est-à-dire avec des valeurs ordonnées définies par la base Rfacteur()
fonction). Les variables ordinales sont tracées par défaut avec une plage de la même teinte, du clair au foncé. Pour illustrer, vous pouvez choisir de nombreuses palettes séquentielles différentes parmiobtenirCouleurs()
: "rouges", "rouilles", "marrons", "olives", "verts", "émeraudes", "turquoises", "aquas", "bleus", "violets", "violets", "magentas", et « gris ».
Diagramme à bandes(Département,remplir ="rouges")
La famille des palettes viridis pour daltoniens est également disponible : « viridis », « cividis », « magma », « inferno », « plasma ». Le graphique à barres ci-dessous indique la palette viridis principale.
Diagramme à bandes(Département,remplir ="viridis")
Pour quelque chose de différent, de nombreux thèmes de films de Wes Anderson sont disponibles : "BottleRocket1", "BottleRocket2", "Rushmore1", "Rushmore", "Royal1", "Royal2", "Zissou1", "Darjeeling1", "Darjeeling2", "Chevalier1". , "FantasticFox1", "Moonrise1", "Moonrise2", "Moonrise3", "Cavalcanti1", "GrandBudapest1", "GrandBudapest2", "IsleofDogs1", "IsleofDogs2".
Diagramme à bandes(Département,remplir ="Grand Budapest1")
Faire pivoter les étiquettes
Faites pivoter et décalez les étiquettes des axes avecrotation_x
etcompenser
paramètres. Faites un tri décroissant des catégories par fréquences avec letrier
paramètre.
Diagramme à bandes(Département,rotation_x=45,décalage =1,trier="-")
Au lieu de définir arbitrairement la valeur de la couleur intérieure des barres avec leremplir
paramètre, mappez la valeur du nombre tabulé à la barreremplir
. Avec le mappage, la couleur des barres dépend de la hauteur de la barre. Plus la barre est haute, plus la couleur est foncée. Spécifier(compter)
comme couleur de remplissage pour mapper les valeurs de la variable numérique à la couleur de remplissage.
Diagramme à bandes(Département,remplir =(compter))
Spécifiez la variable numérique
Une possibilité commence par les valeurs du\(X\)et\(y\)variables, comme dans un tableau, puis créez le graphique à barres directement à partir de ce tableau récapitulatif. Pour ce faire, entrez les valeurs de données appariées dans un fichier de données tel qu'Excel, puis lisez dans R avecLire()
. En appelantDiagramme à bandes()
, précisez le catégorique\(X\)variable puis le numérique\(y\)variable.
Lorsque la variable numérique est spécifiée, les données sont un tableau récapitulatif (pivot), avec une ligne pour chaque niveau de la variable catégorielle tracée. Par exemple, supposons qu'un tableau récapitulatif contienne les départements et le salaire moyen de chaque département. Obtenez le tableau récapitulatif avec lemoinsR pivot()
fonction (qui a sa propre vignette). Pour le bloc de donnéesd, calculer la moyenne d'une variable numériqueSalaireà travers les niveaux de la variable catégorielle Dept.
un<- pivot(d, moyenne, Salaire, Département)un
## Dept Salary_n est moyen ## 1 Acct 5 0 61792.78 ## 2 Admn 6 0 81277.12 ## 3 Finc 4 0 69010.68 ## 4 Mktg 6 0 70257.13 ## 5 Sale 15 0 78830.07 ## 6 53772.58
La syntaxe générale suit pour le traitement de cette forme de suivi de données.
Le graphique à barres suit, avec les données agrégées stockées dans la trame de données nomméeun, donc identifiez-vous explicitement avec ledonnées
paramètre. Pour une seule variable analysée, la moyenne calculée desSalairevariable dans leuntrame de données de l'appel précédent àpivot()
est appelésignifierpar défaut.
Diagramme à bandes(Département, je veux dire,données=un)
Transformation statistique de\(y\)
Comme on le voit, par défaut en l'absence d'autres informations,Diagramme à bandes()
définit la variable numérique tracée comme le décompte de l'occurrence de chaque niveau. Peut définir d'autres transformations statistiques de la valeur numérique de\(y\)avec lestatistique
paramètre.Valeurs possibles destatistique
:"somme"
,"signifier"
,"Dakota du Sud"
,"développeur"
,"min"
,"médian"
, et"maximum"
. Le"développeur"
La valeur affiche les écarts moyens pour faciliter davantage une comparaison entre les niveaux.
Ici le\(X\)-la variable est Dept, et\(y\)-la variable estSalaire.Afficher les barres des valeurs dedéveloppeur
<= 0 dans une couleur différente des valeurs ci-dessus avec leremplissage_split
paramètre réglé à0
. Faites un tri ascendant avec letrier
paramètre réglé à"+"
.
Diagramme à bandes(Département, Salaire,statistique="développeur",trier="+",fill_split=0)
Comparez cette visualisation des écarts moyens avec la visualisation précédente des moyennes pour chaque département.
Annotation
Annoter un tracé avec leajouter
paramètre. Pour ajouter un rectangle, utilisez le"correct"
valeur deajouter
. Ici, placez le rectangle autour du message centré en <3,10>. Pour spécifier un rectangle, il faut deux coins du rectangle,
et
. Pour spécifier un texte, il suffit d'une seule coordonnée,
. Avec leajouter
paramètre, le message suit la spécification de"correct"
, donc les coordonnées du message texte suivent les coordonnées du rectangle.
Éclaircissez d’abord la couleur de remplissage de l’annotation avec leadd_fill
paramètre pour lestyle()
fonction.
style(add_fill="alicebleu")Diagramme à bandes(Département,ajouter=c("correct","Les employés de\nDépartement"), x1=c(1,75,3),y1=c(11,dix),x2=4.25,y2=9)
Diagramme circulaire
Une alternative au graphique à barres pour une seule variable catégorielle est le graphique circulaire.
Diagramme circulaire: Reliez chaque niveau d'une variable catégorielle à l'aire d'un cercle (tarte) mis à l'échelle en fonction de la valeur d'une variable numérique associée.
LemoinsRLa version par défaut d'un diagramme circulaire est le diagramme en anneau ou en anneau.
Diagramme circulaire(Département)
Le graphique en anneau ou en anneau semble plus facile à lire qu'un diagramme circulaire standard. Mais lemoinsRfonctionDiagramme circulaire()
peut également créer le diagramme circulaire « à l'ancienne » en définissant la valeur du paramètretrou
à0
. Nous avons vu les statistiques récapitulatives plusieurs fois maintenant, alors désactivez la sortie vers la console R ici avec lecalme
paramètre.
Diagramme circulaire(Département,trou=0,calme =VRAI)
Diagramme circulaire standard de la variable Département dans ledtrame de données.
Définissez la taille du trou dans le diagramme en anneau ou en anneau avec le paramètretrou
, qui précise la proportion de la pièce occupée par le trou. La taille du trou par défaut est de 0,65. Définissez cette valeur sur 0 pour fermer le trou.
Graphique à barres de deux variables
Graphiques à barres standard
Spécifiez la deuxième variable catégorielle avec lepar
paramètre. Spécifie lepar
paramètre par nom. La syntaxe générale suit.
L'exemple trace le département avec le pourcentage deGenredivisé dans chaque barre.
Diagramme à bandes(Département,par=Genre)
Spécifiez deux couleurs de remplissage personnalisées pourGenre.
Diagramme à bandes(Département,par=Genre,remplir =c("bleu ciel profond","noir"))
La version empilée est celle par défaut, mais les valeurs de la deuxième variable catégorielle peuvent également être représentées par des barres, plus utiles pour comparer les valeurs entre elles. Ici, mettez la légende en haut avec levaleurs_position
paramètre réglé sur"dehors"
.
Diagramme à bandes(Département,par=Genre,à côté =VRAI,valeurs_position="dehors")
Ou bien, affichez les barres horizontalement avec leen jaune
paramètre réglé surVRAI
.
Diagramme à bandes(Genre,par=Département,jaune =VRAI)
Parcelles en treillis
Peut également faire un graphique en treillis avec leserait-ce que 1
paramètre.
Diagramme à bandes(Département,par1=Genre)
Vous pouvez également empiler les graphiques verticalement en spécifiant une colonne avec len_col
paramètre.
Diagramme à bandes(Département,par1=Genre,n_col=1)
Graphique à barres empilées à 100 %
Obtenez la version 100% stackée avec lepile100
paramètre. Cette visualisation est particulièrement utile pour comparer les niveaux depar
variable selon les niveaux duX
variable,iciDépartement, lorsque les fréquences de chaque niveau duX
variable diffèrent. Les pourcentages entre les catégories sont comparés au lieu des décomptes. Le pourcentage pour chaque colonne totalise alors 100 %.
Diagramme à bandes(Département,par=Genre,pile100=VRAI)
Étiquettes de valeur longues
Longétiquettes de valeursur l'axe horizontal sont également abordés en passant à une nouvelle ligne chaque fois qu'un espace est rencontré dans l'étiquette. Lisez ici les réponses à l'échelle de machiavélisme Mach IV où chaque élément est noté de 0 à 5.
d<- rd("Mach4",calme =VRAI)
Lisez égalementétiquettes de variablesdans lejetrame de données, qui sont ensuite utilisées pour étiqueter automatiquement la sortie, à la fois la visualisation et la sortie de texte vers la console.
je<- rd("Mach4_lbl",calme =VRAI)
Convertissez les quatre éléments de Mach spécifiés en facteurs ordonnés avec lemoinsRfonctionfacteurs()
. Cette fonction implémente la fonction de base Rfacteur()
sur une plage de variables au lieu d'une seule variable (sans avoir besoin d'autres appels de fonction). Une réponse de 0 correspond à un Fortement en désaccord, etc.
LikertChats<- c("Fortement en désaccord","Être en désaccord","Légèrement en désaccord", "Plutôt d'accord","Accepter","Tout à fait d'accord")d<- facteurs(c(m06,m07,m09,m10),niveaux=0:5,étiquettes=LikertCats,commandé =VRAI)
Parce que les facteurs sont définis comme ordonnés avec lefacteurs()
fonction, les couleurs sont tracées dans une échelle séquentielle, du clair au foncé. Étant donné que la sortie vers la console a été désactivée en général, réactivez-la uniquement pour cette analyse en raison de nouvelles données.
Diagramme à bandes(m06,par=m07,calme =FAUX)
## >>> Suggestions## Plot(m06, m07) # bubble plot## BarChart(m06, by=m07, horiz=TRUE) # graphique à barres horizontales## BarChart(m06, fill="steelblue") # barres steelblue ## ## m06 : L'honnêteté est la meilleure politique dans tous les cas ## - par niveaux de - ## m07 : Il n'y a aucune excuse pour mentir à quelqu'un d'autre ## ## Fréquences conjointes et marginales ## ------ ------------------------ ## ## m06 ## m07 Fortement en désaccord En désaccord Légèrement en désaccord Légèrement d'accord D'accord Tout à fait d'accord Somme ## Fortement en désaccord 4 3 2 3 3 2 17 ## En désaccord 7 24 7 6 18 2 64 ## Légèrement en désaccord 4 14 30 13 24 2 87 ## Légèrement d'accord 2 1 10 16 12 2 43 ## D'accord 0 3 13 5 56 16 93 ## Tout à fait d'accord 1 2 1 1 8 34 47 ## Somme 18 47 63 44 121 58 351 ## ## V de Cramer : 0,380 ## ## Test d'indépendance du chi carré :## Chisq = 253,103, df = 25, valeur p = 0,000 ## >>> Faibles fréquences attendues des cellules, l'approximation du chi carré peut ne pas être précise
Si la variable catégorielle n'est pas un facteur, utilisez un paramètreremplir
couleur plurielle telle que"bleus"
,"rouges"
, ou"émeraudes"
pour attribuer un dégradé. Consultez la vignette Personnaliser pour plus de détails sur les palettes de couleurs.
Graphique à barres à variables multiples
Un seul graphique à barres peut être construit pour plusieurs variables. Cette visualisation est particulièrement utile lorsque toutes les variables sont mesurées sur la même échelle, comme les réponses d'auto-évaluation aux éléments Likert à 6 points, comme le montre l'exemple précédent de l'échelle Mach 4 à 20 éléments. Par défaut, les variables individuelles sont triées selon leurs moyennes respectives.
d<- rd("Mach4",calme =VRAI)
Diagramme à bandes(m01:m20)
Graphique à barres interactif
Une visualisation interactive permet à l'utilisateur de modifier en temps réel les valeurs des paramètres pour modifier les caractéristiques de la visualisation. Pour créer un graphique à barres interactif affichant les paramètres correspondants, exécutez la fonctioninteragir()
avec la valeur"Diagramme à bandes"
spécifié.
interagir("BarChart")
La fonction n'est pas exécutée ici car l'interactivité nécessite de s'exécuter directement depuis la console R.
Manuel complet
Utilisez la base Raide()
fonction pour afficher le manuel complet pourDiagramme à bandes()
. Entrez simplement un point d'interrogation suivi du nom de la fonction.
?Diagramme à bandes
Plus
En savoir plus sur les graphiques à barres et autres visualisations demoinsRet d'autres forfaits tels queggplot2à:
Gerbing, D.,Visualisations R : dériver un sens des données, CRCPress, mai 2020, ISBN 978-1138599635.