Ein einfacher Boxplot in R wird mit der boxplot()Funktion erzeugt. Die abzutragende Variable sollte mindestens ordinalskaliert sein. Sinnvoller ist es aus Darstellungsgründen allerdings für verhältnis oder intervallskalierte Variablen.
001 boxplot(data$IQ)
Exemplarisch wird der Intelligenzquotient (kurz IQ) abgetragen, was zu Teil A in der Abbildung führt. Die Abbildungen sind nur bedingt zum Ablesen von Lage und Streuparametern geeignet und ergänzend zu den in den Abschnitten 5.2 und 5.3 (im Buch) ermittelten Zahlen zu verstehen. Zur Interpretation der durch einen Boxplot abgebildeten Lage und Streuparameter:
- Die Box wird durch das 1. Quartil und das 3. Quartil aufgespannt (hier: 104 bzw. 128).
- Die vertikale Kantenlänge ist demzufolge der Interquartilsabstand (hier:
24). - Die Antennen (»Whisker«) zeigen Maximal bzw. Minimalwerte oberhalb des 3. Quartils bzw. unterhalb des 1. Quartils an, die keine Extremwerte (umgangssprachlich »Ausreißer«) sind. Deren Längen sind in der Regel nicht symmetrisch (hier: Minimum 90, Maximum 140).
- Punkte bzw. Kreise zeigen Ausreißer an, die mindestens den 1,5-fachen Interquartilsabstand oberhalb des 3. Quartils bzw. unterhalb des 1. Quartils haben (im Beispiel ist ein Ausreißer bei 165).
- Der Median ist der horizontale schwarze Strich und zeigt die 50% Mitte der Verteilung – 50 % der Werte sind kleiner sowie 50 % der Werte sind größer als der Median (hier: 115).
Eine unterteilte Darstellung für Teilgruppen gelingt mit ~ ((AltGr) + (+) – »Tilde«) zwischen der abzutragenden Variablen und der Gruppenvariablen. Exemplarisch wird für das Geschlecht der IQ separat in Boxplots dargestellt. Gleichzeitig werden Titel und Achsenbeschriftung vergeben. Das Ergebnis findet sich in Teil B der Abbildung.

Zwar sind die Boxen und die Antennen (»Whisker«) recht ähnlich, allerdings kann anhand des schwarzen horizontalen Strichs ein höherer Median bei den Frauen abgelesen werden. In der gemeinsamen Verteilung war der Wert 165 noch als Ausreißer markiert. Aufgrund der generell etwas höher liegenden Box bei der Untergruppe der Frauen ist dieser aber nicht über dem 1,5-fachen Interquartilsabstand oberhalb des 3. Quartils.
001 boxplot(data$IQ~data$Geschlecht,
002 ylab = "IQ", xlab = "Geschlecht",
003 main = "IQ der Probanden")
Eine letzte Formatierungsmöglichkeit ist die Einfärbung der Boxplots und Umbenennung der Kategorien einer Gruppierungsvariablen.
Im folgenden Beispiel wird ein Boxplot für die Variable »Einkommen« für jede der 5 Ausprägungen der Gruppierungsvariable »Motivation« erstellt. Hierbei ist mit zunehmender Motivation ein dunkleres Rot verbunden, was mit col = c() erreicht wird.
Die Beschriftung der Ausprägungen 1–5 der Motivation auf der x-Achse werden mit names = c() geändert.
001 boxplot(data$Einkommen~data$Motivation,
002 xlab = "Motivation", ylab = "Einkommen",
003 main = "Einkommen und Motivation",
004 col = c("pink", "deeppink3", "firebrick1",
005 "red", "darkred"),
006 names = c("keine", "wenig", "mittel", "viel",
007 "sehr viel"))
Im Ergebnis führt dies zu dem Boxplot in der Abbildung.

Weitere Anpassungsmöglichkeiten von Achsen, Schrift usw., die universell für mit der RStandardformatierung erstellten Grafiken gelten, sind im Anhang (das Buchs) ausführlich dargestellt.

Dieser Artikel ist ein Auszug aus dem Buch „Statistik mit R Schnelleinstieg“ von Björn Walther. Alle Infos zum Buch, das Inhaltsverzeichnis und eine kostenlose Leseprobe findet ihr bei uns im Shop.