Mittlere absolute Abweichung vom Median

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Die mittlere absolute Abweichung vom Median ist ein robustes Streuungsmaß in der deskriptiven Statistik und gibt an, wie weit eine Stichprobe „im Mittel“ vom Median abweicht. Je nach Definition wird entweder das arithmetische Mittel oder der Median der absoluten Abweichungen berechnet.

Gegeben sei eine Stichprobe mit Median .

Die mittlere absolute Abweichung vom Median ist entweder definiert als arithmetisches Mittel der absoluten Abweichungen (englisch mean absolute deviation, kurz MAD):[1][2]

,

oder als Median der absoluten Abweichungen (auch: Median-Abweichung, englisch median absolute deviation, kurz MAD oder auch MedAD):[3]

.

Gegeben sei die Stichprobe . Als sortierte Stichprobe erhält man .

Der Median beträgt somit .

Daraus folgt

Insbesondere unterscheiden sich die beiden Werte für die mittlere absolute Abweichung vom Median beinahe immer von der mittleren absoluten Abweichung vom arithmetischen Mittel. Diese liefert bei derselben Stichprobe den Wert

.

Betrachtet man die mittlere absolute Abweichung von einem beliebigen Wert , also

,

so ist minimal, wenn der Median ist.[4] Ein analoges Resultat gilt auch für die mittlere quadratische Abweichung von einem Wert : sie wird genau dann minimal, wenn das arithmetische Mittel ist. In diesem Sinne ist die mittlere absolute Abweichung ein natürliches Streumaß um den Median, ebenso wie die mittlere quadratische Abweichung ein natürliches Streumaß um das arithmetische Mittel ist.

Die mittlere absolute Abweichung ist ein robustes Streuungsmaß, es ist also deutlich unempfindlicher gegenüber Ausreißern als etwa die Standardabweichung. Dies liegt an der Verwendung des robusten Medians. Besonders relevant ist dies, wenn eine Regel für das Entfernen von Ausreißern aus einem Datensatz gefunden werden soll: Das übliche Verfahren, alle Werte, die mehr als drei Standardabweichungen vom arithmetischen Mittel entfernt sind, zu streichen, ist insofern problematisch, als dass Standardabweichung und Mittel selbst durch Ausreißer verzerrt sein könnten. Ein deutlich unempfindlicheres Verfahren wäre, alle Werte zu streichen, die mehr als das k-fache des MedAD vom Median abweichen, wobei k ein von der Wahrscheinlichkeitsverteilung abhängiger Faktor ist.[5]

Einzelnachweise

[Bearbeiten | Quelltext bearbeiten]
  1. Helge Toutenburg, Christian Heumann: Deskriptive Statistik. 6. Auflage. Springer-Verlag, Berlin/Heidelberg 2008, ISBN 978-3-540-77787-8, S. 74, doi:10.1007/978-3-540-77788-5.
  2. Thomas Cleff: Deskriptive Statistik und Explorative Datenanalyse. Eine computergestützte Einführung mit Excel, SPSS und STATA. 3., überarbeitete und erweiterte Auflage. Springer Gabler, Wiesbaden 2015, ISBN 978-3-8349-4747-5, doi:10.1007/978-3-8349-4748-2.
  3. Norbert Henze: Stochastik für Einsteiger. Eine Einführung in die faszinierende Welt des Zufalls. 10. Auflage. Springer Spektrum, Wiesbaden 2013, ISBN 978-3-658-03076-6, S. 32, doi:10.1007/978-3-658-03077-3.
  4. Ehrhard Behrends: Elementare Stochastik. Ein Lernbuch – von Studierenden mitentwickelt. Springer Spektrum, Wiesbaden 2013, ISBN 978-3-8348-1939-0, S. 275, doi:10.1007/978-3-8348-2331-1.
  5. Leys, C., et al: Detecting outliers: Do not use standard deviation around the mean, use absolute deviation around the median. In: Journal of Experimental Social Psychology. Band 49, Nr. 4, 2013, S. 764–766, doi:10.1016/j.jesp.2013.03.013 (englisch, ulb.ac.be [PDF]).