Regressionsanalyse : Ursache-/ Wirkungsbeziehungen für Fortgeschrittene
Wir befinden uns mal wieder auf dem Pfad der gepflegten Darstellung von Ursache-/ Wirkungsbeziehungen als eine der Hauptaufgaben von Six Sigma Belts. Schon vor einigen Wochen hatte ich an gleicher Stelle etwas über die Korrelationsanalyse erzählt – sie kann man vielleicht so ein bisschen als „Vorhofflimmern“ oder „Pränatalphase“ der Regressionsanalyse bezeichnen. Diese ist sicherlich komplexer – kann dafür aber auch mehr ! So kann sie z.B. für uns wichtige kausale Zusammenhänge stetiger (oder zumindest „quasistetiger“) Variablen quantifizieren und wir können aus dem dabei erarbeiteten Modell Prognosen ableiten. Das hilft uns sehr beim Verstehen unserer Prozesse und v.a. deren Optimierung – unserer eigentlichen Kernaufgabe.
IHRE SCHULUNG: Mehr zur Regressionsanlayse lernen Sie auch in unserem Seminar Six Sigma Green Belt!
Na, vielleicht dämmert’s bei dem einen oder anderen Leser – da war doch mal ’was in der eher früheren Vergangenheit !? Ja richtig, wer sich auf dem Gymnasium einige Zeit aufgehalten hat, wird so in der 9. (heute 8.) Klasse tatsächlich schon etwas zu dem Thema „Modellieren mit linearen Funktionen“ gehört haben – und damit auch sicher etwas über Korrelations- und Regressionanalyse und damit auch etwas über Korrelationskoeffizienten und Regressions- oder Ausgleichsgeraden – wahrscheinlich und zum damaligen Glück wohl nicht über Residuen und Autokorrelation und schon gar nicht über Mulitikollinearität und Homoskedastizität (beide übrigens nicht ansteckend).
Man erinnert sich dunkel an schön bebilderte Schulbuchseiten, auf denen gerade zu diesem Thema zahlreiche Alltagsfragen auf lineare Zusammenhänge hin untersucht wurden. So z.B. : Wie sieht die Beziehung aus zwischen Alter und Wachstum bei Jugendlichen (nach dem Motto, „wird aus meinem Sohn noch ’was ?“) oder zwischen dem Siedepunkt von Wasser und der Meereshöhe (klassisches Bergsteigerbeispiel, „wie hoch muss ich eigentlich steigen, dass mein Wasser schon bei 20°C siedet“ – wird leider zumindest auf unserer Erde kaum klappen können).
IHRE VORLAGE: Sparen Sie Zeit und Aufwand und nutzen Sie unsere automatisierte
Excel Vorlage Korrelationsdiagramm und Regressionsanalyse!
Dieser Lineare Zusammenhang lag immer dann vor, wenn sich die Zielgröße (bei Six Sigma das „Y“) in Abhängigkeit einer anderen Einflussgröße (bei Six Sigma das „X“) mit einer in etwa konstanten Änderungsrate entwickelte und man dies wunderschön auf einem Streudiagramm (x/y-Diagramm, Korrelationsdiagramm) durch Einzeichnen von tabellierten Zuordnungspunkten und einer dahinein gelegten Ausgleichsgerade darstellen konnte.
Auch noch in Erinnerung wird man haben, dass dies leider nicht immer so der Fall war oder halt nur für einen bestimmten Bereich galt, in dem man die x-Werte variiert hat – darüberhinaus stimmte das Modell plötzlich oder langsam schleichend nicht mehr. Die Beziehung wurde nicht-linear und der ein oder andere musste nun in den sauren Apfel der quadratischen, kubischen oder sonstwie genannten Beziehungen beißen – auch die beliebte Ausgleichsgerade war dann keine mehr – man sprach plötzlich von „Parabeln“ (spätestens dann kam immer der alte Lehrerwitz aus der untersten Schublade: „Fritzchen versuchte stundenlang eine Gerade – bis er den Bogen ’raus hatte“).
Schon damals wurde man das Gefühl nicht los, dass ob der mannigfaltigen Alltagsgebräuchlichkeit einen zumindest dieses leidige Schulthema irgendwann wieder einholen würde – und es kam, wie’s kommen musste – auf der Uni, als Ingenieur im Berufsleben oder spätestens – als man sich schon fast ganz sicher war, es geschafft zu haben – als Green oder Black Belt hat sie einen dann doch erwischt! Wer sich mit ihr dann aber doch mehr oder weniger ausgiebig beschäftigt, findet i.d.R. schnell Gefallen daran – und fragt sich meistens später, wie er denn jemals ohne sie hat sinnvoll leben können!
IHRE SCHULUNG: Besuchen Sie auch unser Seminar Six Sigma Black Belt und führen Sie
als Black Belt anspruchsvolle Verbesserungsprojekte in Ihrem Unternehmen durch!
Wie seriös kann man denn jetzt plötzlich aus meist schon vorliegenden (historischen) Daten Schlüsse ziehen und Prognosen für interessierende y-Werte aus konkreten x-Werten ableiten kann. Wie man das Modell sogar bezüglich seiner Aussage- und Prognosefähigkeit über so genannte R²-Werte („Anteil erklärter Variation“ oder „Bestimmtheitsmaß“ oder wenn man angeben will „Determinationskoeffizient“) einschätzen kann. Wie Residuen als Ausdruck der Reststreuung und damit der nicht durch die Veränderung der Einflussgrößen erklärbaren Variation eine wichtige Rolle spielen können und bestimmte Voraussetzungen erfüllen müssen. Wie man, angelangt bei der „Multiplen Linearen Regression“, nun auch die Anzahl der Einflussgrößen, so wie’s im Leben halt auch der Fall ist, nahezu beliebig nach oben schrauben kann, um dann meist auch ein besser erklärtes Modell zu erhalten.
Und dann erschrecken einen auch nicht mehr solche Phänomene wie Multikollinearität – sie liegt vor, wenn auch die x’s miteinander verheiratet sind – oder Homoskedastizität – sie liegt nicht mehr vor, wenn vereinfacht gesagt die Streuung der Punkte um die Ausgleichsgerade nach rechts oder links hin größer wird – dann spricht man natürlich von Heteroskedastizität – versteht sich ja von selbst!
No Comment