Hallo Björn, ich schreibe gerade meine Masterarbeit und bin daher sehr dankbar über deine Videos. Zwar habe ich noch Unterlagen aus dem Bachelor, die helfen mir gerade aber nur bis zu einem gewissen Punkt. Bei mir ist es so, dass ich 7 AV habe und mehrere UVs. Wenn ich die Voraussetzungen für die multiple Regression im Voraus prüfen möchte (Ausreißer, Normalverteilung, Linearität, Multikollinearität, Streuungsgleichheit und Autokorrelation), kann ich dann in einem Rechenschritt alle Ergebnisse berichten oder muss das für jede AV einzeln geschehen? Z.B. bei 0:52 gibst du ja eine AV an, um die standardisierten Residuen speichern zu können. Wären die Werte, z. B. bei der Normalverteilung der standardisierten Residuen, bei einer anderen AV, aber den gleichen UVs, genau gleich oder unterschiedlich? Liebe Grüße, Alexander
Hallo Alexander und danke für dein Lob! Prinzipiell ist für jede Regression (also je AV) die Voraussetzung der normalverteilten Residuen zu prüfen - dabei ist es aber unerheblich, ob du eine oder mehrere UV's hast, weil das Residuum der Abstand zwischen den beobachteten Werten und der Regressionsgerade darstellt. Viele Grüße, Björn.
Hallo Björn, leider deutet bei mir alles drauf hin, dass meine Residuen nicht normalverteilt sind. Heißt das, ich kann jetzt keine lineare Regression machen? Alle anderen Voraussetzungen von Gauß-Markov sind eigentlich erfüllt.. Ach, und eine Annahme ist ja die Zufallsstichprobe. Ich habe die Gelegenheitsstichprobe (ad-hoch-Stichprobe) verwendet, dann ist die Annahme eigentlich auch nicht erfüllt, oder? Danke und VG, Benni
@@StatistikamPC_BjoernWalther Danke für die Antwort. Ich habe grafisch und mit dem Shapiro-Wilk Test getestet, wie in dem Video erklärt. Leider deutet nichts so richtig auf Normalverteilung hin. Die anderen GM Annahmen sind erfüllt. Im Grunde ist meine Arbeit aber eigentlich schon fertig und ich überlege nun, ob ich das überhaupt berichten sollte oder nicht? Danke für die Hilfe :)
Schöne Videos und sie helfen mir ungemein :) Ich hätte auch eine Frage. Ich schreibe derzeit meine Masterarbeit und meine erhobenen Daten sind weder mit dem Shapiro-Wilk Test noch graphisch normalverteilt. Meine Stichprobe sind 247. Ich muss anschließend eine Regressionsanalyse durchführen. Kann ich das dennoch tun oder führt das zu einem Problem? Vielen Dank & Gruß Jens
Hallo Jens und danke für dein Lob. Wie schlimm ist denn die grafische Abweichung? Das Video zu analytischen Tests und deren Nutzlosigkeit bei großen Stichproben (th-cam.com/video/HKvOLhZ36D0/w-d-xo.html) kennst du ja sicher schon. Viele Grüße, Björn.
Hallo, tolles, Video und sehr verständlich erklärt! Wenn ich die Normalverteilung teste kommt bei mir für jeden meiner Fälle (n = 16) mit leichter Variation des Wertes: Standardized Residual ist bei Standardized Predicted Value = -1,20147 konstant und wird in alle erstellten Boxplots aufgenommen. Es wurde übergangen. Weißt du, was das bedeutet?
Hallo Anna, danke für dein Lob! Wie sind denn deine Daten, die du auf Normalverteilung der Residuen testest, skaliert und kannst du ein paar Verteilungsparameter nennen? Viele Grüße, Björn.
Hi, danke für deine Videos. Bei dem Test auf die Normalverteilung meiner Residuen, liegt der Kolmogorov Test bei 0,059 (somit könnte ich die Nullhypothese weiter annehmen), der shapiro test jedoch bei
Hey, am besten gar keinem und grafisch prüfen, z.B. mittels Q-Q-plot. Die analytischen Tests sind bei kleinen Stichproben zu liberal und bei großen Stichproben zu sensitiv, also de facto nicht zu gebrauchen. Viele Grüße, Björn.
@@StatistikamPC_BjoernWalther Hey Björn, danke für Deine Antwort. Meine Stichprobe beinhaltet 160 Werte. Ist das etwa schon zu groß? Ich werde das ganze dann grafisch prüfen. LG
@@milanandrej Hallo, ja, das ist schon in dem Bereich, wo die Sensitivität bei vernachlässigbaren Abweichungen zu groß ist. Q-Q- all the way. ;-) Viele Grüße, Björn.
Hallo, kannst du auch ein Video darüber machen, wie man bei Verletzung der Normalverteilungsannahme vorgeht? Hab leider das Problem bei meiner Masterarbeit und bin überfragt :(
Schaut man das Ganze für den Gesamten Datensatz oder, wenn man drei Gruppen hat (between-subject), dann für jede Gruppe einzeln an? Wird dann später auch mit den Residuen gerechnet oder schon mit normalen AV´s? Ich möchte dann Mediationsmodell mit PROCESS von Hayes rechnen. Darf man das, wenn nicht alle Residuen normalverteilt sind? Gruppengrößen sind bei ca. n=70, Gesamtstichprobe n=230.
Wie im Video gesagt, sind für Regressionsmodelle, also auch Mediation, normalverteilte Residuen optional. Wenn,, dann sollte aber aufgrund von Mischverteilungsproblemen gruppenweise getestet werden. Was sollte man mit den Residuen berechnen? Die sind doch die bereits gerechnet/geschätzte Störgröße der yi. Sie taugen lediglich für Prüfen von Modellvoraussetzungen wie z.B. Homoskedastiziät.
Kann man die Erstellung der Histogramme und des Q-Q-Diagramm zur Prüfung der Normalverteilung auch in Excel durchführen, oder ist das nur in R möglich? Ich bin nach deinem Video zu Q-Q-Normalverteilung vorgegangen und habe leider ein sehr merkwürdiges Diagramm erhalten. Da mein Mittelwert bei fast Null ist, die Standardabweichung, aber 2,9 beträgt.
Halla Jana, ein Histogramm bekommst du auch in Excel ausgegeben, vorausgesetzt du hast die Residuen korrekt ermittelt. Einfacher wird es aber natürlich in R oder SPSS. Viele Grüße, Björn.
Hallo. Wollte fragen, was ist, wenn die Residuen nicht normalverteilt sind? Kann ich dann trotzdem eine Moderation z.b nach Hayes rechnen oder ist dass dann nicht mehr zulässig?
Hallo Sabrina, das ist nicht ganz so tragisch und verzerrt dir keine Schätzer o.ä. Du hast lediglich ein Problem wenn du Hypothesen testest, also dir Signifikanzen anschaust oder Konfidenzintervalle betrachtest. Ist das der Fall, kann dem mit Bootstrapping entgegengewirkt werden, was PROCESS unterstützt. Viele Grüße, Björn.
Lieber Björn. Danke vielmals für deine Antwort. Ah okay, ja ich mache die Moderation mit Process. Ich dachte eben, dass nur die Mediation von Process mit Bootstrapping ist. Weisst du zufälligerweise, ob man für das Bootstrapping etwas bestimmtes anklicken muss, oder ob das so oder so so gemacht wird? Danke vielmals.
Hallo Sabrina, da hast du Recht. Bei Interaktion werden keine Bootstrap-KI berechnet. Man könnte überlegen, ob man Variablen weglässt/aufnimmt und erneut testen, evt. hilft ein logarithmieren der AV oder man liest noch mal genauer hier nach: www.sciencedirect.com/science/article/pii/S0895435617304857 Viele Grüße, Björn.
Hey, Habe da mal eine frage meine diagramme sehen so aus wie bei dir also diese q-q Diagramme Jedoch habe ich bei dem test eine signifikanz von 0,003 bzw 0,000 Das wiederspricht sich doch oder wäre das möglich bzw was könnte ich anders machen? Muss ich alle unstand. Res reinpacken? Wenn ja sind einige gut dabei mit 0,5 und 0,6 etc aber einige halt bei 0,000 und die Diagramme sehen sich alle ähnlich
Hallo Gundula, jein. :-D Eigentlich sind Residuen geschätzte Fehler- bzw. Störterme, weswegen man sie auch berechnen und graphisch darstellen kann. Die Residuen sind vereinfacht gesagt der Abstand zwischen dem Punkt und deiner Regressionsgerade. Bei der kleinsten-Quadrat-Methode versuchst du die Summe derer zu minimieren, um eine beste Regressionsgerade zu ermitteln. Zufällige Fehler sind das Epsilon in der Regressionsgleichung, die man nicht schätzen kann. Häufig findet man allerdings auch die Bezeichnung Fehler- oder Störterme, wenn Residuen gemeint sind, was in der Tat sehr unsauber ist, da zwischen geschätzten und zufälligen Störtermen ja ein sehr großer Unterschied besteht. Merk dir vielleicht einfach das Residuen eRmittelbaR sind - 2 große R sollen an der Stelle für Residuen stehen. Viele Grüße, Björn.
Hallo Björn, vielen Dank für die schnelle Antwort :). Eine der Voraussetzungen für die lineare Regression ist ja die Normalverteiltung der Fehlerterme (GM 6). Und um das mit SPSS zu machen gucke ich mir dann die Residuen an? Vielen Dank für deine Hilfe! Liebe Grüße Gundula :)
@@StatistikamPC_BjoernWalther Also Residuen sind die, die ich durch meine konkrete Stichprobe berechnet habe. Beim Fehlerterm (Epsilon) geht es um Daten, die ich theoretisch nicht erhoben habe, richtig? Danke schonmal!! LG, Paula
Vielen Dank für die guten Statistik-Videos, du begleitest mich jetzt schon mein ganzes Studium. 😂Ich bin jetzt bei meiner Masterarbeit, bin aber gerade total verwirrt, wie ich die Residuen testen soll. Wahrscheinlich ist die Frage richtig dumm. 😂 Ich hab (unter anderem) eine ordinalskalierte UV und eine metrische AV. Natürlich sieht der Plot total komisch aus, wenn man da auf Residuen oder Homoskedastizität prüfen will. 😂 Muss man ordinalskaliert Variablen vielleicht gar nicht auf die Voraussetzungen prüfen? 😅 Ich weiß nicht weiter, ich muss ja trotzdem mit dieser Variable rechnen (einfache lineare Regression, Moderation, Mediation...). Und wenn ich die Voraussetzungen mit dieser Variable NICHT machen muss, muss ich dann dafür eine Erklärung haben. 😅 Kann mir bitte jemand helfen😞
Hallo Alexander, die Residuen sollten nur im Streudiagramm "etwas komisch" aussehen - du hast quasi je Ausprägung der UV eine Art Säule. Da gilt aber auch das gleiche Prinzip. Eine Streuung sollte homogen sein. Im Zweifel kannst du aber pauschal robuste Standardfehler berechnen. Das zeige ich im Blog (bjoernwalther.com/heteroskedastizitaet-in-spss-erkennen-grafische-diagnose/) oder im Video (th-cam.com/video/dOf03X1CHyM/w-d-xo.html) mit entsprechender Quelle, warum man das sogar pauschal tun sollte. Viele Grüeß, Björn.
@@StatistikamPC_BjoernWalther Danke für deine Antwort. 🤩 Da ich mit Process arbeite, habe ich den HC3 sowieso aufm Schirm. 😊 Meinst du damit, dass ich die Voraussetzungen gar nicht prüfen muss, weil ich den HC3 eingestellt habe? Ich kann ja mit diesen 'Säulen' im Plot sonst auch gar nicht sehen, ob es homogen ist...
Echt schöne und einfache Erklärungen! Weiter so, du hilfst damit einer Menge verzweifelten Menschen :)
sehr verzweifelten Menschen :)
Danke für Shapiro Wilk Test, hat mir sehr geholfen bei einer Testat Aufgabe, wo Residuen auf Normalverteilung zu testen sind
Mein Abend ist gerettet, danke sehr!
Gerne! :-)
Viel Erfolg weiterhin und viele Grüße, Björn.
Vielen Dank, einfach perfekt erklärt :)
Meinst du bei 1:37 nicht die z-standardisierten vorhergesaten Werte? Weil du da Residuen sagst?
Hallo Björn,
ich schreibe gerade meine Masterarbeit und bin daher sehr dankbar über deine Videos. Zwar habe ich noch Unterlagen aus dem Bachelor, die helfen mir gerade aber nur bis zu einem gewissen Punkt. Bei mir ist es so, dass ich 7 AV habe und mehrere UVs. Wenn ich die Voraussetzungen für die multiple Regression im Voraus prüfen möchte (Ausreißer, Normalverteilung, Linearität, Multikollinearität, Streuungsgleichheit und Autokorrelation), kann ich dann in einem Rechenschritt alle Ergebnisse berichten oder muss das für jede AV einzeln geschehen? Z.B. bei 0:52 gibst du ja eine AV an, um die standardisierten Residuen speichern zu können.
Wären die Werte, z. B. bei der Normalverteilung der standardisierten Residuen, bei einer anderen AV, aber den gleichen UVs, genau gleich oder unterschiedlich?
Liebe Grüße, Alexander
Hallo Alexander und danke für dein Lob!
Prinzipiell ist für jede Regression (also je AV) die Voraussetzung der normalverteilten Residuen zu prüfen - dabei ist es aber unerheblich, ob du eine oder mehrere UV's hast, weil das Residuum der Abstand zwischen den beobachteten Werten und der Regressionsgerade darstellt.
Viele Grüße, Björn.
Hallo Björn, leider deutet bei mir alles drauf hin, dass meine Residuen nicht normalverteilt sind. Heißt das, ich kann jetzt keine lineare Regression machen? Alle anderen Voraussetzungen von Gauß-Markov sind eigentlich erfüllt..
Ach, und eine Annahme ist ja die Zufallsstichprobe. Ich habe die Gelegenheitsstichprobe (ad-hoch-Stichprobe) verwendet, dann ist die Annahme eigentlich auch nicht erfüllt, oder?
Danke und VG, Benni
Hallo Benni mir der Stichprobe ist denke ich immer noch in Ordnung.
Wie hast du die Normalverteilung denn getestet?
Viele Grüße, Björn.
@@StatistikamPC_BjoernWalther Danke für die Antwort. Ich habe grafisch und mit dem Shapiro-Wilk Test getestet, wie in dem Video erklärt. Leider deutet nichts so richtig auf Normalverteilung hin. Die anderen GM Annahmen sind erfüllt. Im Grunde ist meine Arbeit aber eigentlich schon fertig und ich überlege nun, ob ich das überhaupt berichten sollte oder nicht? Danke für die Hilfe :)
Hi :) habe grade das selbe Problem in meiner Masterarbeit.. wie bist du damit letztendlich umgegangen?
@@user-jb1ge5zw1f Kann ich dir leider nicht mehr beantworten nach fast 3 Jahren, tut mir Leid
Schöne Videos und sie helfen mir ungemein :) Ich hätte auch eine Frage. Ich schreibe derzeit meine Masterarbeit und meine erhobenen Daten sind weder mit dem Shapiro-Wilk Test noch graphisch normalverteilt. Meine Stichprobe sind 247. Ich muss anschließend eine Regressionsanalyse durchführen. Kann ich das dennoch tun oder führt das zu einem Problem? Vielen Dank & Gruß Jens
Hallo Jens und danke für dein Lob. Wie schlimm ist denn die grafische Abweichung? Das Video zu analytischen Tests und deren Nutzlosigkeit bei großen Stichproben (th-cam.com/video/HKvOLhZ36D0/w-d-xo.html) kennst du ja sicher schon.
Viele Grüße, Björn.
Hallo, tolles, Video und sehr verständlich erklärt!
Wenn ich die Normalverteilung teste kommt bei mir für jeden meiner Fälle (n = 16) mit leichter Variation des Wertes: Standardized Residual ist bei Standardized Predicted Value = -1,20147 konstant und wird in alle erstellten Boxplots aufgenommen. Es wurde übergangen.
Weißt du, was das bedeutet?
Hallo Anna, danke für dein Lob!
Wie sind denn deine Daten, die du auf Normalverteilung der Residuen testest, skaliert und kannst du ein paar Verteilungsparameter nennen?
Viele Grüße, Björn.
Hi, danke für deine Videos. Bei dem Test auf die Normalverteilung meiner Residuen, liegt der Kolmogorov Test bei 0,059 (somit könnte ich die Nullhypothese weiter annehmen), der shapiro test jedoch bei
Hey, am besten gar keinem und grafisch prüfen, z.B. mittels Q-Q-plot.
Die analytischen Tests sind bei kleinen Stichproben zu liberal und bei großen Stichproben zu sensitiv, also de facto nicht zu gebrauchen.
Viele Grüße, Björn.
@@StatistikamPC_BjoernWalther Hey Björn, danke für Deine Antwort. Meine Stichprobe beinhaltet 160 Werte. Ist das etwa schon zu groß? Ich werde das ganze dann grafisch prüfen. LG
@@milanandrej Hallo, ja, das ist schon in dem Bereich, wo die Sensitivität bei vernachlässigbaren Abweichungen zu groß ist. Q-Q- all the way. ;-)
Viele Grüße, Björn.
Hallo, kannst du auch ein Video darüber machen, wie man bei Verletzung der Normalverteilungsannahme vorgeht? Hab leider das Problem bei meiner Masterarbeit und bin überfragt :(
Schaut man das Ganze für den Gesamten Datensatz oder, wenn man drei Gruppen hat (between-subject), dann für jede Gruppe einzeln an? Wird dann später auch mit den Residuen gerechnet oder schon mit normalen AV´s? Ich möchte dann Mediationsmodell mit PROCESS von Hayes rechnen. Darf man das, wenn nicht alle Residuen normalverteilt sind? Gruppengrößen sind bei ca. n=70, Gesamtstichprobe n=230.
Wie im Video gesagt, sind für Regressionsmodelle, also auch Mediation, normalverteilte Residuen optional. Wenn,, dann sollte aber aufgrund von Mischverteilungsproblemen gruppenweise getestet werden. Was sollte man mit den Residuen berechnen? Die sind doch die bereits gerechnet/geschätzte Störgröße der yi. Sie taugen lediglich für Prüfen von Modellvoraussetzungen wie z.B. Homoskedastiziät.
Kann man die Erstellung der Histogramme und des Q-Q-Diagramm zur Prüfung der Normalverteilung auch in Excel durchführen, oder ist das nur in R möglich? Ich bin nach deinem Video zu Q-Q-Normalverteilung vorgegangen und habe leider ein sehr merkwürdiges Diagramm erhalten. Da mein Mittelwert bei fast Null ist, die Standardabweichung, aber 2,9 beträgt.
Halla Jana, ein Histogramm bekommst du auch in Excel ausgegeben, vorausgesetzt du hast die Residuen korrekt ermittelt. Einfacher wird es aber natürlich in R oder SPSS.
Viele Grüße, Björn.
Hallo. Wollte fragen, was ist, wenn die Residuen nicht normalverteilt sind? Kann ich dann trotzdem eine Moderation z.b nach Hayes rechnen oder ist dass dann nicht mehr zulässig?
Hallo Sabrina, das ist nicht ganz so tragisch und verzerrt dir keine Schätzer o.ä. Du hast lediglich ein Problem wenn du Hypothesen testest, also dir Signifikanzen anschaust oder Konfidenzintervalle betrachtest. Ist das der Fall, kann dem mit Bootstrapping entgegengewirkt werden, was PROCESS unterstützt.
Viele Grüße, Björn.
Lieber Björn. Danke vielmals für deine Antwort. Ah okay, ja ich mache die Moderation mit Process. Ich dachte eben, dass nur die Mediation von Process mit Bootstrapping ist. Weisst du zufälligerweise, ob man für das Bootstrapping etwas bestimmtes anklicken muss, oder ob das so oder so so gemacht wird?
Danke vielmals.
Hallo Sabrina, da hast du Recht. Bei Interaktion werden keine Bootstrap-KI berechnet. Man könnte überlegen, ob man Variablen weglässt/aufnimmt und erneut testen, evt. hilft ein logarithmieren der AV oder man liest noch mal genauer hier nach: www.sciencedirect.com/science/article/pii/S0895435617304857
Viele Grüße, Björn.
Hey,
Habe da mal eine frage
meine diagramme sehen so aus wie bei dir also diese q-q Diagramme
Jedoch habe ich bei dem test eine signifikanz von 0,003 bzw 0,000
Das wiederspricht sich doch oder wäre das möglich bzw was könnte ich anders machen?
Muss ich alle unstand. Res reinpacken?
Wenn ja sind einige gut dabei mit 0,5 und 0,6 etc aber einige halt bei 0,000 und die Diagramme sehen sich alle ähnlich
Hallo K, schau hierzu mal dieses Video: th-cam.com/video/HKvOLhZ36D0/w-d-xo.html Das klärt alles auf.
Viele Grüße, Björn.
Hey, was mache ich wenn die residuen nicht in meiner tabelle erscheinen, es wird immer eine fehlermeldung angezeigt. Danke im voraus
Hallo Till, wird denn das Modell überhaupt berechnet?
Viele Grüße, Björn.
Sind residuen und Fehlerterme das selbe? Liebe Grüße :)
Hallo Gundula,
jein. :-D Eigentlich sind Residuen geschätzte Fehler- bzw. Störterme, weswegen man sie auch berechnen und graphisch darstellen kann. Die Residuen sind vereinfacht gesagt der Abstand zwischen dem Punkt und deiner Regressionsgerade. Bei der kleinsten-Quadrat-Methode versuchst du die Summe derer zu minimieren, um eine beste Regressionsgerade zu ermitteln.
Zufällige Fehler sind das Epsilon in der Regressionsgleichung, die man nicht schätzen kann. Häufig findet man allerdings auch die Bezeichnung Fehler- oder Störterme, wenn Residuen gemeint sind, was in der Tat sehr unsauber ist, da zwischen geschätzten und zufälligen Störtermen ja ein sehr großer Unterschied besteht. Merk dir vielleicht einfach das Residuen eRmittelbaR sind - 2 große R sollen an der Stelle für Residuen stehen.
Viele Grüße, Björn.
Hallo Björn, vielen Dank für die schnelle Antwort :). Eine der Voraussetzungen für die lineare Regression ist ja die Normalverteiltung der Fehlerterme (GM 6). Und um das mit SPSS zu machen gucke ich mir dann die Residuen an? Vielen Dank für deine Hilfe! Liebe Grüße Gundula :)
@@StatistikamPC_BjoernWalther Also Residuen sind die, die ich durch meine konkrete Stichprobe berechnet habe. Beim Fehlerterm (Epsilon) geht es um Daten, die ich theoretisch nicht erhoben habe, richtig? Danke schonmal!! LG, Paula
Vielen Dank für die guten Statistik-Videos, du begleitest mich jetzt schon mein ganzes Studium. 😂Ich bin jetzt bei meiner Masterarbeit, bin aber gerade total verwirrt, wie ich die Residuen testen soll. Wahrscheinlich ist die Frage richtig dumm. 😂 Ich hab (unter anderem) eine ordinalskalierte UV und eine metrische AV. Natürlich sieht der Plot total komisch aus, wenn man da auf Residuen oder Homoskedastizität prüfen will. 😂 Muss man ordinalskaliert Variablen vielleicht gar nicht auf die Voraussetzungen prüfen? 😅 Ich weiß nicht weiter, ich muss ja trotzdem mit dieser Variable rechnen (einfache lineare Regression, Moderation, Mediation...). Und wenn ich die Voraussetzungen mit dieser Variable NICHT machen muss, muss ich dann dafür eine Erklärung haben. 😅 Kann mir bitte jemand helfen😞
Hallo Alexander,
die Residuen sollten nur im Streudiagramm "etwas komisch" aussehen - du hast quasi je Ausprägung der UV eine Art Säule. Da gilt aber auch das gleiche Prinzip. Eine Streuung sollte homogen sein.
Im Zweifel kannst du aber pauschal robuste Standardfehler berechnen. Das zeige ich im Blog (bjoernwalther.com/heteroskedastizitaet-in-spss-erkennen-grafische-diagnose/) oder im Video (th-cam.com/video/dOf03X1CHyM/w-d-xo.html) mit entsprechender Quelle, warum man das sogar pauschal tun sollte.
Viele Grüeß, Björn.
@@StatistikamPC_BjoernWalther Danke für deine Antwort. 🤩 Da ich mit Process arbeite, habe ich den HC3 sowieso aufm Schirm. 😊 Meinst du damit, dass ich die Voraussetzungen gar nicht prüfen muss, weil ich den HC3 eingestellt habe? Ich kann ja mit diesen 'Säulen' im Plot sonst auch gar nicht sehen, ob es homogen ist...