Cómo comprobar los supuestos en R y Rstudio. [Chupitos de R]

แชร์
ฝัง
  • เผยแพร่เมื่อ 27 ต.ค. 2020
  • #supuestos #assumptions #normalidad
    *En torno, no entorno.
    Si te gusta mi contenido y quieres, puedes pagarme un café en: ko-fi.com/chupitosder así no me dormiré mientras hago los chupitos.
    En este videotutorial os explico por qué son importantes los supuestos paramétricos. Os explicaré cuáles son los supuestos para el OLS y sobre todo cómo evaluarlos.
    Realmente solo hay 4 supuestos básicos.
    La linealidad.
    La normalidad de los residuos.
    La homescedasticidad de los residuos.
    La independencia.
    Con estos cuatro supuestos damos cobertura a todas las opciones dentro del OLS. Sino nos tocará emplear métodos robustos, transformaciones, o pruebas no paramétricas.
    Como siempre toda la sintaxis en:
    github.com/pableres/regresion...
    Artículo de referencia:
    peerj.com/articles/3323/
    durbinWatson, Breusch-Pagan Test For Homoscedasticity, Non-constant Variance Score Test, shapiro
  • วิทยาศาสตร์และเทคโนโลยี

ความคิดเห็น • 72

  • @xsxs8198
    @xsxs8198 2 ปีที่แล้ว +1

    Excelente video! Me ayudo muchisimo en mi trabajo!

  • @albertomariscal7679
    @albertomariscal7679 5 หลายเดือนก่อน +1

    Muy bueno el video gran aporte a la investigación. Saludos y sigue adelante por favor.

    • @PabloVallejoMedina
      @PabloVallejoMedina  5 หลายเดือนก่อน +2

      Gracias, ya he vuelto a grabar videos. En breve los iré subiendo.

  • @barreraarriagadaignaciojav3239
    @barreraarriagadaignaciojav3239 2 ปีที่แล้ว +1

    Muy buen video.

  • @ruthmilagrosalejoscabrera2059
    @ruthmilagrosalejoscabrera2059 ปีที่แล้ว

    Excelente video Pablo! super entendible, gracias!!!

  • @josephvrz
    @josephvrz ปีที่แล้ว +1

    Excelente explicación

  • @superpaisa25
    @superpaisa25 3 ปีที่แล้ว +2

    te felicito, nunca habia entendido este tema de los supuestos, ni la interpretacion de las graficas. De los mejores videos del tema de RL que he visto. Muchas gracias Pablo.

  • @gustavobarboza135
    @gustavobarboza135 2 ปีที่แล้ว +1

    Muy bien Pablo te felicito

  • @tcoll568
    @tcoll568 ปีที่แล้ว +4

    Eres un crack, Pablo, no te haces una idea de lo que he podido aprender gracias a tu canal, el mejor que he visto de R en español!
    PD: Una pena que ya no siga en activo

    • @PabloVallejoMedina
      @PabloVallejoMedina  ปีที่แล้ว +5

      Muchas gracias. Pues quiero retomar. Tuve un hijo, una mudanza intercontinental y varias cosas más que me han dificultado continuar con el proyecto. Pero como ves, no estoy desaparecido, ojalá pueda volver.

    • @tcoll568
      @tcoll568 ปีที่แล้ว +1

      @@PabloVallejoMedina Bueno parece que son cambios a mejor. Tus fieles seguidores estaremos expectantes de la vuelta a los terrenos de juego

  • @deradelo
    @deradelo 3 ปีที่แล้ว

    Muchas gracias, muy claro.

  • @RaidellAvello
    @RaidellAvello 3 ปีที่แล้ว +1

    Excelente. Saludos!

  • @cristhianrivera279
    @cristhianrivera279 3 ปีที่แล้ว +1

    Excelente trabajo, Pablo. Ahora tengo más herramientas para estudiar y usar.

  • @freddycful
    @freddycful 3 ปีที่แล้ว +1

    Gracias. Saludos

  • @luisroca835
    @luisroca835 3 ปีที่แล้ว +1

    Lo máximo! Videos como estos son invaluables!

    • @PabloVallejoMedina
      @PabloVallejoMedina  3 ปีที่แล้ว +1

      Has oído @TH-cam, por que no me quieres monetizar!!! Un saludo!

    • @luisroca835
      @luisroca835 3 ปีที่แล้ว

      @@PabloVallejoMedina es una buena pregunta. Lo haré! Sabes si hay manera de poner like pero sin que se añada a tus favoritos. Esa es la principal razón por la que no pongo like.

    • @PabloVallejoMedina
      @PabloVallejoMedina  3 ปีที่แล้ว +1

      @@luisroca835 No ni idea. No te preocupes ;).

    • @luisroca835
      @luisroca835 3 ปีที่แล้ว

      @@PabloVallejoMedina tienes toda la razón! Es lo mínimo que puedo hacer. Todos tus vídeos son buenos!

    • @PabloVallejoMedina
      @PabloVallejoMedina  3 ปีที่แล้ว +1

      @@luisroca835 No tranquilo, siéntete libre de darle like o no. Con que te guste el material es toda una alegría ;)

  • @litaesthercastilloyepes2374
    @litaesthercastilloyepes2374 2 ปีที่แล้ว

    Muchas Gracias me encantan tus videos👍 por que siempre pones el script que ahí siempre yo me equivoco y es de gran ayuda

  • @paulmm6878
    @paulmm6878 3 ปีที่แล้ว +1

    Gracias Pablo...

  • @sfc6772
    @sfc6772 2 ปีที่แล้ว +1

    Saludos. Buena explicación. Respecto a la linealidad usan la prueba RESET de Ramsey (librería (lmtest)) para determinar si la regresión lineal está bien especificada. Tambien test de Mandel.

  • @eloyolivavasquez6870
    @eloyolivavasquez6870 3 ปีที่แล้ว +1

    Muy bueno el video, bastante claro.
    Hay un tema que me llama mucho la atención cuando se verifican los supuestos de la regresión (o cualquier prueba paramétrica) y es el uso de los valores p no significativos. En realidad un valor p solo es informativo cuando es inferior a alfa (usualmente 0.05), por lo que un valor superior no nos dice nada respecto a los datos y tampoco sobre si se cumple el supuesto del modelo. Esto es super importante porque puede llevarnos a asumir que un modelo es adecuado, cuando no lo es.
    Saludos!!

    • @PabloVallejoMedina
      @PabloVallejoMedina  3 ปีที่แล้ว +1

      Síi, a mi me parece a fin de cuenta una cosa super subjetiva. Por eso apoyarse en cuestiones visuales es clave, con todo y con eso fallamos. Pero al menos cumplir unos mínimos ;)

  • @briannormanpenacalero9583
    @briannormanpenacalero9583 3 ปีที่แล้ว +5

    Excelente! Todo muy claro :)
    Esta función del paquete performance (check_model) también puede ayudar a la visualización de supuestos en regresión :)
    github.com/easystats/performance#comprehensive-visualization-of-model-checks

    • @PabloVallejoMedina
      @PabloVallejoMedina  3 ปีที่แล้ว

      Esa función también está genial. Hay opciones que se quedan por fuera sino sería imposible. Muchas gracias como siempre.

  • @CarlosMestanzaNovoa
    @CarlosMestanzaNovoa 3 ปีที่แล้ว +2

    Me gusto el video, muy informativo.
    Tengo algunas observaciones que sería interesante discutir. Si los residuos son normales la variable respuesta debería ser normal porque el cálculo de los residuos se hace de forma lineal (resta) y los residuos heredarán la distribución de la variable respuesta. En mi institución recomiendan utilizar Anderson-Darling para comprobar la normalidad cuando los tamaños muestreales son mayor 30 y la prueba de Shapiro cuando son menores o iguales a 30. Los residuos estudentizados son de más uso para detección de valores influyentes, pero si los usas para evaluar la normalidad no se si esto afecta al resultado de la prueba (algo como normalizar los residuos). Saludos.

    • @PabloVallejoMedina
      @PabloVallejoMedina  3 ปีที่แล้ว +4

      Hola, muchas gracias. Si en principio como tu dices se debería de poder extrapolar la normalidad de los errores a la de la variable. Aunque esto solo será así con variables continuas y que sigan distribuciones lineales. Es decir es riesgoso. Prefiero la fuente. Respecto a las técnicas hay muuuuchas. Pero con total honestidad. Yo que trabajo con muestras grandes casi siempre, no le paro bolas a este supuesto casi nunca. NO cambia nada, y su violación no suele comprometer nada ;) Pero no puedes poner eso Pablo... está bien entonces pon: la laxitud sobre este supuesto está en parte supeditada al tamaño muestral y a la intencionalidad del investigador.

  • @carobrior
    @carobrior 2 ปีที่แล้ว +1

    Excelente video y muy clara explicación. Que lastima que solo se puede dar 1 me gusta :D.

  • @darioarquero5879
    @darioarquero5879 ปีที่แล้ว

    Hola,. Estoy necesitando comprobar los supuestos en estadística bayesiana. Tenes algún video al respecto? Gracias!

  • @im6209
    @im6209 3 ปีที่แล้ว +1

    Hola Pablo, de pronto, sabes en qué literatura puedo encontrar eso que comentabas de que los supuestos se comprueban es a los residuos y no a las variables?

    • @PabloVallejoMedina
      @PabloVallejoMedina  3 ปีที่แล้ว +1

      Claro, cualquier libro serio de metodología. Pero si necesitas un soporte para un paper, creo que este está bien:
      peerj.com/articles/3323/

  • @juanma415
    @juanma415 3 ปีที่แล้ว

    ¡Muy buen video! Like y Subscripción.
    Mi duda sería por qué hay tantos pero tantos videos en TH-cam donde la gente aplica el test de normalidad y homocedasticidad a la variable respuesta en vez de a los residuos. Tengo que decir que muchas veces el p value es el mismo cuando se le aplica a las variables que a los residuos, eso sí.

    • @PabloVallejoMedina
      @PabloVallejoMedina  3 ปีที่แล้ว

      Hola, síIIII es cierto. A ver muchas veces va a ser igual, pero inténtalo cuando tengas una regresión logística binomial. Cuando la variable es dicotómica ya estamos agrandando el error. Pero vaya, yo mismo me equivoco en muchas cosas en los videos y como youtube le sienta muy mal que borremos los vídeos así se quedan (como máximo con una adenda ;).

  • @kathiagr8152
    @kathiagr8152 2 ปีที่แล้ว

    Hola Pablo: excelente video, pero siempre he tenido una duda sobre los supuestos, ya que pienso que hay dos que son redundantes y es la autocorrelacion y la independencia; si mis residuos son incorrelados, es que son independientes. Sácame de esta duda existencial que tengo. :))))))

    • @PabloVallejoMedina
      @PabloVallejoMedina  2 ปีที่แล้ว +1

      Hola Kathia, sí pero no ;). échale un ojo a este paper -que está en la descripción-. Seguro te saca de dudas.
      peerj.com/articles/3323/

  • @eduardomoya8447
    @eduardomoya8447 3 ปีที่แล้ว

    Hola Pablo. Muy buen video!! Tengo una consulta esto podria hacerse de la misma manera para untest de asociacion de variables parametricas?( t-test, anova, pearson, etc?) O solo modelos de regresion? Recuerdo que un chupito dijiste que todo era regresion, aunque no entiendo porque pero te creo jajaja. Saludos desde Chile, voy siguiendo los videos lento pero seguro💪🏻 y estoy suscrito con likes en cada uno

    • @eduardomoya8447
      @eduardomoya8447 3 ปีที่แล้ว

      Me refiero a los comandos, no que en cada prueba haya que evaluar estos supuestos

    • @PabloVallejoMedina
      @PabloVallejoMedina  3 ปีที่แล้ว +1

      Jajajja, tooodo es regresión. Llegará un punto en que te darás cuenta y cuando eso suceda estarás por encima del bien y del mal ;). Para todas las paramétricas debería ser así. Pero se puede flexibilizar un poco algunos, sobre todo a grandes tamaños muestrales.

    • @eduardomoya8447
      @eduardomoya8447 3 ปีที่แล้ว

      @@PabloVallejoMedina jajajaj muchas gracias Pablo, espero que puedas seguir subiendo videos como antes, cuando saque mi primer artículo cientifico pondré en agradecimientos a Chupitos de R😂

    • @PabloVallejoMedina
      @PabloVallejoMedina  3 ปีที่แล้ว

      @@eduardomoya8447 Sí, estoy en un momento convulso de mi vida y no tengo ni tiempo ni energía para subir más. Pero en septiembre volveré.

  • @agriculturalocal3072
    @agriculturalocal3072 3 ปีที่แล้ว

    Excelente video. Me queda una duda, porqué no usar Levene para la homocedasticidad? Saludos!!!

    • @PabloVallejoMedina
      @PabloVallejoMedina  3 ปีที่แล้ว

      Hola, muchas gracias. He dicho yo que no se deba usar Levene? a ver este tipo de análisis tienen el problema de que todo recae en el pvalue y por tanto en el tamaño muestral. Es un análisis válido, pero creo que hay otros más completos. Acá te dejo algo en inglés que sigue con mi idea:
      It relies too much on p-values, and therefore, sample sizes. If the sample size is large, Levene’s will have a smaller p-value than if the sample size is small, given the same variances.So it’s very likely that you’re overstating a problem with the assumption in large samples and understating it in small samples. You can’t ignore the actual size difference in the variances when making this decision. So sure, look at the p-value, but also look at the actual variances and how much bigger some are than others. (In other words, actually look at the effect size, not just the p-value).
      The ANOVA is generally considered robust to violations of this assumption when sample sizes across groups are equal. So even if Levene’s is significant, moderately different variances may not be a problem in balanced data sets. Keppel (1992) suggests that a good rule of thumb is that if sample sizes are equal, robustness should hold until the largest variance is more than 9 times the smallest variance.
      This robustness goes away the more unbalanced the samples are. So you need to use judgment here, taking into account both the imbalance and the actual difference in variances.

  • @mahavisnubonza3183
    @mahavisnubonza3183 6 หลายเดือนก่อน

    Hola brother. Saludos desde Colombia....tengo una duda si en mi prueba Shapiro. Mi p-value es menor a 0.05. Que puedo hacer como debo proceder si la normalidad de mis residuos no son normales....te agradezco mucho cualquier comentario

    • @antt5602
      @antt5602 5 หลายเดือนก่อน

      Una opcion es realizar la "transformacion" de tu variable de respuesta (Y)...

  • @israelconstanteamores4816
    @israelconstanteamores4816 3 ปีที่แล้ว

    Muchas gracias. ¿Cuál va a ser el siguiente vídeo?

    • @PabloVallejoMedina
      @PabloVallejoMedina  3 ปีที่แล้ว +3

      T test de muestras relacionadas. Ya está grabado. Luego imputación de valores perdidos utilizando forest

    • @israelconstanteamores4816
      @israelconstanteamores4816 3 ปีที่แล้ว

      @@PabloVallejoMedina Muchas gracias, Pablo.

  • @gabrielaaguilarpalula4148
    @gabrielaaguilarpalula4148 2 ปีที่แล้ว

    Hola, gracias por el video, me saco de un apuro, es solo que no puedo correr en R durbinWatsonTest ni tampoco la prueba de Breusch-Pagan bptest, ya instale la paqueteria MASS
    Cual podría ser la razón?

  • @RenatoNunuraC
    @RenatoNunuraC ปีที่แล้ว

    Hola! Tengo una consulta para utilizar el shapiro.test. Quise ejecutar la prueba de normalidad pero el programa me limita a un tamaño muestral de 3 hasta 5000 y justo mi proyecto tiene más de 8K. Existirá otro test de shapiro para poder aplicarlo a mi tamaño de muestra?
    Saludos y gracias!

    • @PabloVallejoMedina
      @PabloVallejoMedina  ปีที่แล้ว +2

      Hola Renato, yo nunca utilizaría ese test para una muestra tan grande. Más de 50 personas ya no se recomienda usar Shapiro. Tienes un tamaño muestral muy grande yo me decantaría por un multimétodo multifuente:
      Kolmogorov-Smirnov y modificación de Lillefors. La función lillie.test() del paquete nortest permite aplicarlo.
      Test de normalidad de Jarque-Bera ... jarque.bera.test() del paquete tseries
      y el gráfico Q-Q. Con eso te vas a hacer una idea más correcta. Un saludo.

    • @RenatoNunuraC
      @RenatoNunuraC ปีที่แล้ว

      @@PabloVallejoMedina Muchas gracias por la explicación Pablo!

  • @oscargomezgonzalez8373
    @oscargomezgonzalez8373 3 ปีที่แล้ว

    Hola a todos :D ¿por qué en el 17:53 dice que "3.48...e-14" es menor que cero si comienza con 3.48? lo mismo en 22:05.
    ¿A caso "3.48...e-14" debe entenderce como "0.00000000000000348..."?

    • @PabloVallejoMedina
      @PabloVallejoMedina  3 ปีที่แล้ว +1

      No he contando los ceros, pero sí, estas en lo cierto. Es eso.

    • @oscargomezgonzalez8373
      @oscargomezgonzalez8373 3 ปีที่แล้ว

      @@PabloVallejoMedina Muchas gracias :D que maravilloso tu apoyo

  • @user-to8sy1dh7f
    @user-to8sy1dh7f 10 หลายเดือนก่อน +1

    te odio aurelio guevara