Dúvida em 40:14, ao aumentar 1 ano na idade, tem-se uma diminuição em 4% na chance de sobrevivência. Digamos que: Uma pessoa tem 30 anos, outra pessoa tem 31 anos, essa última tem menos 4% na chance de sobreviver em relação a quem tem 30? E quem tem 32 anos, tem menos 8% de chance de sobreviver em relação a quem tem 30? E quem tem 33 anos, tem menos 12% de chance de sobreviver em relação a quem tem 30? É aditivo esse percentual? Como entender essa relação?
3 ปีที่แล้ว
Como a razão de chances para o aumento de uma unidade é exp(b) sendo b o coeficiente de variável continua, para achar para o aumento de duas unidades, calcula-se exp(2b), para o aumento de três unidades será exp(3b) e assim sucessivamente.
Excelente aula, didática e recursos apresentados. Muito obrigado! Parabéns pelo seu trabalho! Só uma dúvida... nos gráficos de Efeitos, quando há muitas variáveis, fica tudo muito confuso. Como é possível selecionar blocos delas para ir salvando a imagem de cada bloco, para colocar em uma apresentação? Obrigado e parabéns novamente!
9 หลายเดือนก่อน
Oi! Muito obrigada! Desculpe pela demora. Você pode salvar em um objeto e depois pedir o plot de cada variável, como no exemplo abaixo: # Carregar pacote necessário library(effects) # Criar um modelo exemplo modelo
Vi outros vídeos aqui no youtube sobre esse assunto, e percebi que outras pessoas NÃO utilizam no modelo o link = "logit", usam apenas family = binomial, então, quais são as implicações de usar e não usar o link = "logit"? E a outra dúvida é: quando eu devo utilizar o link = "probit"? Desde já agradeço pelas explicações. (23:42)
3 ปีที่แล้ว +1
Quando se usa a família binomial, a função de ligação default do R é a logit, então não precisaria colocar. Só coloquei para frisar que estava usando essa. A diferença é que na logit as caudas são ligeiramente mais planas enquanto que a curva probit se aproxima dos eixos de forma mais rápida. Além disso, com a logit a interpretação é mais fácil, pois os coeficientes beta da regressão logística tem a interpretação das razões de chances. Aliás, o nome logística vem da logit.
Uma ótima explicação Letícia, vídeo excelente. Uma dúvida, no minuto 51:20 você apresenta um gráfico que contem uma linha azul e outra tracejada em vermelho. A tracejada em vermelho entendi que são valores preditos, mas a azul não consegui entender.
3 ปีที่แล้ว +1
Desculpe-me pela demora. A linha azul representa uma função de ajuste entre a variável resposta e a explicativa, já a linha vermelha representa uma função de ajuste entre os valores previstos e a variável explicativa.
Obrigado pela resposta Letícia. Sobre a função de ajuste da linha vermelha, creio eu que seja o modelo, ou seja, você vai variando o valor da variável explicativa no modelo, mantendo as demais variáveis constantes, e gerando as probabilidades (me corrija se eu estiver enganado). Mas a função que gera a linha azul ainda não consegui entender.
Olá Prof! Sua aula foi excelente, porém me surgiu uma dúvida, em momento nenhum eu vi você verificando a relação linear das VI com o logit da VD, nesse caso ent vc assumiu que essa relação linear já existe? Estou com mts problemas em relação a isso com a minha bdd, pois até agr não encontrei nenhum exemplo em que essa nao linearidade é tratada, e eu tb não estou sabendo em que momento fzr isso... Eu faço isso no final qnd to avaliando o diagnóstico do modelo? Ou antes pra evitar que essa relaçao deixe meu modelo tendencioso? (curiosamente, essas variaveis que apresentaram relaçao nao linear no meu teste de Box-Tidwell sao as mesmas que tem p significativo no meu modelo 1 com tds as variáveis). Tenho a msm duvida para o teste da multicolinearidade e dos residuos, pq fzr no final?
3 หลายเดือนก่อน
@@catharinaguimaraes9615 Essas avaliações são realizadas após o ajuste do modelo para que, ao identificar eventuais problemas, seja possível corrigi-los de forma adequada na modelagem final.
Não entendi pq eliminou a variável "Cabin" e deixou a variável "Fare". As cabines me parecem influenciar dado que dependendo da localização desta, a morte era certa. Já o valor da tarifa acredito ser insignificante. Poderia me explicar pfvr?
ปีที่แล้ว
As cabines são apenas códigos, como C85, C123... Teríamos muitas categorias que não seriam fáceis de entender. Só se tivéssemos um mapa do navio para talvez descobrir o andar de cada cabine ou algo do tipo. Neste caso, é melhor usar a classe econômica do que cabine. A tarifa talvez ajude a saber se aquele passageiro estaria em uma cabine superior ou inferior.
Bom dia Professora, muito obrigada pelas aulas. Tenho uma pergunta, quando há um desequilíbrio das amostras, por exemplo, na minha variável resposta tenho 260 (sobrevive) e 60 (morre), é necessário realizar algum tipo de ajuste? Obrigada!
11 หลายเดือนก่อน +1
Oi, Juliana! Depende da sua modelagem. Você está usando a regressão logística para um modelo de predição?
Muito obrigado, ajustei um modelo logístico seguindo suas dicas, meu modelo completo tem 21 variáveis, e após stepwise fiquei com 10 variáveis. No entanto, tenho as seguintes dúvidas: 1) A razão de verossimilhança (LRT) na comparação do modelo completo e o restrito, o resultado foi não significativo, e mesmo se desse significativo, eu optaria pelo modelo menor pela princípio da parcimônia, então, esse teste LRT não tem utilidade nenhuma? Porque, dando significativo ou não, sempre o modelo restrito será menor em relação ao modelo completo. 2) Com relação ao poder preditivo do modelo, minha acurácia, especificidade e sensibilidade foram de: 0,6572 ; 0,6410 e 0,6475. Sei que a acurácia tem haver com a precisão, agora, a especificidade e sensibilidade ainda não entendi bem a interpretação, se puder explicar agradeço. Esses meus resultados estão bons Letícia? Até qual valor o modelo poder ser considerado bom, ruim ou regular?
3 ปีที่แล้ว
1) O teste de Razão de Verossimilhança testa a significância conjunta das variáveis explicativas. Usualmente é utilizado para verificar se o modelo reduzido é mais ade- quado em relação ao completo. Se não for o caso, utiliza-se o completo. A parcimônia entra quando “não há diferença” entre o completo e adequado. 2) Vou encaminhar este vídeo th-cam.com/video/jLxW_vN8wn8/w-d-xo.html a partir de 10:42. Dê uma olhada e se você não entender, me escreva novamente. Com esses valores encontrados, seu modelo não está tão bom. 😞
Letícia, boa noite! Quando gero os odds ratios, IC e valor de p, que aparecem na tabela do modelo (tab_model), isto é um teste? Tem algum nome específico? Ao apresentá-la em um artigo, como posso descrevê-la? Muito obrigada!
3 ปีที่แล้ว +1
Oi, Juliana! A razão de chances é um valor calculado a partir dos coeficientes encontrados. Veja a aula teórica que lá eu explico em detalhes. Você pode observar que o valor-p dos coeficientes é o mesmo da razão de chances. É o valor-p que vai indicar se aquela variável é significativa ou não para o modelo. Nos artigos a gente apresenta a razão de chances acompanhada do intervalo de confiança e valor-p. Pode observar também que se o intervalo de confiança contém o valor 1, o valor-p é maior que 0,05 (não significativo). Busque por artigos científicos que tenham usando a regressão logística e você verá melhor como a razão de chances é apresentada.
Tenho 500 dados para ajustar a regressão logística múltipla, qual o melhor percentual para treino e teste? Eu deixo 80% desses dados pra treino e 20% pra teste ? Ou deixo 75% pra treino e 25% pra teste? E depois de testar o modelo, eu posso retornar esses dados separados pra teste, para meu conjunto de dados total? Digamos que pra treino tenho 400 dados, e pra teste 100 dados, então, esses 100 podem ser juntados aos 400? Voltando minha amostra inicial de 500 observações?
3 ปีที่แล้ว
As porcentagens você quem escolhe. E qual o objetivo de retornar esses dados? Seu modelo já está pronto.
Ok, ajustei o modelo, tá tudo as mil maravilhas, acurácia, precisão, etc… E agora? Como faço pra saber na prática se um novo dado, faz parte dos que sobreviveram? Ou seja, como jogo esse dado novo no modelo ajustado? Digamos que seja construído um novo Titanic com as mesmas características, mesmo tudo, daí, embarca no navio: Uma mulher de 50 anos, ela prefere a Pclass 2, e tem 3 irmãos a bordo. Pronto, qual a probabilidade e chances dessa mulher sobreviver ao naufrágio do navio ? (vamos supor que o navio vai afundar novamente).
3 ปีที่แล้ว
Basta você usar a função predict. Assim como fez no conjunto de teste. Só que no teste você sabia o desfecho real para poder avaliar se o modelo acertou ou errou, com um novo dado, você apenas saberá a probabilidade e a decisão será tomada com base no ponto de corte.
Letícia Raposo, estou impressionado com a sua aula. MUITO OBRIGADO MESMO!
Aproveitando, você comenta, mas não sei se conseguiu fazer... Você tem alguma aula pronta sobre métodos mais avançados de lidar com os NA?
Nossa! Eu quem agradeço!
Que aula perfeita, muito muito obrigada!
Eu quem agradeço! ❤️
Excelente! Pode fazer o teste de Heckman para detectar viés de seleção?? Esse teste e muito importante também
Parabéns!! Vc é show!
Muito obrigada!
Excelente aula!
Qual o vídeo que você explica como lidar com os dados desbalanceados?
Eu comento um pouco aqui: th-cam.com/video/jF00Tpf4OJM/w-d-xo.html
Dúvida em 40:14, ao aumentar 1 ano na idade, tem-se uma diminuição em 4% na chance de sobrevivência. Digamos que: Uma pessoa tem 30 anos, outra pessoa tem 31 anos, essa última tem menos 4% na chance de sobreviver em relação a quem tem 30? E quem tem 32 anos, tem menos 8% de chance de sobreviver em relação a quem tem 30? E quem tem 33 anos, tem menos 12% de chance de sobreviver em relação a quem tem 30? É aditivo esse percentual? Como entender essa relação?
Como a razão de chances para o aumento de uma unidade é exp(b) sendo b o coeficiente de variável continua, para achar para o aumento de duas unidades, calcula-se exp(2b), para o aumento de três unidades será exp(3b) e assim sucessivamente.
Excelente aula, didática e recursos apresentados. Muito obrigado! Parabéns pelo seu trabalho! Só uma dúvida... nos gráficos de Efeitos, quando há muitas variáveis, fica tudo muito confuso. Como é possível selecionar blocos delas para ir salvando a imagem de cada bloco, para colocar em uma apresentação? Obrigado e parabéns novamente!
Oi! Muito obrigada! Desculpe pela demora. Você pode salvar em um objeto e depois pedir o plot de cada variável, como no exemplo abaixo:
# Carregar pacote necessário
library(effects)
# Criar um modelo exemplo
modelo
Vi outros vídeos aqui no youtube sobre esse assunto, e percebi que outras pessoas NÃO utilizam no modelo o link = "logit", usam apenas family = binomial, então, quais são as implicações de usar e não usar o link = "logit"? E a outra dúvida é: quando eu devo utilizar o link = "probit"? Desde já agradeço pelas explicações. (23:42)
Quando se usa a família binomial, a função de ligação default do R é a logit, então não precisaria colocar. Só coloquei para frisar que estava usando essa.
A diferença é que na logit as caudas são ligeiramente mais planas enquanto que a curva probit se aproxima dos eixos de forma mais rápida. Além disso, com a logit a interpretação é mais fácil, pois os coeficientes beta da regressão logística tem a interpretação das razões de chances. Aliás, o nome logística vem da logit.
@ Obrigado 👍🏻
Uma ótima explicação Letícia, vídeo excelente. Uma dúvida, no minuto 51:20 você apresenta um gráfico que contem uma linha azul e outra tracejada em vermelho. A tracejada em vermelho entendi que são valores preditos, mas a azul não consegui entender.
Desculpe-me pela demora. A linha azul representa uma função de ajuste entre a variável resposta e a explicativa, já a linha vermelha representa uma função de ajuste entre os valores previstos e a variável explicativa.
Obrigado pela resposta Letícia. Sobre a função de ajuste da linha vermelha, creio eu que seja o modelo, ou seja, você vai variando o valor da variável explicativa no modelo, mantendo as demais variáveis constantes, e gerando as probabilidades (me corrija se eu estiver enganado). Mas a função que gera a linha azul ainda não consegui entender.
Olá Prof! Sua aula foi excelente, porém me surgiu uma dúvida, em momento nenhum eu vi você verificando a relação linear das VI com o logit da VD, nesse caso ent vc assumiu que essa relação linear já existe? Estou com mts problemas em relação a isso com a minha bdd, pois até agr não encontrei nenhum exemplo em que essa nao linearidade é tratada, e eu tb não estou sabendo em que momento fzr isso... Eu faço isso no final qnd to avaliando o diagnóstico do modelo? Ou antes pra evitar que essa relaçao deixe meu modelo tendencioso? (curiosamente, essas variaveis que apresentaram relaçao nao linear no meu teste de Box-Tidwell sao as mesmas que tem p significativo no meu modelo 1 com tds as variáveis). Tenho a msm duvida para o teste da multicolinearidade e dos residuos, pq fzr no final?
@@catharinaguimaraes9615 Essas avaliações são realizadas após o ajuste do modelo para que, ao identificar eventuais problemas, seja possível corrigi-los de forma adequada na modelagem final.
O que fazemos quando o a função bom gera como resposta ‘ algoritmo não convergiu’ ?
Veja se aumentar o número de iterações ajuda. Use dentro da função glm o argumento maxit = 100.
Não entendi pq eliminou a variável "Cabin" e deixou a variável "Fare". As cabines me parecem influenciar dado que dependendo da localização desta, a morte era certa. Já o valor da tarifa acredito ser insignificante. Poderia me explicar pfvr?
As cabines são apenas códigos, como C85, C123... Teríamos muitas categorias que não seriam fáceis de entender. Só se tivéssemos um mapa do navio para talvez descobrir o andar de cada cabine ou algo do tipo. Neste caso, é melhor usar a classe econômica do que cabine. A tarifa talvez ajude a saber se aquele passageiro estaria em uma cabine superior ou inferior.
Bom dia Professora, muito obrigada pelas aulas.
Tenho uma pergunta, quando há um desequilíbrio das amostras, por exemplo, na minha variável resposta tenho 260 (sobrevive) e 60 (morre), é necessário realizar algum tipo de ajuste?
Obrigada!
Oi, Juliana! Depende da sua modelagem. Você está usando a regressão logística para um modelo de predição?
Oi Letícia, Sim, para a predição de fatores de risco de recidiva de uma doença. @
Muito obrigado, ajustei um modelo logístico seguindo suas dicas, meu modelo completo tem 21 variáveis, e após stepwise fiquei com 10 variáveis. No entanto, tenho as seguintes dúvidas:
1) A razão de verossimilhança (LRT) na comparação do modelo completo e o restrito, o resultado foi não significativo, e mesmo se desse significativo, eu optaria pelo modelo menor pela princípio da parcimônia, então, esse teste LRT não tem utilidade nenhuma? Porque, dando significativo ou não, sempre o modelo restrito será menor em relação ao modelo completo.
2) Com relação ao poder preditivo do modelo, minha acurácia, especificidade e sensibilidade foram de: 0,6572 ; 0,6410 e 0,6475. Sei que a acurácia tem haver com a precisão, agora, a especificidade e sensibilidade ainda não entendi bem a interpretação, se puder explicar agradeço.
Esses meus resultados estão bons Letícia? Até qual valor o modelo poder ser considerado bom, ruim ou regular?
1) O teste de Razão de Verossimilhança testa a significância conjunta das variáveis explicativas. Usualmente é utilizado para verificar se o modelo reduzido é mais ade- quado em relação ao completo. Se não for o caso, utiliza-se o completo. A parcimônia entra quando “não há diferença” entre o completo e adequado.
2) Vou encaminhar este vídeo th-cam.com/video/jLxW_vN8wn8/w-d-xo.html a partir de 10:42. Dê uma olhada e se você não entender, me escreva novamente.
Com esses valores encontrados, seu modelo não está tão bom. 😞
Engraçado... no meu conjunto de dados test a variável resposta não sumiu
Letícia, boa noite! Quando gero os odds ratios, IC e valor de p, que aparecem na tabela do modelo (tab_model), isto é um teste? Tem algum nome específico? Ao apresentá-la em um artigo, como posso descrevê-la? Muito obrigada!
Oi, Juliana! A razão de chances é um valor calculado a partir dos coeficientes encontrados. Veja a aula teórica que lá eu explico em detalhes. Você pode observar que o valor-p dos coeficientes é o mesmo da razão de chances. É o valor-p que vai indicar se aquela variável é significativa ou não para o modelo. Nos artigos a gente apresenta a razão de chances acompanhada do intervalo de confiança e valor-p. Pode observar também que se o intervalo de confiança contém o valor 1, o valor-p é maior que 0,05 (não significativo). Busque por artigos científicos que tenham usando a regressão logística e você verá melhor como a razão de chances é apresentada.
@ muito obrigada! Vc salva vidas!!!!
Tenho 500 dados para ajustar a regressão logística múltipla, qual o melhor percentual para treino e teste? Eu deixo 80% desses dados pra treino e 20% pra teste ? Ou deixo 75% pra treino e 25% pra teste? E depois de testar o modelo, eu posso retornar esses dados separados pra teste, para meu conjunto de dados total? Digamos que pra treino tenho 400 dados, e pra teste 100 dados, então, esses 100 podem ser juntados aos 400? Voltando minha amostra inicial de 500 observações?
As porcentagens você quem escolhe. E qual o objetivo de retornar esses dados? Seu modelo já está pronto.
@ Obrigado 👍🏻
Ok, ajustei o modelo, tá tudo as mil maravilhas, acurácia, precisão, etc… E agora? Como faço pra saber na prática se um novo dado, faz parte dos que sobreviveram? Ou seja, como jogo esse dado novo no modelo ajustado? Digamos que seja construído um novo Titanic com as mesmas características, mesmo tudo, daí, embarca no navio: Uma mulher de 50 anos, ela prefere a Pclass 2, e tem 3 irmãos a bordo. Pronto, qual a probabilidade e chances dessa mulher sobreviver ao naufrágio do navio ? (vamos supor que o navio vai afundar novamente).
Basta você usar a função predict. Assim como fez no conjunto de teste. Só que no teste você sabia o desfecho real para poder avaliar se o modelo acertou ou errou, com um novo dado, você apenas saberá a probabilidade e a decisão será tomada com base no ponto de corte.
@ Obrigado 👍🏻
tentei instalar o dlookr mas aparece que tem virus e não instala.
Ele não está mais no CRAN, precisa ser instalado manualmente baixando o .zip dele.
A Variavel Pclass esta com ponderação arbitraria , se voce criar dummies para essa variavel ela nao vai ser mais significativa para o teste
Não entendi o que você quis dizer.
eu fiz com essa linha de progrmação aqui:
training.samples
Porque os dados que eu utilizei já não tinham a variável resposta. Ela vinha separada. No seu caso não. Entendeu?