Neste vídeo vemos uma aplicação do algoritmo random forest em problemas de classificação e regressão. Ajustamos os hiperparâmetros e avaliamos o desempenho dos modelos.
Excelente aula. Uma dúvida: você realizou a validação cruzada e conseguiu os "melhores" hiperparametros de mtry e ntree, então criou o modelo RF. Por que você não utilizou o RF na parte de Predição, mas sim o rfFit? Tem que ser utilizado o rfFit? Pergunto pois estou testando o Random Forest com um outro dataset meu e quando uso o modelo RF (utilizando os hiperparametros da validação cruzada), obtenho melhores resultados do quê utilizando o rfFit.
Oi letícia! Primeiramente, parabéns pelo video. Sua didática é excelente. Mas fiquei curioso com XGBoost. E onde eu vejo não fica tão claro como ficou nesse video, quado buscava sobre Random Forest. Poderia fazer um video? Agradeceria demais! Obrigado!!!!!!
2 ปีที่แล้ว
Muito obrigada! :) Está na lista de vídeos para serem preparados. ;)
Olá, Letícia! Primeiramente agradeço por ter disponibilizado esse conteúdo riquíssimo, me ajudou a entender bastante o algoritmo, meus parabéns! Gostaria de saber se é possível identificar quais variáveis correspondem às quantidades de vezes utilizadas na construção das árvores, obtidas pela função varUsed?
ปีที่แล้ว +1
Oi, Rafaela, as quantidades são apresentadas pela ordem das variáveis no banco de dados. Por exemplo, se aparecer: 156 98 255 254, significa que a variável explicativa da primeira coluna foi usada 156 vezes, da segunda coluna 98 vezes e assim por diante.
Oi Letícia! Primeiramente, parabéns pelo vídeo e pela didática incrível! Muito obrigada por disponibilizar! Esse vídeo de comparação dos modelos que vc cita no finalzinho, também está disponível? Obrigada!!
2 ปีที่แล้ว
Oi, Laura, veja os vídeos aqui: th-cam.com/play/PLDoqBsM6cBJbHnTpz9T1itfHaxQdhx7b1.html
Os conteúdos do canal tem me ajudado muito, obrigada! Letícia, sobre o Random Forest, tem alguma função que apresenta os coeficientes das variáveis para montar o modelo? Como a função summary ().
2 ปีที่แล้ว +2
Que bom, Adriana! ❤️ Infelizmente o algoritmo de random forest não gera um modelo explícito. O que você extrai de interessante são as importâncias das variáveis. Modelos explícitos são comuns com técnicas estatísticas clássicas, como a regressão logística e linear.
Só uma dúvida! Eu vi que no seu site, na parte do Random forest têm dois bancos de dados do titanic. Uma para treinamento e outro para testes. Mas eu vi que na regressão linaer, se eu não me engano, um pacote que faz a divisão? Ou eu não entendi? Então, eu preciso alimentar esses bancos? 70% e 30%, por exemplo? e carregar os dois?
11 หลายเดือนก่อน +1
O banco do titanic já estava dividido em treino e teste. Ele foi coletado do pacote titanic do R. Mas quando você não tem seu conjunto original dividido dessa forma, normalmente destinamos 70% para treinamento e 30% para teste.
Saberia informar como sao tratados os dados desbalanceados em ML
6 หลายเดือนก่อน
Você pode lidar de diversas formas. Uma delas é aplicar alguma técnica, como oversampling na classe minoritária ou undersampling na majoritária. Existe a técnica de SMOTE que também é bem famosa. Outra abordagem é ajustar o ponto de corte da probabilidade. Lembrando que as técnicas de balanceamento são aplicadas apenas no conjunto de treinamento.
O que significa a função set.seed ? Porque usou o número 123? É obrigatório usar essa função?
ปีที่แล้ว
O set.seed é para garantir a reprodutibilidade do código. Normalmente usamos quando há alguma etapa que envolve sorteio no código. Se não definirmos está semente, o sorteio feito no meu computador será diferente do feito no seu. O número 123 foi o que escolhi, mas poderia ser qualquer número. Porém, para obter resultados iguais ao do vídeo, você também deve usar o 123.
ปีที่แล้ว
Veja mais sobre isto aqui: pt.stackoverflow.com/questions/372347/uso-do-seed-no-r
Voce me salvou em um projeto, sua explicacao foi 100% perfeita, muito obrigado e nao pare com os videos por favor
Muito obrigada! ❤️
Obrigado pelo video! Está me ajudando muito! Grande abraço!
Muito obrigada pelo feedback! ❤️
Excelente aula. Uma dúvida: você realizou a validação cruzada e conseguiu os "melhores" hiperparametros de mtry e ntree, então criou o modelo RF. Por que você não utilizou o RF na parte de Predição, mas sim o rfFit? Tem que ser utilizado o rfFit? Pergunto pois estou testando o Random Forest com um outro dataset meu e quando uso o modelo RF (utilizando os hiperparametros da validação cruzada), obtenho melhores resultados do quê utilizando o rfFit.
Oi letícia! Primeiramente, parabéns pelo video. Sua didática é excelente. Mas fiquei curioso com XGBoost. E onde eu vejo não fica tão claro como ficou nesse video, quado buscava sobre Random Forest. Poderia fazer um video? Agradeceria demais! Obrigado!!!!!!
Muito obrigada! :) Está na lista de vídeos para serem preparados. ;)
Olá, Letícia! Primeiramente agradeço por ter disponibilizado esse conteúdo riquíssimo, me ajudou a entender bastante o algoritmo, meus parabéns! Gostaria de saber se é possível identificar quais variáveis correspondem às quantidades de vezes utilizadas na construção das árvores, obtidas pela função varUsed?
Oi, Rafaela, as quantidades são apresentadas pela ordem das variáveis no banco de dados. Por exemplo, se aparecer: 156 98 255 254, significa que a variável explicativa da primeira coluna foi usada 156 vezes, da segunda coluna 98 vezes e assim por diante.
@ Ah, excelente! Muitíssimo obrigada
Oi Letícia! Primeiramente, parabéns pelo vídeo e pela didática incrível! Muito obrigada por disponibilizar!
Esse vídeo de comparação dos modelos que vc cita no finalzinho, também está disponível?
Obrigada!!
Oi, Laura, veja os vídeos aqui: th-cam.com/play/PLDoqBsM6cBJbHnTpz9T1itfHaxQdhx7b1.html
Muito obrigada pelo feedback! ❤️
Os conteúdos do canal tem me ajudado muito, obrigada!
Letícia, sobre o Random Forest, tem alguma função que apresenta os coeficientes das variáveis para montar o modelo? Como a função summary ().
Que bom, Adriana! ❤️ Infelizmente o algoritmo de random forest não gera um modelo explícito. O que você extrai de interessante são as importâncias das variáveis. Modelos explícitos são comuns com técnicas estatísticas clássicas, como a regressão logística e linear.
@ Obrigada pelo esclarecimento! :)
Olá! Muito obrigada pelo conteúdo. Você disponibilizou o código em algum lugar? Em algumas linhas não é possível ler por inteiro.
Você encontra os scripts aqui: leticiaraposo.netlify.app/courses/analise-inteligente/
Olá! A sua explicação é muito boa! Por acaso você teria o código para compartilhar? Muito obrigado!
Veja no meu site leticiaraposo.netlify.app em Cursos -> Análise Inteligente de Dados.
Só uma dúvida! Eu vi que no seu site, na parte do Random forest têm dois bancos de dados do titanic. Uma para treinamento e outro para testes. Mas eu vi que na regressão linaer, se eu não me engano, um pacote que faz a divisão? Ou eu não entendi? Então, eu preciso alimentar esses bancos? 70% e 30%, por exemplo? e carregar os dois?
O banco do titanic já estava dividido em treino e teste. Ele foi coletado do pacote titanic do R. Mas quando você não tem seu conjunto original dividido dessa forma, normalmente destinamos 70% para treinamento e 30% para teste.
Saberia informar como sao tratados os dados desbalanceados em ML
Você pode lidar de diversas formas. Uma delas é aplicar alguma técnica, como oversampling na classe minoritária ou undersampling na majoritária. Existe a técnica de SMOTE que também é bem famosa. Outra abordagem é ajustar o ponto de corte da probabilidade. Lembrando que as técnicas de balanceamento são aplicadas apenas no conjunto de treinamento.
O que significa a função set.seed ? Porque usou o número 123? É obrigatório usar essa função?
O set.seed é para garantir a reprodutibilidade do código. Normalmente usamos quando há alguma etapa que envolve sorteio no código. Se não definirmos está semente, o sorteio feito no meu computador será diferente do feito no seu. O número 123 foi o que escolhi, mas poderia ser qualquer número. Porém, para obter resultados iguais ao do vídeo, você também deve usar o 123.
Veja mais sobre isto aqui: pt.stackoverflow.com/questions/372347/uso-do-seed-no-r
Boa aula. Poderia disponibilizar o código?
Todos os códigos estão no meu site leticiaraposo.netlify.app, na aba Cursos e na opção Análise Inteligente de Dados.
@ muito obrigado, suas aulas estão me ajudando bastante.