Tenho te acompanhando e sempre estou aprendo alguma coisa nova. Nesse vídeo mesmo tem uma coisa simples que é a parte de vincular a previsão ao dataset, mas ninguém mostra como fazer, para quem está começando é bem legal esses detalhes. Parabéns você está no caminha certa, rumo aos 1 milhões de brasileiros DS.
Muito bom !!!!! Final do video foi fantástico porque deixa a pessoa querendo saber como será o aprimoramento do modelo rsrsrs....... Parabéns pelo trabalho.
Olá, eu fiz um modelo de regressão logística e realizei uma nova separação nos dados de treino -> X_traino, x_test, y_traino, y_test... No meu note book tive uma accuracy de 0.85; Logo usei os dados de test do titanic disponibilizado lá no Kaggle. Mas na competição o meu score ficou terrível, o resultado = 0.62200. Minha pergunta é, o meu modelo esta overfit para os meus dados de traino??? Sou novo na área, realizei o modelo acompanhando uma video aula. E também achei estranho usar classification_report para um problema de regressão. Já agradeço a atenção valeu... OBs, Teus videos estão me ajudando muito obrigado.
Mais um excelente vídeo, estou aprendendo mais aqui do que com alguns cursos / artigos que encontrei pela internet. Uma dúvida, qual tema do jupyter você está usando? Achei bem bacana
Obrigado, Rodrigo, fico contente :). Eu uso o Jupyter Lab (jupyterlab.readthedocs.io/en/stable/). O tema é o Dark padrão. Só clicar no menu "Settings", primeira opção "Jupyter Lab Themes", e selecionar o Dark.
Excelente vídeo, mas gerou uma dúvida: Você já tinha os datasets de testes e treinos separadamente disponíveis. Mas e quando você nãos os tiver? E quando você tiver apenas um imenso dataset com as informações que você quer analisar? Como separar esse dataset entre treinos e testes? Abraços.
Durante a maior parte do tutorial usamos modelos baseados em árvores de decisão, então escolhi usar um valor que estivesse fora do range original para identificar o valor nulo na hora do split. Não gosto da ideia de dropar os NANs porque em geral eles contêm alguma informação ou você acaba perdendo muitas linhas. O método de imputação, seja com média, criando uma coluna indicadora (como no caso da cabine no último vídeo), dropando, é uma coisa que muda de acordo com os dados. Existem muitas opções possíveis para modelar esses dados de outra maneira, mas acabei não explorando por causa do tempo. Esse método do -1 pode não ser o melhor para esses dados, principalmente quando colocamos um modelo linear, então vale a pena testar outras maneiras.
Excelente vídeo, mas tive um probleminha aqui... estou utilizando o jupyter notebook e apareceu o seguinte quando rodei a linha (!head -n10 primeiro_modelo.csv) apareceu o seguinte erro ('head' nÆo ‚ reconhecido como um comando interno ou externo, um programa oper vel ou um arquivo em lotes.), por isso não consegui concluir esse exercício, o que fazer nesse caso?
Nao vou mentir que so fiz uma receita de bolo. Eu ja mexi com pandas pq eu tive que resolver uma parada uma vez de uns XML pra um sistema, criei um script pra me ajudar a filtrar esses dados e escolhi python e pandas pra isso... Mas nao entendi nada que envolva machine learning esse sckt learning ai... Nao sei se esse era o intuito do video, mas so dando o feedback mesmo.
Alguém pode me ajudar? Cheguei até o min: 12:30, porém, na hora de rodar o "pd.Series(p, index=test['PassengerId'])" apareceu o seguinte erro: ValueError Traceback (most recent call last) in () ----> 1 pd.Series(p, index=test['PassengerId']) /usr/local/lib/python3.6/dist-packages/pandas/core/series.py in __init__(self, data, index, dtype, name, copy, fastpath) 312 if len(index) != len(data): 313 raise ValueError( --> 314 f"Length of passed values is {len(data)}, " 315 f"index implies {len(index)}." 316 ) ValueError: Length of passed values is 891, index implies 418. **Não consegui achar nada nem no stackoverflow...
Olá Mario, estou revisando suas aula e o que você acha de abordagem para criar o sexo binario? sex_binar, categ = train.Sex.factorize() train['Sex Binario'] = sex_binar
Oi Rafael, é válida. Eu prefiro usar um "mapa" porque normalmente precisamos criar o mapeamento de categoria para número (seja binário ou maior) usando apenas os dados de treino, e depois usar esse mapa para transformar tanto treino quanto teste/validação. Nesse caso do factorize, lembre-se de fazer apenas no treino e depois usar o segundo resultado (categ) para fazer seu mapeamento do teste/validação. Em casos com mais categorias, recomendo usar uma função do scikit-learn, ou bibliotecas específicas para lidar com transformação de categóricas, para ganhar tempo e evitar bugs.
Travei, não consigo usar o scikit-learn de jeito nenhum. mas quando coloco "from sklearn.ensemble import RandomForest " nem reconhece. tem que mudar o environment? o que tenho q fazer? Tô usando o jupyter notebook
Oi. Parei logo no início a mensagem de erro é "NameError: name 'train' is not defined" Obs tentativas que já fiz: eu tenho instalado o panda ; usei clear all outputs, copiei o código da aula no github. Obrigada.
Ja faz tempo a sua pergunta, mas o meu tava exatemente assim, o problema era pq eu não tava rodando o código, tava apenas inserindo outra célula, vc ta rodando o código? Vc precisa da o start nele pra ficar salvo, ai depois continua normalmente
Erro com a linha de código: test["Sexo_binario"] = test['Sex'].map(sex_binario) KeyError "Sex" Sendo que esta funciona: train["Sexo_binario"] = train['Sex'].map(sex_binario) O que fazer???
Tenho te acompanhando e sempre estou aprendo alguma coisa nova. Nesse vídeo mesmo tem uma coisa simples que é a parte de vincular a previsão ao dataset, mas ninguém mostra como fazer, para quem está começando é bem legal esses detalhes. Parabéns você está no caminha certa, rumo aos 1 milhões de brasileiros DS.
Muito boa explicação, já estava quase desistindo de aprender quando encontrei seus videos... salvando meu projeto. Obrigada!
Muito bom sua didatica, parabens
Muito bom !!!!! Final do video foi fantástico porque deixa a pessoa querendo saber como será o aprimoramento do modelo rsrsrs....... Parabéns pelo trabalho.
Valeu kkkk não foi a intenção, mas aconteceu
Tenho começado meu projeto prático de TCC e tem me ajudado bastante! com certeza comprarei seu curso!
Muito boa a explicação, simples e direto ao que interessa.
Acompanhando essa playlist e estou gostando muito. Bastante didático. Vai me ajudar bastante no meu TCC.
Parabéns pela série de vídeos, explicação clara, fácil de entender!
Mais um video excelente como os demais produzidos @Mario Filho.....show de bola
Cada dia aprendendo mais contigo, Mario!
muito bom, Mario!
Ótima explicação.
Esperando um vídeo seu falando sobre Stacking/ Blending e Ensembling. De a..Z
Olá, eu fiz um modelo de regressão logística e realizei uma nova separação nos dados de treino -> X_traino, x_test, y_traino, y_test...
No meu note book tive uma accuracy de 0.85;
Logo usei os dados de test do titanic disponibilizado lá no Kaggle.
Mas na competição o meu score ficou terrível, o resultado = 0.62200.
Minha pergunta é, o meu modelo esta overfit para os meus dados de traino???
Sou novo na área, realizei o modelo acompanhando uma video aula. E também achei estranho usar classification_report para um problema de regressão.
Já agradeço a atenção valeu... OBs, Teus videos estão me ajudando muito obrigado.
Oi tudo bem? Eu posso começar fazer esses competions antes de aprender e assistir as aulas de machine learning?
Mais um excelente vídeo, estou aprendendo mais aqui do que com alguns cursos / artigos que encontrei pela internet. Uma dúvida, qual tema do jupyter você está usando? Achei bem bacana
Obrigado, Rodrigo, fico contente :). Eu uso o Jupyter Lab (jupyterlab.readthedocs.io/en/stable/). O tema é o Dark padrão. Só clicar no menu "Settings", primeira opção "Jupyter Lab Themes", e selecionar o Dark.
Excelente vídeo, mas gerou uma dúvida: Você já tinha os datasets de testes e treinos separadamente disponíveis. Mas e quando você nãos os tiver? E quando você tiver apenas um imenso dataset com as informações que você quer analisar? Como separar esse dataset entre treinos e testes?
Abraços.
Oi Wolf, falo sobre isso nos vídeos #3 e #4. Faz parte do processo de validação.
Abs.
@@MarioFilhoML Voce tem uma paciência com esse tipo de pergunta... Parabéns!!!
@@JefersonJanuario Pra que essa arrogância? Nem todos sabem de tudo, tem gente que esta aprendendo.
Saudações Mario, por que não dropou os dados NAN ou substitui pela média?
Durante a maior parte do tutorial usamos modelos baseados em árvores de decisão, então escolhi usar um valor que estivesse fora do range original para identificar o valor nulo na hora do split.
Não gosto da ideia de dropar os NANs porque em geral eles contêm alguma informação ou você acaba perdendo muitas linhas.
O método de imputação, seja com média, criando uma coluna indicadora (como no caso da cabine no último vídeo), dropando, é uma coisa que muda de acordo com os dados.
Existem muitas opções possíveis para modelar esses dados de outra maneira, mas acabei não explorando por causa do tempo. Esse método do -1 pode não ser o melhor para esses dados, principalmente quando colocamos um modelo linear, então vale a pena testar outras maneiras.
Tive um problema na última linha de código... !head n-10 primeiro_modelo.csv
O Jupyter não identificou o !head
Excelente vídeo, mas tive um probleminha aqui... estou utilizando o jupyter notebook e apareceu o seguinte quando rodei a linha (!head -n10 primeiro_modelo.csv) apareceu o seguinte erro ('head' nÆo ‚ reconhecido como um comando interno
ou externo, um programa oper vel ou um arquivo em lotes.), por isso não consegui concluir esse exercício, o que fazer nesse caso?
estou com o msm problema aq
esse é um comando Linux, não irá funcionar em um Windows. QUando se usa o ! na frente, vc está usando comando do sistema operacional
@@faculdados1146 Como proceder nestes casos?
qual seria o comando equivalente no Windows?
Como Resolver isso???
@@jpedros3211 eu usei aqui e deu certo:
%alias head powershell -command "& {Get-Content %s -Head 10}"
%head primeiro_modelo.csv
Nao vou mentir que so fiz uma receita de bolo.
Eu ja mexi com pandas pq eu tive que resolver uma parada uma vez de uns XML pra um sistema, criei um script pra me ajudar a filtrar esses dados e escolhi python e pandas pra isso...
Mas nao entendi nada que envolva machine learning esse sckt learning ai...
Nao sei se esse era o intuito do video, mas so dando o feedback mesmo.
Na hora de enviar o modelo para o kaggle eu não consigo, como proceder? Estou usando o colab
Ele cria uma csv no próprio colab, fica no lado esquerdo. Aí é só baixar
Alguém pode me ajudar? Cheguei até o min: 12:30, porém, na hora de rodar o "pd.Series(p, index=test['PassengerId'])" apareceu o seguinte erro:
ValueError Traceback (most recent call last)
in ()
----> 1 pd.Series(p, index=test['PassengerId'])
/usr/local/lib/python3.6/dist-packages/pandas/core/series.py in __init__(self, data, index, dtype, name, copy, fastpath)
312 if len(index) != len(data):
313 raise ValueError(
--> 314 f"Length of passed values is {len(data)}, "
315 f"index implies {len(index)}."
316 )
ValueError: Length of passed values is 891, index implies 418.
**Não consegui achar nada nem no stackoverflow...
você está usando o p com o dados de treino e o index om os dados de teste.
Olá Mario, estou revisando suas aula e o que você acha de abordagem para criar o sexo binario?
sex_binar, categ = train.Sex.factorize()
train['Sex Binario'] = sex_binar
Oi Rafael, é válida. Eu prefiro usar um "mapa" porque normalmente precisamos criar o mapeamento de categoria para número (seja binário ou maior) usando apenas os dados de treino, e depois usar esse mapa para transformar tanto treino quanto teste/validação.
Nesse caso do factorize, lembre-se de fazer apenas no treino e depois usar o segundo resultado (categ) para fazer seu mapeamento do teste/validação.
Em casos com mais categorias, recomendo usar uma função do scikit-learn, ou bibliotecas específicas para lidar com transformação de categóricas, para ganhar tempo e evitar bugs.
@@MarioFilhoML Sim Mario, depois que eu postei essa mensagem e fui fazer o teste que vi a necessidade de fazer no map.
Travei, não consigo usar o scikit-learn de jeito nenhum. mas quando coloco "from sklearn.ensemble import RandomForest " nem reconhece. tem que mudar o environment? o que tenho q fazer?
Tô usando o jupyter notebook
Installa pelo promt de comando do seu pc, escreve pip install sklearn
Eu jurei que era o Tim Willits
meu Jupyter não reconhece !head
Oi. Parei logo no início a mensagem de erro é "NameError: name 'train' is not defined"
Obs tentativas que já fiz: eu tenho instalado o panda ; usei clear all outputs, copiei o código da aula no github.
Obrigada.
Ja faz tempo a sua pergunta, mas o meu tava exatemente assim, o problema era pq eu não tava rodando o código, tava apenas inserindo outra célula, vc ta rodando o código? Vc precisa da o start nele pra ficar salvo, ai depois continua normalmente
@@cezarp.l.p3501 Estou com o mesmo problema e nao consigo executar no Jupyter e no Collab. Alguem pode me ajudar?
Estou com o mesmo problema e nao consigo executar no Jupyter e no Collab. Conseguiu resolver ?
Estou tendo problema de file not found, alguma solução?
consegui solucionar porem nao consigo adicionar a variavel Sex_binario
o meu da o seguinte erro:
head' n�o � reconhecido como um comando interno
ou externo, um programa oper�vel ou um arquivo em lotes.
Vi este comentário que me ajudou a resolver também
%alias head powershell -command "& {Get-Content %s -Head 10}"
%head primeiro_modelo.csv
Amigo por favor, treine sua pronuncia de machine learning.
MA
Chi
Ne
Le
Ar
Ning
Erro com a linha de código:
test["Sexo_binario"] = test['Sex'].map(sex_binario)
KeyError "Sex"
Sendo que esta funciona:
train["Sexo_binario"] = train['Sex'].map(sex_binario)
O que fazer???