Мне всегда интересно продолжение. Ваши уроки помогают решить некоторые мои задачки по парсенгу. Вот и сейчас я смог применить ваш пример в своем коде. Спасибо за огромный труд!!!
Благодарю, очень хороший ролик. Много твоих видео помогли мне в работе с написанием кода на python. Крепкого здоровья и ждем как всегда новых роликов уважаемый!
идеи для видео 1) виды блокировок вас сервером при парсинге 2) как парсить на домашнем пк, чтобы не быть забаненым? 3) как бюджетно парсить с сервера? как выбрать сервер, позволяющий парсить (конторы которых парсят будут жаловаться) 4) где взять халявные прокси и как этим пользоваться
На ютубе есть канал конторы, которая зарабатывает исключительно на парсинге. Они говорят, что если нужно качество и стабильность результата, то всегда обратятся к ним, а не левому фрилансеру, который не знает как использовать прокси и выделенный сервер.
Вместо того чтобы искать товары и затем руками выставлять фильтры, можно использовать Selenium, чтобы автоматически щёлкать на нужные фильтры, как это делает обычный пользователь Для нахождения нужных элементов фильтра можно использовать соответствующий XPath, class или id элемента, чтобы Selenium мог их найти
какой именно тип парсинга? Не очень понятно, что вы имеете ввиду. Если забирать данные о первых 10 товарах из выдачи озон? То там все просто - это нужно сейлерам ( продавцам ), что бы понимать есть ли в выдаче их товары, или о том, какие товары в топе выдачи и с какой ценной, или ориентироваться на их цену, выставляя свою и т.д.
Для product_name можно попробовать использовать метод get_text(strip=True). Для параметра сортировки можно использовать либу urllib и с помощью нее сразу передавать название товара и порядок сортировки
Недавно смотрел видео где схожую задачу на мегамаркете решали через реверс апи запросов, то есть скрипт опирался на api, почему делается именно через GUI скрипты?
Первое: вам надо добавить в пакеты setuptools. Ну и заодно добавить его в команду пип инсталл начиная с python 3.12 distutils удалили из стандартной библиотеки и у пользователей будет вылетать ошибка Module Not Found Error No module named distutils
Четвертое: вы весь проект делаете в venv. А пользователям про это ничего не сказали. Там всего 2 команды для этого, но некоторые могут запутаться. Пятое, оно же последнее: вы бы в конце показали пользователям, как убрать появление браузера и как перевести его в полностью невидимый режим (headless). Окно браузера с самодвигающейся мышкой - для тестов очень даже неплохо и часто нужно. Но для реальной работы - скрипт должен в фоне там шуршать незаметно, а пользователь сидит за компом и занимается своими делами. А в этом варианте пользователь будет сидеть и грустно смотреть на занятый скриптом комп. Смысл ему от такой автоматизации? Но даже несмотря на всё вышеперечисленное - видео, повторюсь, полезное. Многим новичкам и не только - зайдет на ура. И мне зашло ) Спасибо. Жду новых видео про парсинг.
каждый раз когда слышу средствАми"", кажеться, чсто сейчас будут говорить про смену финансового номера и заблокированные карты))))) А так хорошее видео))
я бы предложил искать толькл через xpath локаторы. например лучше искать ссылки не просто через указание клаасса в аттрибутах, а еще и передать, что это должен быть тег "а". избавит от лишних данных и мусора
У меня уже пол года - год как не работает undetected_chromedriver. Выдает ошибку, у всех все впорядке с ним? Без него не могу запустить хром со своим профилем и расширениями, что создает проблему при парсинге. 1) Подскажите у всех ли работает эта библиотека? 2) может есть другой способ запустить хром драйвер чтобы открывался хром с моим профилем и установленными активными расширениями хром
Не представляешь как ты вовремя. У меня через пару дней будет тестовое задания для устройства на работу парсер для маркетплейсов. А тут ты с роликом. Я голову ломал как работать с динамично изменяющимися тегами и класами
Я совершенно ничего не понимаю в веб, объясните, почему используются полные версии страниц, а не их html? Можно ли с такой программой фоном работать, чтобы несколько скриптов одновременно работали?
не понял про полную версию страниц. есть несколько вариантов рендеринга информации на странице: client-side и server-side. в случае сервер сайд рендеринга страница подностью формируется и наполняется данными на стороне сервера и когда клиент делает запрос на страницу, то получает ее полностью, включая все данные. в случае клиенского рендеринга, на сервере формируется шаблон страницы с базовой структурой, после этого отправляется этот полу пустой шаблон и пачка джава скрипт файлов. когда юзер запрашивает страницу, то получает и шаблон и начинают выполняться скрипты по загрузке данных. если при парсинге делать только гет запрос на html, то в случае клиент сайд рендеринга получишь страницу без данных. для этого и используется селениум, который запускает отдельную версию браузера, чтобы тот все отрендерил и уже после рендера достал данные. фоном можно, зависит от ресурсов железа, на котором запускается скрипт. каждый инстанс браузера жрет допустим 300мб. вообще хз зачем я это пишу, когда любые вопросы можно задать чату жпт. больше не буду)
стесняюсь спросить ...а сколько времени понадобилось чтобы стянуть 10 товаров? Не меньше минуты... Минута! бро! на 10 карточек! а ресов селениум при этом жранул не хило так
наверно глупая проблема, но все же. пробую написать кое что с помощью selenium и chrome, но при запуске кода он ничего не делает, т.е. не открывается браузер, ничего. с настройкой selenium это вроде не связано, т.к. драйвер есть, путь до него указан верно и все остальное правильно. может кто знает в чем проблема, пробовал искать в инете, ничего не помогло
потому что работать в дальнейшем удобнее либо с json либо с xls файлом, в большинстве случаев данные идут дальше для вывода где-то в дашборде или анализе цен, например. Тут больше от задачи, можно и в ворд и картинкой
тоже столкнулся с такой ошибкой. Она возникает, потому что в Python 3.10 и выше данную библиотеку удалили из стандартных библиотек. Попробуй обновить или установить setuptools мне помогло.
Подобная регулярка разве не сработает? r"\s*" Или r"\b\[w+ !?.,]\b" с добавлением нужных символов. По факту должен найти слова с пробелом и остальными символами, от пробела до пробела
@@МишокЧинил я не совсем понимаю, на какой вопрос нужно дать ответ. Почему маркетплейсы так делают или почему нет смысла парсить 100 разных ценников на один и тот же товар?
аналитика продавца, судя по тому что тут требуется именно выда из поисковой строки, и первые десять, ценик нужен что бы сопаставить со своим, если такие товары у продавца есть.
Проблема такой реализации - тебя настигнет капча, неприменно. Я бы на твоем месте как минимум парсил каждый отдельный товар, загрузив страницу через requests. А вообще по красоте было бы действительно разобраться в том как формируется поисковая строка (можно ручками открыть сразу несколько результатов поиска и посмотреть что общего у этих запросовв ссылке)
Пару лет назад, когда начал интересоваться Пайтоном, начал писать парсер комментариев с озона для одной своей идейки, но пока писал необходимость отпала. Так и не дописал((
кстати не понял прикола, что многие парсеры маскируются под запросы с моб приложения. единственное что приходит на ум - там нет куки и проще авторизация
@@_test_test в 90% случаев там открытое API, т.е данные получаешь в JSON. Если не отдает данные, запускаешь frid'у, обходишь ssl pinning и получаешь желанный доступ к api
Тоже теряюсь в догадках. У меня одно объяснение, что парсить озон это просто как пример. Больше чем для курсовых работ студентам или для тестирования при приеме на работу я не нахожу в этом пользы.
Почему все программисты делают ударения не там, где нужно? Меня давно интересует этот вопрос. Они все говорят "стрОку", вместо "строкУ". А в этом видео автор пошел дальше. Вместо "удобной средЫ" у него "удобная срЕда"
потому что в браузерном апи, тебя блокнут по tls-fingerprint, и обычному фингерпринту. топовые парсеры озонов и прочих, работают с мобильным апи, но как писать такие парсеры, никто никогда не раскажет, ибо это и есть самый прибыльный хлеб разработчиков.
Боже. Я думал почему у меня завершался сам по себе скрипт на селениуме, когда я автоматизировал отработку проект. Работал в авг около 4 часов в худшем случае и падал, а автор говорит, что у него с ожиданием от селениума тоже падает. ХМ
озон, как и яндекс, а теперь как и вайлдериз - подконтрольные государству площадки и заработать там не удастся, т.к. где государство наложило свою руку - там будет деградация. Почему спустя годы, автор всё так и остался на уровне парсеров страниц в интернете? Где мотивирующие ролики по обходу блокировок, создание чего-то уникального....у вас же и так уже куча роликов про парсеры и боты вк...пора расти дальше, а не питаться постоянно молоком. дизлайк.
Не хочется токсичить но соглашусь, парсеры это не так то и уровень программирования, собирать инфу... Ну такое. Вот создать сервис какой то полезный, объяснить простыми словами, вот дело
Вы серьезно? я вам оставил развернутый комент про 5 ошибок в вашем скрипте и вы его сразу снесли? Вы ж сами просите - "помогите. исправьте. напишите в коментах"
@@PythonToday не, это нереально. я уже полчаса сижу пытаюсь это отправить - оно сразу моментально удаляется. я уже и цитаты кода максимально заменил и сократил - всё равно. Ну ил ладно. Странно. Под видео о коде нельзя писать код... Вот это они перегнули с защитой.
Нельзя так скачать библиотеку, запустить скрипт пойти попить чайку, а по приходу обнаружить: что взял все виды импотек, продал всю недвижку, и задонатил все бабки ВСУ и оформил заказ на прекурсы на свой домашний адрес? 😂
Подскажите, пожалуйста, а как это можно исправить? Писал парсер для сайта "зоозавр" такая же проблема была, что названия элементов часто менялись, чуть ли не каждый день
чей заработок? Если автора, - то в выполнении заказа по написанию скрипта для парсинга. ЕСли заказчика, то скорее всего он продавец, и ему нужно вытягивать информацию для каких-то своих целей. В ручную он тратит на это кучу времени, проще автоматизировать. И да топовые и быстрые парсеры макретплейсов стоят дофига и пользуются достаточно большим спросом.
Мне всегда интересно продолжение. Ваши уроки помогают решить некоторые мои задачки по парсенгу. Вот и сейчас я смог применить ваш пример в своем коде. Спасибо за огромный труд!!!
Человечище, спасибо!! Очень ждал данную тематику! Спасибо что ты так здорово подаешь инфу!
Большое спасибо за поддержку!
Благодарю, очень хороший ролик. Много твоих видео помогли мне в работе с написанием кода на python. Крепкого здоровья и ждем как всегда новых роликов уважаемый!
Всегда с удовольствием смотрю твои ролики, очень интересно, а главное понятно объясняешь. Спасибо тебе за труд!
Большое спасибо за твой труд и что делишься своим опытом. Будь здоров!
Ждём продолжения. И успехов в делах!
вот прям недавно вспоминал про твои старые видосы про парсинг и тож думал про озон, а тут видос целый, спасибо!
Умный человек это делал. Мне до его навыков далеко... Благодарю за видео и за вашу работу!
Огромное спасибо сенсей, благодаря тебе научился парсить!
идеи для видео
1) виды блокировок вас сервером при парсинге
2) как парсить на домашнем пк, чтобы не быть забаненым?
3) как бюджетно парсить с сервера? как выбрать сервер, позволяющий парсить (конторы которых парсят будут жаловаться)
4) где взять халявные прокси и как этим пользоваться
На ютубе есть канал конторы, которая зарабатывает исключительно на парсинге. Они говорят, что если нужно качество и стабильность результата, то всегда обратятся к ним, а не левому фрилансеру, который не знает как использовать прокси и выделенный сервер.
Круто, жду продолжения!=))
Подскажи пожалуйста, почему сайт при проверке на бота не банит тебя и не подсовывает капчу? это из-за библиотеки undetected chromedriver?
Продолжайте, как раз нужная тема!
спасибо! тема конечно интересна! ждем продолжения!
благодарю за труд и что помогаешь в ознакомлении с питоном
Конечно ждем продолжения видео про Парсинг🤠
Очень интересное видео! Конечно же жду продолжение!))
Отличный урок👍🏻
Зачем вы используете селениум для озона, если у них есть api?
Ссылку на апи пожалуйста. Нашел только АПИ для селлеров.
Круто, очень интересно 👍
Вместо того чтобы искать товары и затем руками выставлять фильтры, можно использовать Selenium, чтобы автоматически щёлкать на нужные фильтры, как это делает обычный пользователь
Для нахождения нужных элементов фильтра можно использовать соответствующий XPath, class или id элемента, чтобы Selenium мог их найти
Хочу и жду продолжения!)
Как в тему это видео!! Как раз хотел решить задачу по парсингу отзывов с определенной карточки, у меня упорно через селениум не выходило)
Спасибо за интересное видео!
ждем продолжение)
Спасибо за интерес!
Спасибо очень полезно!
А зачем парить артикул из страницы, если его можно из url-товара гораздо проще достать?
Поздравляю , вы написали самый медленный парсер.
Можно написать на Delphi (или C++), с многопоточностью и прокси. Кому надо - тот додумается)
Как вариант развития, параллельно парсить несколько вкладок, чтобы снизить время работы
И улететь в бан по ip за частые запросы)
А для каких конкретных целей нужен данный тип парсинга?
Скидки искать на определённый товар. Можно отстук в телегу сделать, когда найдёт.
какой именно тип парсинга? Не очень понятно, что вы имеете ввиду.
Если забирать данные о первых 10 товарах из выдачи озон? То там все просто - это нужно сейлерам ( продавцам ), что бы понимать есть ли в выдаче их товары, или о том, какие товары в топе выдачи и с какой ценной, или ориентироваться на их цену, выставляя свою и т.д.
@@darktmdarkness6952 у продавцов ОЗОН в личном кабинете есть возможность проверять на какой позиции их товар
Для чего это может пригодиться?
Ага, вот и я посмотрел тоже и сижу такой
🗿
@@leitonk23 если тебе это не надо, то не значит, что никому не надо)
Для product_name можно попробовать использовать метод get_text(strip=True). Для параметра сортировки можно использовать либу urllib и с помощью нее сразу передавать название товара и порядок сортировки
Недавно смотрел видео где схожую задачу на мегамаркете решали через реверс апи запросов, то есть скрипт опирался на api, почему делается именно через GUI скрипты?
почему когда открываю файл с данными там просто скобочки
Ребята, спасибо за ваше видео. Очень интересное.
Есть пару замечаний, тем более, вы сами попросили - кто знает - помогайте, оставляйте коменты.
Первое: вам надо добавить в пакеты setuptools. Ну и заодно добавить его в команду пип инсталл
начиная с python 3.12 distutils удалили из стандартной библиотеки и у пользователей будет вылетать ошибка
Module Not Found Error No module named distutils
вобщем, я вам 3 пул реквеста добавил на гитхабе. тут постить код бесполезно. они сносят его за секунду.
Четвертое: вы весь проект делаете в venv. А пользователям про это ничего не сказали. Там всего 2 команды для этого, но некоторые могут запутаться.
Пятое, оно же последнее: вы бы в конце показали пользователям, как убрать появление браузера и как перевести его в полностью невидимый режим (headless). Окно браузера с самодвигающейся мышкой - для тестов очень даже неплохо и часто нужно. Но для реальной работы - скрипт должен в фоне там шуршать незаметно, а пользователь сидит за компом и занимается своими делами. А в этом варианте пользователь будет сидеть и грустно смотреть на занятый скриптом комп. Смысл ему от такой автоматизации?
Но даже несмотря на всё вышеперечисленное - видео, повторюсь, полезное. Многим новичкам и не только - зайдет на ура.
И мне зашло )
Спасибо. Жду новых видео про парсинг.
Автор начал использовать рефакторинг 👍👍👍👍
каждый раз когда слышу средствАми"", кажеться, чсто сейчас будут говорить про смену финансового номера и заблокированные карты))))) А так хорошее видео))
Рекомендую попросить налоговую, хорошее развлечение :) хотя у них есть API но стоит оно неадекватно
я бы предложил искать толькл через xpath локаторы. например лучше искать ссылки не просто через указание клаасса в аттрибутах, а еще и передать, что это должен быть тег "а". избавит от лишних данных и мусора
у меня такая ошибка при запуске TypeError: Binary Location Must be a String, видимо не видит где хром установлен
эту победил а вот эту не могу UnboundLocalError: cannot access local variable 'products_urls' where it is not associated with a value
У меня другой вопрос. Как питон может быть связано с пентестом?
Подскажите, пожалуйста, кому может понадобится этот парсер на пайтоне?
тому, кто готов за это платить
Очень хороший код
Лучше курс по анализу данных на степике за 3 рубля 😊
У меня уже пол года - год как не работает undetected_chromedriver. Выдает ошибку, у всех все впорядке с ним? Без него не могу запустить хром со своим профилем и расширениями, что создает проблему при парсинге. 1) Подскажите у всех ли работает эта библиотека? 2) может есть другой способ запустить хром драйвер чтобы открывался хром с моим профилем и установленными активными расширениями хром
у меня как то странно работает, запускаю 1 раз находит 10 ссылок, запускаю 2 раз находит 8 ссылок, 3 раз 12 ссылок и каждый раз по разному
Не представляешь как ты вовремя. У меня через пару дней будет тестовое задания для устройства на работу парсер для маркетплейсов. А тут ты с роликом. Я голову ломал как работать с динамично изменяющимися тегами и класами
нейросети просто существуют
Знаете нейросети которые решают такие задачи?)
Я просил Llama 3.1 написать парсер
Сделала, но косячно как-то
Пришлось в ютубе искать
И ваше видео как вовремя)
@@PythonToday ChatGPT не смог собрать отзывы)
Вот так всегда, пишешь проги и знаешь как это делается - нет клиентов, а тут у чела уже есть работа почти а он хз с какого края подойти...
Я совершенно ничего не понимаю в веб, объясните, почему используются полные версии страниц, а не их html? Можно ли с такой программой фоном работать, чтобы несколько скриптов одновременно работали?
не понял про полную версию страниц. есть несколько вариантов рендеринга информации на странице: client-side и server-side. в случае сервер сайд рендеринга страница подностью формируется и наполняется данными на стороне сервера и когда клиент делает запрос на страницу, то получает ее полностью, включая все данные. в случае клиенского рендеринга, на сервере формируется шаблон страницы с базовой структурой, после этого отправляется этот полу пустой шаблон и пачка джава скрипт файлов. когда юзер запрашивает страницу, то получает и шаблон и начинают выполняться скрипты по загрузке данных. если при парсинге делать только гет запрос на html, то в случае клиент сайд рендеринга получишь страницу без данных. для этого и используется селениум, который запускает отдельную версию браузера, чтобы тот все отрендерил и уже после рендера достал данные. фоном можно, зависит от ресурсов железа, на котором запускается скрипт. каждый инстанс браузера жрет допустим 300мб. вообще хз зачем я это пишу, когда любые вопросы можно задать чату жпт. больше не буду)
стесняюсь спросить ...а сколько времени понадобилось чтобы стянуть 10 товаров? Не меньше минуты... Минута! бро! на 10 карточек! а ресов селениум при этом жранул не хило так
Можете подсказать как можно сделать на vscode такой же терминал как у автора
У автора тоже vscode))
Ты же можешь любой терминал поставить и настроить его дефолтным
Скорее всего это кастомизированный zsh
Не проще api заюзать?
наверно глупая проблема, но все же. пробую написать кое что с помощью selenium и chrome, но при запуске кода он ничего не делает, т.е. не открывается браузер, ничего. с настройкой selenium это вроде не связано, т.к. драйвер есть, путь до него указан верно и все остальное правильно. может кто знает в чем проблема, пробовал искать в инете, ничего не помогло
Почему в json файл? А можно в обычный вордовский док. записать данные?
потому что работать в дальнейшем удобнее либо с json либо с xls файлом, в большинстве случаев данные идут дальше для вывода где-то в дашборде или анализе цен, например. Тут больше от задачи, можно и в ворд и картинкой
да хоть в мп3 лол
Прошу обновить плейлист по парсингу! По requests ещё более-менее, а вот по selenium очень сильно устарела информация.
Очень круто, спасибо! Асинхронная версия будет?
На коком языке написано приложение озон для андроида ? Кто знает?
а где ты получаешь заказы ?
какая платформа ?
ozon отдает json прямо в html странице, нужно просто указать куки и хедерсы. зачем для этого использовать драйвер?
можно по подробнее ?
Как устранить оишбку?
ModuleNotFoundError: No module named 'distutils'
тоже столкнулся с такой ошибкой. Она возникает, потому что в Python 3.10 и выше данную библиотеку удалили из стандартных библиотек. Попробуй обновить или установить setuptools мне помогло.
А установить её никак самостоятельно?
Она входит в setuptools, поэтому достаточно просто установить/обновить setuptools.
А есть парсер Яндекс маркета?
Скажи фразу с которой понятно что ты айтишник:
скрайпер перегрузил мой самый быстрый ноут.
Непонятно, в чем заработок?
Братан я за тебя
Подобная регулярка разве не сработает? r"\s*"
Или r"\b\[w+ !?.,]\b" с добавлением нужных символов. По факту должен найти слова с пробелом и остальными символами, от пробела до пробела
Я, честно, не понимаю, почему, при существовании такой удобной библиотеки, как Playwright, люди продолжают использовать Selenium.
Как минимум потому, что озон блокирует последний месяц Playwright, во всякой случае мои парсеры. Вы пробовали сами?
Я даже и не знал о такой библиотеке, селениум надежен и проверен временем 👍
Думал как раз пересмотреть свой код на playwright
Дружище, как я тебя понимаю.
Использовать до сих пор селениум, это быть позорником в it
Обойти подобные блокировки не составляет особого труда. Слава богу fingerprint с этим помогает
не совсем понимаю, какой смысл парсить озон(и другие маркетплейсы), если на один и тот же товар для нескольких аккаунтов цифры будут различаться?
это почему?
@@МишокЧинил я не совсем понимаю, на какой вопрос нужно дать ответ.
Почему маркетплейсы так делают или почему нет смысла парсить 100 разных ценников на один и тот же товар?
аналитика продавца, судя по тому что тут требуется именно выда из поисковой строки, и первые десять, ценик нужен что бы сопаставить со своим, если такие товары у продавца есть.
Привет, можешь помочь нам? Разработать автоподнятие на сайте Фарпост( доска объявлений). Как можно с вами связаться через соц. Сети?
Напишите мне, помогу
Проблема такой реализации - тебя настигнет капча, неприменно.
Я бы на твоем месте как минимум парсил каждый отдельный товар, загрузив страницу через requests. А вообще по красоте было бы действительно разобраться в том как формируется поисковая строка (можно ручками открыть сразу несколько результатов поиска и посмотреть что общего у этих запросовв ссылке)
У меня не работает Undetect_chromedriver, может из-за версии пайтона 3.12? P.S. За скрипт скроллинга отдельный респект.
Пару лет назад, когда начал интересоваться Пайтоном, начал писать парсер комментариев с озона для одной своей идейки, но пока писал необходимость отпала. Так и не дописал((
Как отзывы выттягивать?
Так же само.
@@СергейШульга-ю5ю Есть "так же", есть "то же самоЕ". А то, что вы все в одно смешали - это ужас
@@СергейШульга-ю5ю дай ссылку на свой github с кодом
@@СергейШульга-ю5юне получилось
Что такое парсинг?
Numpy произносится "нам-пай".
Чет медленно, а что можно использовать для более быстрого парсинга?
предполагаю - многопоточность
Друг, у тебя в описании написано "пупулярный"
все правильно. "популярный" - от "попа", "пупулярный" - от "пуп".
@@yagohush7414😂
А с приложения api не даёт?
Чекнул. Там apk, над поковырять, разобрать генерации заголовков
кстати не понял прикола, что многие парсеры маскируются под запросы с моб приложения. единственное что приходит на ум - там нет куки и проще авторизация
@@_test_test в 90% случаев там открытое API, т.е данные получаешь в JSON. Если не отдает данные, запускаешь frid'у, обходишь ssl pinning и получаешь желанный доступ к api
здесь RPA очень бы пригодился
Python знаю, как написать парсер - знаю, не знаю главного - нахрена? 😅 Хоть не в тему программирования, но как на этом можно заработать?
Вот мне тоже это интересно. Гуру программирования, подскажите, как вы зарабатываете на этом?
Тоже теряюсь в догадках. У меня одно объяснение, что парсить озон это просто как пример. Больше чем для курсовых работ студентам или для тестирования при приеме на работу я не нахожу в этом пользы.
Действительно, зачем это всё нужно? Если хочу что-то купить подешевле то есть фильтры, если продать то теги.
Например одни продавцы мониторят цены других продавцов, что бы вовремя скорректировать свои )
@@SeoLemma это можно штатными фильтрами делать
лайк если орнул с юзера "kali"
Последнее условие можно не писать. И так будет работать
После 2 ой минуты я устал ржать и ушел
Я конешно не знаю но как меня учили работать с селениумом ты все обворачивпешь в трай экзепт и в файнали пишишь драйвер клос
Может автор создаст дс серв кстати?
мне нужен такой же только для яндекс маркет
Почему все программисты делают ударения не там, где нужно? Меня давно интересует этот вопрос. Они все говорят "стрОку", вместо "строкУ". А в этом видео автор пошел дальше. Вместо "удобной средЫ" у него "удобная срЕда"
Комментарий под видео
Не пойму для чего вообще нужны парсеры, если на самом сайте существует поиск товаров и то, что нужно можно быстро найти?
Чтобы можно было создать таблицу с инфой по товарам, с чем дальше можно работать, формируя свое предложение
мне не хватило в начале контекста, почему не забрать данные по апи
потому что в браузерном апи, тебя блокнут по tls-fingerprint, и обычному фингерпринту.
топовые парсеры озонов и прочих, работают с мобильным апи, но как писать такие парсеры, никто никогда не раскажет, ибо это и есть самый прибыльный хлеб разработчиков.
@@darktmdarkness6952а в чем проблема? Вытащить из андроид приложения апи?
Зачем это все ? Когда есть гпт !
Боже. Я думал почему у меня завершался сам по себе скрипт на селениуме, когда я автоматизировал отработку проект. Работал в авг около 4 часов в худшем случае и падал, а автор говорит, что у него с ожиданием от селениума тоже падает. ХМ
Почему в видео, как заработать миллион, рекламируют курсы за 1т.р.? Хотя, о чем это я.. 😅
Диверсификация
Вместо print лучше используй logging
Разницы почти никакой, но это хороший тон, и показывает твой профессионализм
озон, как и яндекс, а теперь как и вайлдериз - подконтрольные государству площадки и заработать там не удастся, т.к. где государство наложило свою руку - там будет деградация. Почему спустя годы, автор всё так и остался на уровне парсеров страниц в интернете? Где мотивирующие ролики по обходу блокировок, создание чего-то уникального....у вас же и так уже куча роликов про парсеры и боты вк...пора расти дальше, а не питаться постоянно молоком. дизлайк.
Не хочется токсичить но соглашусь, парсеры это не так то и уровень программирования, собирать инфу... Ну такое. Вот создать сервис какой то полезный, объяснить простыми словами, вот дело
все изучите на курсе яндекса, но работу не найдете))
Вы серьезно? я вам оставил развернутый комент про 5 ошибок в вашем скрипте и вы его сразу снесли?
Вы ж сами просите - "помогите. исправьте. напишите в коментах"
Комменты не удаляю, у ютуба ведь свой фильтр. Видимо что-то не понравилось :/
@@PythonToday может быть. там были куски с кодом - может вирусом посчитал...
попробую тогда еще раз )
@@PythonToday не, это нереально. я уже полчаса сижу пытаюсь это отправить - оно сразу моментально удаляется. я уже и цитаты кода максимально заменил и сократил - всё равно. Ну ил ладно. Странно. Под видео о коде нельзя писать код... Вот это они перегнули с защитой.
@@PythonToday Я вам 3 пул реквеста на гитхабе отправил. посмотрите, что я имел в виду.
Вроде Ютуб трет комменты где хеш есть похожий на id видео Ютуба. По крайней мере сам это замечал
Нельзя так скачать библиотеку, запустить скрипт пойти попить чайку, а по приходу обнаружить: что взял все виды импотек, продал всю недвижку, и задонатил все бабки ВСУ и оформил заказ на прекурсы на свой домашний адрес? 😂
Бесполезный парсер, быстро перестанет работать потому что озон часто меняет структуру и названия html элементов, + очень медленный
Подскажите, пожалуйста, а как это можно исправить? Писал парсер для сайта "зоозавр" такая же проблема была, что названия элементов часто менялись, чуть ли не каждый день
@@NHL4по элементу в массиве а не по имени его вызывать и все
аттрибуты динамичные - это да, но вот структура то та же самая) можно использовать xpath и идти по индексам вглубь
На озоне столько роботов...и выкупают кучу всего...плохо что магазин не борется против роботов..им плевать..
Если плкупают - хорошо, остальное плевать. Я б также глаза закрыл на это, выгодно ж)
А для чего вообще нужно парсить маркетплейс? Может кто рассказать в чём тут заработок? 🙄
чей заработок? Если автора, - то в выполнении заказа по написанию скрипта для парсинга. ЕСли заказчика, то скорее всего он продавец, и ему нужно вытягивать информацию для каких-то своих целей. В ручную он тратит на это кучу времени, проще автоматизировать. И да топовые и быстрые парсеры макретплейсов стоят дофига и пользуются достаточно большим спросом.
Неужели за эти данные кто- то платит?
да, но не за данные а за скрипты, которые это делают и делают быстро.
зачем нам это нужно не подскажите?
парсинг товаров