Принципы работы парсера WebScraper на примере Авито

Евгений Лукин

มุมมอง 19 085

เพิ่มลงใน
- เพลย์ลิสต์ของฉัน
- ดูภายหลัง
แชร์

แชร์

ฝัง

ขนาดวิดีโอ:

แสดงแผงควบคุมโปรแกรมเล่น

เล่นอัตโนมัติ

เล่นใหม่

เผยแพร่เมื่อ 5 ก.ย. 2024

ความคิดเห็น • 104

@usota 3 ปีที่แล้ว ⁺³
00:24 Запуск парсера WebScraper
00:33 Парсинг с одной страницы
03:31 Парсинг со страниц пагинации
06:17 Парсинг внутренних страниц
@Zyaka-Byaka 2 ปีที่แล้ว ⁺³
Евгений, без преувеличения "Огромное СПАСИБО"! Если честно, то не ожидал что Вы ответите на просьбу о помощи, да еще и так быстро. Я уже начал готовить себя к тому что придется миллиона полтора картинок вытаскивать по одной вручную!
@usota 2 ปีที่แล้ว ⁺¹
Пожалуйста, рад был помочь )
@user-tj7pj8ct7v 2 ปีที่แล้ว ⁺³
Очень полезное видео. И автор очень отзывчивый. Благодарю!
@usota 2 ปีที่แล้ว ⁺¹
Пожалуйста, рад помочь!
@user-ey7gy9mv7f 2 ปีที่แล้ว ⁺¹
волшебный туториал, таких туториалов дай бог каждому!
Лайк Подписка Комментарий
@coolchannel4291 2 ปีที่แล้ว ⁺¹
Евгений огромное вам спасибо за ваш труд.
Это самое лучшее видео по бесплатному парсеру.
Спасибо что помогли мне)
Почему так мало подписчиков не пойму)
@usota 2 ปีที่แล้ว ⁺¹
Спасибо большое, очень приятно, рад, что пригодилось!
@mikegalaktionov4191 3 ปีที่แล้ว ⁺³
спасибо большое за обзор!! у меня получилось вытянуть всю необходимую инфу) блок про парсинг внутренних страниц оказался очень полезным.
хотел сегодня покупать подписку на сервис, а оказалось можно парсить вручную! )
@usota 3 ปีที่แล้ว ⁺²
Очень рад, что пригодилось)
@nikolayjmaev6102 ปีที่แล้ว ⁺¹
Жень, огромное спасибо, ты сэкономил мне денег, тысяч так 20 в год )
@moon_star1961 3 ปีที่แล้ว ⁺³
Огромное спасибо! Очень помогли!
@user-eh8mn8uo1m 2 ปีที่แล้ว ⁺²
Евгений, +1000 Вам в карму, медаль за отмену крепостного права, и грамоту за отмену рабства! Сколько соков в нашей компании было выпито из студентов, тупо собирающих прайсы! Меня это не волновало, я же аналитик, пусть копают. Но когда передо мной - патологической лентяйкой - предстала необходимость копать самой в личных целях... Хотела уж школьника сына засадить за ковыряние, в 14 лет это же не должно считаться эксплуатацией))) И Ваше видео! Просто, доступно, гениально! Спасибо огромное! Только, простите, не могу поделиться видео. Во-первых, "такая корова нужна" самому. Во-вторых, боюсь стать той самой обезьяной, которая будет бегать на пальму за бананами для вожаков стаи.
@usota 2 ปีที่แล้ว ⁺¹
Спасибо, очень приятно! )
@PoorRadio 2 ปีที่แล้ว ⁺¹
спасибо за инструкцию
@usota 2 ปีที่แล้ว ⁺¹
Пожалуйста, рад что пригодилось)
@dhard1410 2 ปีที่แล้ว ⁺¹
СПАСИБО ОГРОМНОЕ!
@newgen8136 ปีที่แล้ว ⁺¹
Thank you very much !!!
@user-fb3hc1vr3p ปีที่แล้ว ⁺¹
Спасибо Вам огромное, все получилось, но только методом тыка. Вы почему-то не показываете ключевые моменты настройки, поэтому по Вашему материалу ничего не получилось сделать. Возможно сам парсер изменился. Но все равно огромное спасибо!
@SV-13 8 หลายเดือนก่อน ⁺¹
Как вытянуть картинки по каждой квартире, если их там несколько штук?
Не хватило такой информации. А так, конечно, очень познавательно, ага...
@usota 8 หลายเดือนก่อน
WebScraper не профессиональный парсер и сбор картинок как привило я делаю отдельно через селектор img с отметкой галочки «мультипл». На официальном сайте WS есть подробные примеры с видео, поэтому тут разобран только базовый пример.
@ArtemLarin666 2 ปีที่แล้ว ⁺²
Спасибо, видео супер! А может ли он парсить страницы с бесконечной прогруткой? Т.Е. с автоматически подгружаемыми блоками
@usota 2 ปีที่แล้ว ⁺¹
Спасибо за высокую оценку, очень приятно!
Да, WebScraper парсит страницы с бесконечной прокруткой. Для этого используется селектор "Element scroll down". Я думаю, раскрою это тему подробнее в следующих видео.
@user-lw5tq9rj5q 2 ปีที่แล้ว ⁺²
хороший материал, спасибо. подскажите пожалуйста почему у Вас во втором результате (при добавления данных по типу дома) количество строк меньше, чем в первом? Парсер должен был просто добавить столбец же? или я что-то не так понял?
@usota 2 ปีที่แล้ว ⁺¹
Спасибо за хорошую оценку. Строк меньше, потому что я прервал работу парсера и не стал дожидаться всех результатов.
@prosto-zritel ปีที่แล้ว ⁺²
А можно сделать, чтобы собирал статистику просмотров и применяемых услуг?
@usota ปีที่แล้ว
Если это есть в коде страницы - то это можно собрать.
@prosto-zritel ปีที่แล้ว ⁺¹
@@usota Существуют на рынке парсеры, которые собирают эту информацию и по итогу формируется Ексель файл, со всеми данными, кроме номеров телефона, благодаря чему можно найти и отфильтровать популярные объявления и трендовые товары. Возможно парсинг происходит из кабинета Авито про расширенные версии, не с базового тарифа. А просто парсинг смысла практически никакого для анализа, только для мониторинга нужных товаров разве что.
@user-so1vm9yq8f 10 หลายเดือนก่อน
Спасибо огромное! Работает! Очень удобно
Но заткнулся на скролле, когда открывается новые элементы при скролле, покажете?
@user-zu3zt9pq7j 2 หลายเดือนก่อน ⁺¹
Подскажите пожалуйста. Раньше я пользовался contentdowenlouder x1 но устал от него ищу альтернативу. Этот будет норм или есть ещё что-то интересное?
@usota 2 หลายเดือนก่อน
Не работал с тем, что вы сказали) WS покрывает мои простые задачи на 100%. Если что-то сложное нужно решать - беру Python.
@spartach1925 7 หลายเดือนก่อน ⁺¹
добрый день. времени много прошло, но вдруг ответите, можно ли парсить календарь бронирований с объявлений посуточно?Придумал костыль в виде блока запросов на каждый день в заданном интервале, но в идеале хотелось бы иметь колонку со списком занятых дат допустим на неделю или месяц вперед в любом формате за один проход
@usota 7 หลายเดือนก่อน
Добрый день, готового решения у меня нет, но я бы тоже начал с блока запросов, а там уже в процессе вырулил бы на оптимальный вариант. Сразу хорошо ничего не получается, сначала пару-тройку подходов с ошибками, и так в любой задаче. Уверен, у вас всё получится .
@Zyaka-Byaka 2 ปีที่แล้ว ⁺³
Евгений, спасибо за видео. Помогло справиться с сайтом поставщика автозапчастей, где другие парсеры ничего не парсили! Но! Есть вопрос и просьба о помощи! Не получается спарсить картинку товара в полном размере. Миниатюра парсится на ура, но чтобы получить полное изображение нужно кликнуть на миниатюру. Все страницы товара с бесконечным скроллом. При настройке парсинга одного товара, все норм, но как только настраиваю по скроллу, так картинка не парсится. Помогите пожалуйста.
@usota 2 ปีที่แล้ว ⁺¹
1) Есть два способа получить полное изображение. Первый - найти тег с полным изображением в исходном коде сайта. Второй - выбрать селектор "Клик" и сэмулировать клик по изображению, а потом уже скачивать фото.
2) По вопросу скролла - скорее всего надо немного донастроить парсер и данные будут собираться.
Смотрите, в парсере есть возможность экспортировать его настройки. Пункт меню Export Sitemap. Пришлите мне на почту эти данные, я смогу ответить на ваш вопрос более точно. Контакты в описании.
@Zyaka-Byaka 2 ปีที่แล้ว ⁺¹
@@usota написал на почту
@goonik ปีที่แล้ว
Я понял почему ты теперь ставишь свою **лицо** в треть экрана - хочешь чтобы все видели как ты похудел.
За это видео спасибо, полезное.
@usota ปีที่แล้ว
Не переходите на личности пожалуйста
@goonik ปีที่แล้ว
@@usota ладно, не заводись 🙄
@ramilhafiz6741 2 ปีที่แล้ว ⁺²
Реклама курсов по Python как бы намекает, что парсить лучше на Питоне)
@usota 2 ปีที่แล้ว ⁺¹
Да, реклама прямо в тему))). А вобще лучше подбирать под задачу подходящий ей инструмент. Разовый парсинг Вебскрейпером будет быстрее, чем написать скрипт на пайтоне.
@beststoryNOGACHC 10 หลายเดือนก่อน
у меня парсится в стиле лесенки по абзатцам как их выровнить чтобы в вместе были в одной строке по разным столбцам как у вас??? помогите пожалуйста
@leolevkod3032 11 หลายเดือนก่อน ⁺¹
Здравствуйте, Евгений. Вопрос по иерархии элементов в Вашей карте выборки. Ссылка на страницу где Вы берете тип дома уже находиться в группе element может стоило "провалиться" в элемент родительский Item чтобы там добавить элемент Link как дочерний? Или это не имеет значения?
@usota 11 หลายเดือนก่อน
Да, можно и так
@user_alex_ 9 หลายเดือนก่อน
👍👍👍👍👍👍👍👍👍👍👍👍
@Vinchek 4 หลายเดือนก่อน
Можно ли сделать пагинацию с помощью Element Click? Пагинация сделана с помощью Java Script
@talgatmustafin5236 3 ปีที่แล้ว ⁺³
Здравствуйте! Хорошая подача материала! Подскажите как установить этот Web Scraper в браузер?
@usota 3 ปีที่แล้ว ⁺³
Здравствуйте, спасибо! В описании оставил ссылку на официальный сайт. Но вы можете установить его и из каталога расширений для браузера.
@talgatmustafin5236 3 ปีที่แล้ว ⁺²
@@usota Оперативно! Спасибо!
@user-nd3yp2lj6d 3 ปีที่แล้ว ⁺³
Добрый день. Спасибо за полезную инфу. А как контакты вытягивать, подскажи пожалуйста.
@usota 3 ปีที่แล้ว ⁺³
Спасибо за вопрос. Если под контактами вы имеете ввиду номер телефона, то на авито - это изображение. Теоретически, если бы авито получил у своих пользователей разрешение на использование их персональных данных третьими лицами в соответствии с законом 152-ФЗ, то можно было бы спарсить номера в виде изображений и распознать цифры. Но это уже находится за рамками простого парсера WebScraper.
@user-nd3yp2lj6d 3 ปีที่แล้ว ⁺¹
@@usota Спасибо
@leolevkod3032 11 หลายเดือนก่อน ⁺¹
Здравствуйте, Евгений. Скажите пожалуйста как в процессе парсировки результатов поиска в гугл перебирать страницы если в перелистывание происходит списком например 20 записей? Что-то я не могу найти.
@leolevkod3032 11 หลายเดือนก่อน ⁺¹
Нашел. Использовал Pagination
@YourStationHere ปีที่แล้ว
Здравствуйте Евгений, Помогите Пожалуйста у меня выходит (FAILED_TO_CONNECT_TO_CHROME_TAB) когда нажимаю select, не знаю что делать. Спасибо вам за видео!
@cubensis2367 ปีที่แล้ว ⁺¹
Все круто да только, контакты не могёт получается?
@usota ปีที่แล้ว
Скорее всего нет, не пробовал
@evg3n1y 2 ปีที่แล้ว ⁺¹
а как парсить с определенных страниц? например в пагинации указаны специально разные цифры
тут либо по пагинации идти, либо вручную проставить
где можно синтаксис еще глянуть парсера?
@usota 2 ปีที่แล้ว ⁺¹
Про пагинацию расскажу в отдельном видео, там есть 3 способа, как это делать. Но чтобы не ждать - синтаксис описан в документации и есть примеры в видео на сайте WebScraper
@user-pn1hv2su6p ปีที่แล้ว
Добрый день! Подскажите, если link не находит ссылку на странице, но она есть. Но именно ее не видит, остальные видит. Что можно сделать?
@psergio_it4884 11 หลายเดือนก่อน
А есть ли возможность парсить данные Авито при задание периода (дата от и до)? Как это можно сделать.. Заранее благодарю
@usota 10 หลายเดือนก่อน
К сожалению, этот парсер не поддерживает условия выхода из парсинга. Ну кроме ограничения пагинации через квадратные скобки [1:10]
@user-ld1kf5gl4s 2 ปีที่แล้ว ⁺¹
Здравствуйте, если парсить например заголовки и цены, то парсит не всё а только половину заголовков и половину цен. А если парсить только они заголовки, то парсит всё. Получается нужно по очереди, сначала например заголовки а после цены? Спасибо!
@usota 2 ปีที่แล้ว
Здравствуйте. Парсер - это машина. Как ей скажешь, так и сделает. Попробуйте задать условия иначе. Я уверен, можно и заголовки и цены собрать за один проход.
@igorkent 6 หลายเดือนก่อน
Привет 🤗 Как телефон спарсить?)
@andr_hot 2 ปีที่แล้ว ⁺¹
Евгений, здравствуй, хотел спросить, есть допустим сайт одежды, и нужно про парсить его по некоторым пунктам, там цена, название, картинка, но пропарсить надо его все товары, которые есть на сайте, это возможно как-то по быстрому сделать? Или это надо тупо на кажду страницу категорий товара зходить и выбирать? А то я только понял как выбрать все товары с одной страницы, а если есть другие категории, как там быть?
@usota 2 ปีที่แล้ว
Здравствуйте, вы верно рассуждаете - заходить в каждую категорию не нужно. Как правило структура категорий во всех разделах сайта одинакова. Поэтому указав парсеру, как парсить одну категорию, он по такому же принципу соберёт остальные категории.
@andr_hot 2 ปีที่แล้ว
@@usota Здравствуйте еще раз, хотел спросить, а как получить Sitemap? Я просто по вашему примеру делал, но только другой сайт, но у меня карта что-то не те результаты дает, точные почти никакие результаты не дает
@usota 2 ปีที่แล้ว
Наберите в адресной строке имясайта/sitemap.xml и как правило сразу попадёте на карту сайта. Если я правильно понял вопрос )
@andr_hot 2 ปีที่แล้ว ⁺¹
@@usota спасибо, уже понял, и вообще спасибо за отзывчивость, не каждый отвечает подписчикам, спасибо ещё раз, удачи Вашему каналу!
@usota 2 ปีที่แล้ว
Спасибо!
@user-zk3fk7us8e ปีที่แล้ว ⁺¹
Добрый день. Как номер телефона спарсить?
@usota ปีที่แล้ว ⁺¹
Здравствуйте, к сожалению, не знаю - с такой задачей не сталкивался. Номера всё равно подменные, потому и бесполезны.
@user-km8qb2wi3b 7 หลายเดือนก่อน ⁺¹
можно ли настроить скраппер чтобы он пароль вводил и парсил в запланированное время регулярно?
@usota 7 หลายเดือนก่อน ⁺¹
Парсинг по расписанию есть только в версии по подписке, но цены на подписку такие, что дешевле заказать парсер под свою задачу либо написать самому на Python или BrowserAutomationStudio.
@user-km8qb2wi3b 7 หลายเดือนก่อน ⁺¹
@@usota спасибо за ответ
@user-km8qb2wi3b 7 หลายเดือนก่อน ⁺¹
@@usota а сколько стоит заказать парсер?
как узнать?
@usota 7 หลายเดือนก่อน
Напишите в наш телеграм-чат @proparsing, там ребята отлично разбираются в парсинге. К сожалению, кого-то конкретно порекомендовать не могу.
@Alex-jn7rf 2 ปีที่แล้ว ⁺¹
Авито мобильный ip заблокировал после парсинга 6 страниц.
@usota 2 ปีที่แล้ว ⁺¹
Возможно и такое. У любого бесплатного инструмента есть ограничения. В этом, к сожалению, нельзя использовать прокси. Но можно попробовать перенести парсинг на позже и делать более длинные паузы между запросами.
@vaxidjonbaratov2089 ปีที่แล้ว ⁺¹
Nomer telefon neto zdes. A kak mojna parsirovat telefon nomer toje?
@usota ปีที่แล้ว
Этим инструментом, к сожалению, не возможно. Номер телефона выводится в виде изображения, а не текста.
@PiZzDAO 9 หลายเดือนก่อน
@@usotaа с сайтов где номер текстом отображается, можно спарсить номера?
@usota 9 หลายเดือนก่อน
@_technomutant_ да, текст можно спарсить селектором text
@jackspades6492 ปีที่แล้ว ⁺¹
Сейчас нет смысла парсить так как авито ставит левые номера вместо реальных
@usota ปีที่แล้ว
Да, номера парсить смысла нет
@jackspades6492 ปีที่แล้ว
А что есть смысл парсить ? )
@usota ปีที่แล้ว ⁺¹
Свежие объявления о квартирах или авто, чтобы не пропустить привлекательные, например. Не номерами едиными богато авито.
@vasiliymalich 2 ปีที่แล้ว
Доброго времени, подскажите как парсить Ютуб, не все элементы видит (
@usota 2 ปีที่แล้ว
Мало информации. Но предположу, что не все элементы успевают загрузиться - попробуйте увеличить задержку между запросами до 6-8 секунд.
@vasiliymalich 2 ปีที่แล้ว
@@usota могу вам как-то написать лично ?
@usota 2 ปีที่แล้ว
Да, в описании есть контакты, напишите в WhatsApp.
@user-ps1wf5qd2g 2 ปีที่แล้ว
Приветствую а номера как то можно таким способом добыть? хочу пропарсить сайт с объявлениями в своем городе, но мне нужны только номера, получится? Я пробовал у меня не получается
@usota 2 ปีที่แล้ว
Нет, таким способом не получится. Способ получить номера другой и не этой программой. Я, например, беру номера из мобильной версии.
@user-ps1wf5qd2g 2 ปีที่แล้ว
@@usota можешь подсказать пожалуйста как это сделать, и какая программа нужна? очень нужно
@user-ps1wf5qd2g 2 ปีที่แล้ว
@@usota там просто нужен переход на страницу номера сразу видны
@usota 2 ปีที่แล้ว
Мне кажется только ленивый не предлагает парсинг телефонов авито) Там простенький скрипт на Python. Напишите мне, помогу. Контакты в описании есть
@user-ps1wf5qd2g 2 ปีที่แล้ว
@@usota да я не про авито, спасибо, сейчас напишу
@user-gw2lg9ff4i 4 หลายเดือนก่อน
Минус этой программки в том что сохраняет он в таблице ещё первые два не нужных столбца
@sse9686 ปีที่แล้ว
Не лучший способ подачи информации, но на безрыбье и рак рыба. Направление задано, а дальше самим разбираться. Извините, лайк за такую подачу не поставлю.
@usota ปีที่แล้ว
Спасибо за обратную связь
@sse9686 ปีที่แล้ว
@@usota , здравствуйте. Нашел Ваше второе более подробное видео. Вы хотели нам помочь, затратили своё время, поэтому мне несколько совестно Вас критиковать. Но Вы сами спросили моё мнение. Выскажусь относительно длительного видео. Рассказываете тактику подробно, но когда дело доходит до нажатия кнопок, происходит рассинхронизация голоса и дела. Например, Вы рисуете логику запросов на 8-й минуте. Это средствами обозреваемого плагина или другой утилитой. 2) Используете "кальку" английских слов, типа "пагинг", те самым теряется смысл рассказа. 3)Что-то нажимаете, на экране что-то изменилось, но не понятно, какую кнопку Вы нажали. Например, Вы нажимали кнопку ШИФТ или КОНТРЛ? Как бы я снимал? Я показал бы выполняемые шаги руками, что бы пользователь понял, что тоже самое будет делать программа. Со всем уважением к Вам.

ต่อไป

เล่นอัตโนมัติ

Парсинг без программирования II. WebScraper