Создаем многопоточный граббер в несколько стадий с BrowserAutomationStudio English version • Making forum scraper w... Скачать бесплатно bablosoft.com/...
TWAEGO спасибо вам за это видео, и за новый функционал, вы нас радуете им. У меня к вам просьба, запишите пожалуйста видео по внедрению модулей из npm в бас, на каком нибудь примере, инфы по этому процессу нет( и разобраться не реально(
спасибо за ваши ответы. Еще вопрос) количество модулей в папке 'modules' будет как то отражаться на скорости выполнения скрипта, если эти модули в нем не используются.
еще скажите, можно ли как то минимизировать нагрузку на ресурсы в каждой копии воркера ? а то каждая копия по 80-90 мб занимает..по сути 100 штук на обычном копме никак не запустить , а покупать дорогой сервак для такого количества не резонно - не знаю как они себя поведут
почему нельзя спарсить данные в первой фазе так же многопоточно? на страницу выдается одинаковое количество ссылок заголовков (T1, T2,..T10) допустим взять 10 потоков, сказать первому - ты работаешь всегда с Т1, второму - всегда с Т2, третьему -... , поставить все это в цикл, в конце цикла перелистнуть страницу вперед. данные складывать в *.xlsx для первого потока ячейка вывода будет всегда 1, 11, 21,31,41,51... для второго потока 2,12,22,32,42... итд. 3,13,23,43... = на выходе *xlsx файл забитый ссылками в 10 потоков.
Что ввести в ПОЛУЧИТЬ ТЕКСТ если хочу спарсить с неизвестного сайта?Т.е спарсилось 10 URL теперь нужно получить текст . есть ли какие -то общие match или css или по координатам?
Как парсить и выводить в лог понятно. А как спарсить, например, чтоб не было просто списком, а чтоб отдельно "заголовок+описание" в несколько txt файлов?
Вывожу текст ссылки в лог - все норм, с каждым циклом прилетает новая ссылка. Если в лог вывожу ресурс - выдает с каждым циклом одну и туже ссылку, самую первую. Как так?
Я про эти расширения chrome.google.com/webstore/category/extensions Про vipip.ru я ничего не слышал. Точных сроков сказать не могу. Сейчас есть много задач с большим приоритетом.
ну да они там соц сети задействованы..как залогиниться в каждой сети уже понял..а вот как заставить включаться каждую копию браузера ? чтобы браузер уже включался каждый раз с расширениями ? у меня сейчас работает другой бот с бас через соц сети, может задействовать получится и его одновременно . По сути для мне нужно только чтобы браузер запускался с расширением установленным, а все остальное оно само сделает....в инструкции нигде не нашел
Просто ШИКАРНО!!!!!! Спасибо TWAEGO за видос и прогу!!! Дал ответы в одном видео,сразу на несколько вопросов!!!!!!!
Офигенное обновление) просто решает очень много моих костылей)
Это комментарий номер 56. Скрипт BAS поставил лайк и написал этот комментарий. Спасибо за уроки
TWAEGO спасибо вам за это видео, и за новый функционал, вы нас радуете им. У меня к вам просьба, запишите пожалуйста видео по внедрению модулей из npm в бас, на каком нибудь примере, инфы по этому процессу нет( и разобраться не реально(
Будет отдельный апдейт, который добавляет поддержку с# и тулзу для конвертации модулей из npm, потом запишу по этому видео
ничего себе) в басе по мимо js будет поддержка C# и его модулей? за тулзу отдельное спасибо) а когда это чудо приблизительно выйдет)
Сразу после апдейта по юзабилити. Через 3 недели примерно.
спасибо за ваши ответы. Еще вопрос) количество модулей в папке 'modules' будет как то отражаться на скорости выполнения скрипта, если эти модули в нем не используются.
Если модули содержат engine.js(код, который выполняется в начале каждого потока), то будут.
еще скажите, можно ли как то минимизировать нагрузку на ресурсы в каждой копии воркера ? а то каждая копия по 80-90 мб занимает..по сути 100 штук на обычном копме никак не запустить , а покупать дорогой сервак для такого количества не резонно - не знаю как они себя поведут
почему нельзя спарсить данные в первой фазе так же многопоточно?
на страницу выдается одинаковое количество ссылок заголовков (T1, T2,..T10) допустим
взять 10 потоков, сказать первому - ты работаешь всегда с Т1, второму - всегда с Т2, третьему -... , поставить все это в цикл, в конце цикла перелистнуть страницу вперед.
данные складывать в *.xlsx для первого потока ячейка вывода будет всегда 1, 11, 21,31,41,51... для второго потока 2,12,22,32,42... итд. 3,13,23,43... = на выходе *xlsx файл забитый ссылками в 10 потоков.
У вас получилось сделать это?
Что ввести в ПОЛУЧИТЬ ТЕКСТ если хочу спарсить с неизвестного сайта?Т.е спарсилось 10 URL теперь нужно получить текст . есть ли какие -то общие match или css или по координатам?
Как парсить и выводить в лог понятно. А как спарсить, например, чтоб не было просто списком, а чтоб отдельно "заголовок+описание" в несколько txt файлов?
А в чем тут проблема?
ну например 10 постов, надо спарсить "заголовок поста+текст" и на выходе получить 10 txt файлов, каждый пост отдельно в документе.
Элементарная задача
Куллл!!!
Сделайте видео как переходить с одной страницы на другую и там парсить с ( к примеру ссылки профилей )
Вывожу текст ссылки в лог - все норм, с каждым циклом прилетает новая ссылка. Если в лог вывожу ресурс - выдает с каждым циклом одну и туже ссылку, самую первую. Как так?
А зачем нужно парсить? Для чего?
Подскажите пожалуйста если парсить емейл, телефоны как вывести это информацию в Эксель?
Через node.js
@@browserautomationstudio3109 спасибо
во время парсинга пишет "Поток завршен.Таймаут во время выполнения LoadPage" как это исправить?
Чтобы это убрать нужно убрать чекбокс полного ожидания загрузки страницы
Как сделать, чтобы повторялся шаблон несолько раз ?
prnt.sc/f7c6rj
Как сделать уникальные урлы? А то они часто повторяются
1. Собираем все урлы в список.
2. Применяем функцию "Удалить дубликаты".
дд, скажите как сделать чтобы в каждой копии браузера запускалось расширения вместе с ними ?
Поддержка плагинов будет чуть позже.
Twaego Twaego надеюсь вы поняли я про расширения типа vipip.ru например. Когда позже ?
Я про эти расширения chrome.google.com/webstore/category/extensions
Про vipip.ru я ничего не слышал.
Точных сроков сказать не могу.
Сейчас есть много задач с большим приоритетом.
ну да они
там соц сети задействованы..как залогиниться в каждой сети уже понял..а вот как заставить включаться каждую копию браузера ? чтобы браузер уже включался каждый раз с расширениями ? у меня сейчас работает другой бот с бас через соц сети, может задействовать получится и его одновременно . По сути для мне нужно только чтобы браузер запускался с расширением установленным, а все остальное оно само сделает....в инструкции нигде не нашел
Расширения в данный момент не поддерживаются.
А для mac есть bas?
Увы, нет
это на подобии зенопостера?
да
Почему на браузере?????????
Для наглядности. Чтобы лучше было видно как создаются потоки.
А кто видос записывал?
Я