SEO форум вебмастеров TalkWebber.ru

Чтобы пользоваться всеми его возможностями, необходимо зарегистрироваться. Без регистрации Вы сможете только читать определенные темы. Мы будем благодарны, если Вы примите участие в нашем проекте и будете развивать форум вместе с нами!

A-Parser - продвинутый парсер поисковых систем, Suggest, PR, DMOZ, Whois, etc

A-Parser Support

Гость
Проверенные
Регистрация
12.14
Сообщения
90
Репутация
0
#81

Please Login or Register to view hidden text.



Третье видео в цикле уроков по созданию JavaScript парсеров. Здесь рассказано о том, как написать JS парсер, в котором будет поддержка антигейта для разгадывания каптч на страницах.


Please Login or Register to view hidden text.



В уроке рассмотрено:
  • Создание JS-парсера для разгадывания капчи
  • Работа с объектом this.captcha внутри JavaScript кода
  • Описание процесса разгадывания каптчи, реализованного в A-Parser
Статья и готовый парсер:

Please Login or Register to view hidden text.



Оставляйте комментарии и

Please Login or Register to view hidden text.

 

A-Parser Support

Гость
Проверенные
Регистрация
12.14
Сообщения
90
Репутация
0
#82
Сборник рецептов #22: проверка индексации в нескольких ПС, многоуровневый парсинг и поиск сабдоменов

22-й сборник рецептов. В нем мы разберемся, как проверять индексацию всех страниц сайта одновременно в нескольких поисковиках, научимся парсить данные по ссылкам из выдачи одним заданием и будем искать сабдомены на сайтах. Поехали!


Please Login or Register to view hidden text.



Данный пресет позволяет спарсить ссылки на все страницы сайта и одновременно проверить их на предмет индексации поисковиками (в примере Google и Яндекс, можно по аналогии добавить другие ПС). Готовый пресет и описание по ссылке выше.



Please Login or Register to view hidden text.



Пример использования tools.query.add в JavaScript парсерах. Данный парсер получает ссылки из выдачи, после чего собирает из каждой страницы title и description. И все это одним заданием с максимальной производительностью, благодаря многопоточному парсингу. Парсер с описанием доступны по ссылке выше.



Please Login or Register to view hidden text.



Небольшой пример, который демонстрирует, как собрать поддомены одного или нескольких сайтов. Используется

Please Login or Register to view hidden text.

и

Please Login or Register to view hidden text.

для прохода вглубь по страницам сайта. При этом Конструктором результатов извлекаются из внутренних ссылок домены и выводятся с уникализацией по строке. Готовый пресет - по ссылке выше.


Кроме этого:

  • Please Login or Register to view hidden text.

    - показаны все базовые возможности нового функционала по работе с SQLite
Еще больше различных рецептов в нашем

Please Login or Register to view hidden text.

!

Предлагайте ваши идеи для новых парсеров

Please Login or Register to view hidden text.

, лучшие будут реализованы и опубликованы.

Подписывайтесь на

Please Login or Register to view hidden text.

- там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в

Please Login or Register to view hidden text.

.

Предыдущие сборники рецептов:
 
Последнее редактирование:

A-Parser Support

Гость
Проверенные
Регистрация
12.14
Сообщения
90
Репутация
0
#83

Please Login or Register to view hidden text.



В этом сборнике статей мы рассмотрим все возможные варианты решения задачи прохода по пагинации на сайтах, очень детально изучим работу с переменными в JavaScript парсерах, а также попробуем работать с базами данных SQLite на примере парсера курсов валют. Поехали!


Please Login or Register to view hidden text.



В A-Parser существует несколько способов, с помощью которых можно реализовать проход по пагинации. В связи с их разнообразием, становится актуальным вопрос выбора нужного алгоритма, который позволит максимально эффективно переходить по страницам в процессе парсинга. В этой статье мы постараемся разобраться с каждым из способов максимально подробно. Также будут показаны реальные примеры и даны рекомендации по оптимизации многостраничного парсинга. Статья - по ссылке выше.



Please Login or Register to view hidden text.



JS парсеры в А-Парсере появились уже около года назад. Благодаря им стало возможным решать очень сложные задачи по парсингу, реализовывая практически любую логику. В этой статье мы максимально подробно изучим работу с разными типами переменных, а также узнаем, как можно оптимизировать работу сложных парсеров. Все это - в статье по ссылке выше.



Please Login or Register to view hidden text.



Начиная с версии 1.2.152 в A-Parser появилась возможность

Please Login or Register to view hidden text.

.
В данной статье мы рассмотрим разработку JavaScript парсера, который будет парсить курсы валют из сайта finance.i.ua и сохранять их в БД. В результате получится парсер, в котором продемонстрированы основные операции с базами данных. Подробности, а также готовый парсер - по ссылке выше.



Если вы хотите, чтобы мы более подробно раскрыли какой-то функционал парсера, у вас есть идеи для новых статей или вы желаете поделиться собственным опытом использования A-Parser (за небольшие плюшки :) ) - отписывайтесь

Please Login or Register to view hidden text.

.

Подписывайтесь на

Please Login or Register to view hidden text.

- там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в

Please Login or Register to view hidden text.

.

Предыдущие сборники статей
 

A-Parser Support

Гость
Проверенные
Регистрация
12.14
Сообщения
90
Репутация
0
#84

Please Login or Register to view hidden text.





Улучшения


  • Please Login or Register to view hidden text.

    - многократно увеличена скорость парсинга
  • Множество улучшений в

    Please Login or Register to view hidden text.

    :
    • Возможность указать несколько DNS и задать метод выбора
    • Бан нерабочих/плохих DNS по специальному эвристическому алгоритму
    • Возможность вывести в результат использованный DNS сервер при удачном запросе
  • В

    Please Login or Register to view hidden text.

    добавлена опция Use sessions
  • В

    Please Login or Register to view hidden text.

    добавлена настройка пресета антигейта для логина
  • Также в

    Please Login or Register to view hidden text.

    удалены настройки Use logins/Use sessions, теперь они включены всегда
  • Добавлена возможность автоматического удаления задания из Завершенных
  • В макросе подстановок {num} добавлена поддержка обратного отсчета
  • В JavaScript парсерах добавлена возможность сохранения произвольных данных в сессии
  • В JavaScript парсерах добавлена возможность прямого сохранения в файл
  • В API методе oneRequest/bulkRequest добавлена возможность указать configPreset
  • В связи с неактуальностью удалены парсеры SE::Google::Mobile и SE::Yandex::Catalog
Исправления в связи с изменениями в выдаче
  • Исправлен парсинг сниппетов в

    Please Login or Register to view hidden text.

  • В

    Please Login or Register to view hidden text.

    исправлена пагинация в мобильной версии, а также парсинг сниппетов и рекламы в некоторых случаях
  • Исправлен парсинг цен в

    Please Login or Register to view hidden text.

  • Исправлена работа функции Remove bad accounts в парсерах Wordstat

  • Please Login or Register to view hidden text.

    ,

    Please Login or Register to view hidden text.

    ,

    Please Login or Register to view hidden text.

    ,

    Please Login or Register to view hidden text.

    ,

    Please Login or Register to view hidden text.

Исправления
  • Количество неудачных больше не обнуляется при постановке на паузу
  • Исправлена проблема с подключением Node.js модулей на Linux
  • Исправлено падение парсера в редких ситуациях при использовании JS парсеров
  • Решена проблема с подключением Node.js модулей lodash, sequelize
  • Исправлена ошибка итератора при равных границах в макросе {num}
 

A-Parser Support

Гость
Проверенные
Регистрация
12.14
Сообщения
90
Репутация
0
#85
Разгадывание рекаптч в JS парсере

Очередное видео в цикле уроков по созданию JavaScript парсеров. Здесь показано, как реализовать разгадывание рекаптч в JS парсере.


Please Login or Register to view hidden text.



В уроке рассмотрено:
  • Описание и настройка парсера

    Please Login or Register to view hidden text.

  • Описание принципа работы ReCaptcha2
  • Создание кастомного JavaScript парсера с поддержкой разгадывания рекаптч

Ссылки:
  • Тестирование работы ReCaptcha2:

    Please Login or Register to view hidden text.

  • Статья и готовый парсер:

    Please Login or Register to view hidden text.


Оставляйте комментарии и

Please Login or Register to view hidden text.

 

A-Parser Support

Гость
Проверенные
Регистрация
12.14
Сообщения
90
Репутация
0
#86

Please Login or Register to view hidden text.



23-й сборник рецептов. В нем мы будем парсить категории сайтов из Google, научимся формировать файлы YML, а также разберемся, как парсить даты и преобразовывать их в единый формат. Поехали!


Please Login or Register to view hidden text.



Категоризация сайтов - довольно актуальная задача, но существует немного сервисов, которые могут ее решить. Поэтому, по ссылке выше можно взять небольшой парсер, который позволяет получать категории сайтов из Google.



Please Login or Register to view hidden text.



YML - это стандарт, разработанный Яндексом для работы с Маркетом. По своей сути, это файлы, схожие с XML, в которых содержится информация о товарах в интернет-магазине. Данный формат обеспечивает регулярное автоматическое обновление каталога на Яндекс.Маркет и позволяет отражать все актуальные изменения (наличие, цена, появление новых товаров). Пример парсинга интернет-магазина и сохранения собранных данных в YML можно посмотреть по ссылке выше.



Please Login or Register to view hidden text.



В поисковой выдаче Google возле новостей публикуется дата. Как правило, это могут быть метки "10 ч. назад" или "26 мая 2018 г.". Иногда может возникнуть задача спарсить все даты и привести их к единому виду. Как именно это сделать, можно узнать по ссылке выше.


Кроме этого:

  • Please Login or Register to view hidden text.

    - новый функционал по работе с сессиями

  • Please Login or Register to view hidden text.

    - возможность сохранять файлы в JS парсерах напрямую, минуя шаблонизатор
Еще больше различных рецептов в нашем

Please Login or Register to view hidden text.

!


Предлагайте ваши идеи для новых парсеров

Please Login or Register to view hidden text.

, лучшие будут реализованы и опубликованы.

Подписывайтесь на

Please Login or Register to view hidden text.

- там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в

Please Login or Register to view hidden text.

.

Предыдущие сборники рецептов:
 

A-Parser Support

Гость
Проверенные
Регистрация
12.14
Сообщения
90
Репутация
0
#87

Please Login or Register to view hidden text.





Улучшения
  • Зависимая задача в Цепочке заданий теперь запускается только когда файл результатов не пустой
  • Добавлен повтор без смены прокси при неудачной отправке рекаптчи в

    Please Login or Register to view hidden text.

  • Добавлен бан прокси при получении 403 кода ответа в

    Please Login or Register to view hidden text.

  • Процент неудачных запросов теперь отображается относительно числа выполненных запросов
  • Добавлена возможность вызвать URL после выполнения задания
  • Улучшен обзор каталогов при выборе файлов запросов
  • Добавлена поддержка setInterval в JavaScript парсерах
  • Уменьшено Wait between get status и улучшено логгирование в

    Please Login or Register to view hidden text.

  • Улучшена обработка редиректов
  • Добавлена защита от бесконечного выполнения в JavaScript парсерах
  • Значительно увеличены возможности check_content в JS парсерах
  • В ответе API метода info добавлены параметры workingTasks, activeThreads, activeProxyCheckerThreads
Исправления в связи с изменениями в выдаче
  • Исправлен парсинг рекламы в мобильной версии

    Please Login or Register to view hidden text.

  • Исправлен парсинг количества результатов в

    Please Login or Register to view hidden text.


  • Please Login or Register to view hidden text.

    ,

    Please Login or Register to view hidden text.

    ,

    Please Login or Register to view hidden text.

Исправления
  • Исправлено ведение лога при нескольких паузах задания
  • Исправлена ошибка, из-за которой запрос считался неудачным при пустой выдаче в

    Please Login or Register to view hidden text.

  • Исправлена работа с url, содержащими фрагмент # в

    Please Login or Register to view hidden text.

  • Исправлен парсинг ссылок в

    Please Login or Register to view hidden text.

  • Исправлена работа опции Pages count в

    Please Login or Register to view hidden text.

  • Исправлен выбор файлов запросов на Windows 10
  • Исправлена ошибка, из-за которой иногда нельзя было удалить файл с запросами
  • Исправлено отображение проксичекера в конфиге потоков
  • Исправлена кодировка некоторых результатов в

    Please Login or Register to view hidden text.

  • Исправлена ситуация, когда не читались настройки из config.txt
 

A-Parser Support

Гость
Проверенные
Регистрация
12.14
Сообщения
90
Репутация
0
#88

Please Login or Register to view hidden text.




Улучшения
  • В

    Please Login or Register to view hidden text.

    обновлена база определяемых движков, теперь поддерживается одновременно старый и новый формат apps.json (при обновлении рекомендуется также обновить apps.json)

  • Please Login or Register to view hidden text.

    полностью переписан:
    • добавлен парсинг related keywords
    • убран $cachedate из $serp, т.к. его похоже больше нет в выдаче
    • добавлена опция Get full link, преобразующая обрезанные ссылки в полные
    • исправлены некоторые регулярные выражения и баг с двойным http в ссылках
  • Изменения в

    Please Login or Register to view hidden text.

    :
    • Добавлен параметр Check type, позволяет выбрать тип проверки: Root Domain/Subdomin/URL
    • Убран параметр Extract domain
    • Исправлена работа в некоторых случаях
  • Улучшена отзывчивость в редакторе JavaScript парсеров
  • Улучшена работа

    Please Login or Register to view hidden text.

    , устранены зависания, которые возникали на определенных страницах
  • Обновлен список регионов в парсерах Яндекс
  • Пустой результат в

    Please Login or Register to view hidden text.

    больше не считается неудачным запросом
  • Улучшена работа с сессиями в

    Please Login or Register to view hidden text.

Исправления в связи с изменениями в выдаче
  • Исправлен парсинг рекламы в

    Please Login or Register to view hidden text.

  • Исправлена работа, а также улучшен алгоритм парсинга в

    Please Login or Register to view hidden text.

  • Исправлено указание региона в парсерах Яндекс
  • Исправлен парсинг $ads.$i.visiblelink в

    Please Login or Register to view hidden text.

  • Исправлен парсинг $totalcount в

    Please Login or Register to view hidden text.

Исправления
  • Исправлена ошибка, из-за которой процент обработанных запросов мог быть больше 100
  • Исправлены ошибки, из-за которых парсинг мог зависать при снятии с паузы, а также сбивался перебор в макросах подстановок
  • Исправлено отображение кириллицы в $headers в

    Please Login or Register to view hidden text.

  • Исправлена ошибка в Конструкторе результатов, из-за которой в редких случаях парсер мог падать
  • Устранена проблема с кодировкой при работе с SQLite
  • Исправлена ошибка со сменой прокси в JavaScript парсерах
 

A-Parser Support

Гость
Проверенные
Регистрация
12.14
Сообщения
90
Репутация
0
#89

Please Login or Register to view hidden text.



В 4-м сборнике статей будет рассмотрено добавление товаров в OpenCart, а также описано создание универсального парсера JSON. В каждой статье приложены готовые JS парсеры, используя которые, можно на реальных примерах изучить описанные методы и поэксперементировать с ними. Поехали!


Please Login or Register to view hidden text.



Данная статья начинает цикл об одной из наиболее часто запрашиваемых возможностей - заливке товаров в интернет-магазин. A-Parser - это универсальный инструмент, который кроме прочего может решать и такие задачи. Для тестов выбран движок OpenCart, в 1-й статье будет рассмотрена авторизация, получение списка товаров и добавление товара. Подробности, а также пример парсера - по ссылке выше.




Please Login or Register to view hidden text.



JSON - это довольно популярный способ предоставления данных, который, например, часто используется при работе с API различных сервисов. В А-Парсере есть встроенные инструменты для работы с ним, но не всегда их применение может быть простым, иногда требуется дополнительно писать сложные шаблоны, используя шаблонизатор. Поэтому в статье по ссылке выше будет рассказано, как написать простой универсальный парсер JSON.



Если вы хотите, чтобы мы более подробно раскрыли какой-то функционал парсера, у вас есть идеи для новых статей или вы желаете поделиться собственным опытом использования A-Parser (за небольшие плюшки :) ) - отписывайтесь

Please Login or Register to view hidden text.

.

Подписывайтесь на

Please Login or Register to view hidden text.

- там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в

Please Login or Register to view hidden text.

.

Предыдущие сборники статей
 

A-Parser Support

Гость
Проверенные
Регистрация
12.14
Сообщения
90
Репутация
0
#90

Please Login or Register to view hidden text.





Улучшения
  • Добавлен новый парсер

    Please Login or Register to view hidden text.

  • В

    Please Login or Register to view hidden text.

    улучшена обработка портов по умолчанию, теперь ссылки с портом приводятся к каноническому виду
  • Оптимизирована работа

    Please Login or Register to view hidden text.

  • Улучшена работа с сессиями в

    Please Login or Register to view hidden text.

  • Улучшена обработка некорректных ответов в

    Please Login or Register to view hidden text.


    Please Login or Register to view hidden text.

Исправления в связи с изменениями в выдаче
Исправления
  • Исправлена проблема с запуском на некоторых linux дистрибутивах
  • Исправлена загрузка node.js модулей в редких случаях на Windows
  • JS парсеры: добавлена поддержка dns.lookup и улучшена совместимость с модулем mysql2
  • JS парсеры: исправлен util.promisify
  • Исправлена работа некоторых Node.js модулей
  • В

    Please Login or Register to view hidden text.

    и

    Please Login or Register to view hidden text.

    $totalcount при 0 результатов теперь возвращает 0
  • Исправлено логгирование в режиме foreground
 

A-Parser Support

Гость
Проверенные
Регистрация
12.14
Сообщения
90
Репутация
0
#91

Please Login or Register to view hidden text.


25-й сборник рецептов. В нем будет показан способ периодического парсинга с дозаписью результатов в таблицу, рассмотрен парсинг с помощью Node.js модуля Cheerio без использования регулярных выражений, а также показан парсер первой мобильной поисковой системы в Китае - Shenma. Поехали!


Please Login or Register to view hidden text.


Пример решения одной из наиболее запрашиваемых задач - дозапись периодически получаемых результатов в одну и ту же таблицу. В качестве хранилища данных используется SQLite, при каждом запуске данные добавляются и выводятся в таблицу. Готовый пресет с комментариями - по ссылке выше.



Please Login or Register to view hidden text.


Как известно, в основе почти любого парсера используются регулярные выражения, реже - XPath. Работа с этими методами требует определенных знаний, что в свою очередь может вызывать некоторые сложности. Поэтому существуют и другие методы. Использование одного из них на примере парсинга популярного в Китае поисковика Haosou, показано по ссылке выше.



Please Login or Register to view hidden text.


Еще один китайский поисковик в этом сборнике - Shenma. Это первая мобильная поисковая система в Китае, ориентирована в первую очередь на мобильные сайты. Пресет - по ссылке выше.


Еще больше различных рецептов в нашем

Please Login or Register to view hidden text.

!

Предлагайте ваши идеи для новых парсеров

Please Login or Register to view hidden text.

, лучшие будут реализованы и опубликованы.

Подписывайтесь на

Please Login or Register to view hidden text.

- там регулярно выкладываются видео с примерами использования A-Parser, а также следите за новостями в

Please Login or Register to view hidden text.

.

Предыдущие сборники рецептов: