Обзор парсера обсуждений сайта vkontakte.ru
Пару дней назад мне довелось потестировать работу парсера обсуждений сайта vkontakte.ru. Кто не понял, зачем эта штука нужна – объясняю. Всеми нами любимый и ненавидимый одновременно проект Павла Дурова закрыт от индексации. Ну не полностью конечно, в индексе сейчас вот столько страниц. А пользователей – 49 с половиной миллионов, на момент написания поста. Вот как раз таки вся личная информация, в том числе и обсуждения в различных группах от индексации закрыта. На момент написания этого поста вконтакте зарегистрировано более 7 миллионов групп. Представляете сколько там уникального контента?
Вручную собирать этот текст конечно гораздо эффективнее – можно отсеивать спамеров и всякий бред, но лучше все же использовать парсер. Он без проблем установился на локалке (Vertrigo) и после небольших настроек начал парсинг.
Требования к хостингу
php 5.2.*
curl
safe_mode = off
После парсинга мы получаем текст, который необходимо обработать конвертером. В нем уже заготовлены шаблоны под различные CMS, так что работы немного в принципе.
На выходе же мы получаем абсолютно уникальный контент, который можно либо использовать как подливку комментариями к своим сайтам, либо строить на базе этого форумы. В крайнем случае – для доров, думаю будет самое то.
В общем вещь очень полезная и актуальная, тем боле что количество групп постоянно изменяется – создаются новые старые банятся – меняется количество и содержимое контента. Этакий круговорот контента вконтакте
моментальное получение товара после оплаты |
Акций и скидок никаких нет, это не тот софт, который нужно пропихивать всякими маркетинговыми ходами, эта штуковина для тех кто в теме



января 6, 2010 at 7:41 пп
[...] уже писал про тестирование парсера Вконтакте, и о его [...]