01 ноября, 2009

Делаем простой Аудит сайта

Такой аудит можно встретить на любом сайте конторы строгающей сайты, в процессе поиска работы, одна из таких контор дала тестовое задание на создание такой программы.
Столкнулся впервые, но ничего, и не такое кушали, гуглим.

В аудит сайта входят:
  • информация о домене
  • тИЦ, PR
  • присутствие в поисковиках и каталогах
Находим что Яндекс тИЦ берёт данные по адресу:
http://bar-navig.yandex.ru/u?ver=2&url=[URL страницы]&show=1&post=1

причём в URL можно спокойно подставлять что угодно и всё будет нормально.

У Google PR все оказалось немного сложнее, адрес выглядит так:
http://www.google.com/search?client=navclient-auto&ch=6[Контрольная сумма]&features=Rank&q=info:[URL страницы]

Проблема в том, что для каждого URL своя контрольная сумма, если её рассчитать неправильно или вообще убрать, то метод не сработает. Еще погуглим и находим готовое решение для подсчета контрольной суммы url, выносим его в отдельный класс class GooglePageRank

Остальное все довольно легко, в поисковиках используется поиск по самому url для оценки индексации.

Готовый быдлокод не обернутый ни в класс ни во что-то вообще красивое.

Информацию по домену берем у webnames.ru из за легкой доступности и актуальной информации, так же можно использовать exec(whois url); но это в условиях работы под nix, дома у меня windows.

С поисковиком mail.ru пришлось повозится довольно долго, пока я не понял что они отдают информацию в windows-1251. просто не думал что туда копать нужно :)

Комментариев нет:

Отправить комментарий