понедельник, 16 августа 2010 г.

Парсим спам базу

В интернете встречается много топиков на тему "Как парсить гугля?". Поэтому решил написать по этой теме. Постараюсь изложить все как можно проще и без воды. У гугла существуют свои поисковые команды вида: inurl:, site:, filetype, intitle, intext. Они позволяют наиболее четко отсеивать все ненужное и выводить только то, что важно для нас. Можно сказать, что это основные поисковые команды для практически 100% нахождения ресурсов и не только. В настоящее время в связи с частыми запросами ботов и вирусов Google ввел ограничение: на количество таких команд и на некоторый диапазон ip-адресов.
Теперь поговорим про инструменты для парсинга. Существуют достаточно много парсеров, которыми можно пользоваться(самописные, Hrefer, AGGRESS Parser). Пример, будет для агресса.
Для того, чтобы начать парсинг надо либо создать поисковую команду(прошу не придираться к словам, я их так называю) либо собрать признаки парсинга. Признаками парсинга называются характерные признаки для определения тематичности, внутреннего устройства сайта(CMS), типа сайта(блог, форум, гостевуха), а также типа форм.
Итак, для парсинга с помощью команд устанавливает настройки: таймаут ~120, время между запросами ~60-80.
Команды для парсинга форумов.
site:.сom +intext:" Powered by vBulletin"
site:.сom +intext:"Powered by Invision Power Board"
site:.сom intitle:forum +intext:"phpBB"
site:.сom intitle:forum
site:.сom intitle:forum +intext:medical
Признаки парсинга
форумыблогигостевыевики
forum
phorum
topic
bulletin
thread
modules.php
yabb
ultimatebb
board
phpbb
act=ST
act=SF
list.php
posting
profile.php
act=Reg
post.php
ubb
exbb
newbb
ipb
invision
foro/
/sutra
lofiversion
blog
archive
wordpress
journal

gb
guestb
addmessage
addguest
addentry
guestbook
burning
epad
bbs
apeboard
action=
guest.
конецформыначалоформыsign_book.cgi
addguest.html
guestbook/addguest.html
gbook/addguest.html
gb/addguest.html
regsign.cgi
guestbook/a=sign
guest_book/guest.pl
guestbook/guest.pl
gbook/guest.pl
gb/guest.pl
guest.pl
guestbook.cgi
gbook.cgi
gb.cgi
addguestGB2.cgi
Sign_Guestbook.asp
addguest.php
Guestbook/Sign_Guestbook.asp
Gbook/Sign_Guestbook.asp
Gb/Sign_Guestbook.asp
gst_sign.dbm
GuestBook/gst_sign.dbm
guestbook/sign.html
gbook/sign.html
gb/sign.html
wgbsign.html
guessbook/sign.html
sign.html
addbook.cgi
sign.fcgi
wiki
Sandbox
WebChanges
WebHome
Признаки для парсинга можно собрать самому либо купить благо продают. А можно не утруждаться и купить базы ;)
Правила парсинга.
В целом, правила для парсинга у агресса достаточно простые. Все регулярные выражения заменены на макросы. {TEXT} - что будем парсить, те повторяющиеся выражения. {NEXTLINK} - ссылка на следующую страницу. Однако, надо учитывать, что ссылки должны быть абсолютными, те вида http://domain/query=
Пример, правила.

Url-http://www.google.com
AbsoluteUrl-http://www.google.com/search?client=opera&rls=ru&q={REQUEST}{system\topdomains.txt}&sourceid=opera&ie=utf-8&oe=utf-8&num=100
UntilTextAfter-{TEXT}
UntilNextLinkAfter-{NEXTLINK}
Pattern-{TEXT}
Вот в принципе и все касаемо парсинга ресурсов.

2 коммент.:

Рома комментирует...

полезные советы!

markus комментирует...

Стараемся) Впредь будет только смак!)

Отправить комментарий