Теперь поговорим про инструменты для парсинга. Существуют достаточно много парсеров, которыми можно пользоваться(самописные, Hrefer, AGGRESS Parser). Пример, будет для агресса.
Для того, чтобы начать парсинг надо либо создать поисковую команду(прошу не придираться к словам, я их так называю) либо собрать признаки парсинга. Признаками парсинга называются характерные признаки для определения тематичности, внутреннего устройства сайта(CMS), типа сайта(блог, форум, гостевуха), а также типа форм.
Итак, для парсинга с помощью команд устанавливает настройки: таймаут ~120, время между запросами ~60-80.
Команды для парсинга форумов.
site:.сom +intext:" Powered by vBulletin"
site:.сom +intext:"Powered by Invision Power Board"
site:.сom intitle:forum +intext:"phpBB"
site:.сom intitle:forum
site:.сom intitle:forum +intext:medical
| форумы | блоги | гостевые | вики |
|---|---|---|---|
| forum phorum topic bulletin thread modules.php yabb ultimatebb board phpbb act=ST act=SF list.php posting profile.php act=Reg post.php ubb exbb newbb ipb invision foro/ /sutra lofiversion | blog archive wordpress journal | gb guestb addmessage addguest addentry guestbook burning epad bbs apeboard action= guest. конецформыначалоформыsign_book.cgi addguest.html guestbook/addguest.html gbook/addguest.html gb/addguest.html regsign.cgi guestbook/a=sign guest_book/guest.pl guestbook/guest.pl gbook/guest.pl gb/guest.pl guest.pl guestbook.cgi gbook.cgi gb.cgi addguestGB2.cgi Sign_Guestbook.asp addguest.php Guestbook/Sign_Guestbook.asp Gbook/Sign_Guestbook.asp Gb/Sign_Guestbook.asp gst_sign.dbm GuestBook/gst_sign.dbm guestbook/sign.html gbook/sign.html gb/sign.html wgbsign.html guessbook/sign.html sign.html addbook.cgi sign.fcgi | wiki Sandbox WebChanges WebHome |
Правила парсинга.
В целом, правила для парсинга у агресса достаточно простые. Все регулярные выражения заменены на макросы. {TEXT} - что будем парсить, те повторяющиеся выражения. {NEXTLINK} - ссылка на следующую страницу. Однако, надо учитывать, что ссылки должны быть абсолютными, те вида http://domain/query=
Пример, правила.
Url-http://www.google.com
AbsoluteUrl-http://www.google.com/search?client=opera&rls=ru&q={REQUEST}{system\topdomains.txt}&sourceid=opera&ie=utf-8&oe=utf-8&num=100
UntilTextAfter-{TEXT}
UntilNextLinkAfter-{NEXTLINK}
Pattern-{TEXT}
Вот в принципе и все касаемо парсинга ресурсов.
2 коммент.:
полезные советы!
Стараемся) Впредь будет только смак!)
Отправить комментарий