Jak szpiegować pajączki wyszukiwarek

How to spy spiders

Przykład PHP2014-03-07 stopień trudności: łatwy

Nie zawsze chcemy by jakieś sieciowe pajączki uruchamiały niektóre nasze skrypty przy wczytywaniu strony. Poniższy przykład służy do szpiegowania pajączków i pozwala na blokowanie zastrzeżonych funkcji. 


 <?php
//tworzymy tablicę zawierającą nazwy pajączków 
$browser = array(
"008",
"ABACHOBot",
"Accoona-AI-Agent",
"AddSugarSpiderBot",
"AhrefsBot",
"AnyApexBot",
"Arachmo",
"B-l-i-t-z-B-O-T",
"Baiduspider",
"BecomeBot",
"BeslistBot",
"BillyBobBot",
"Bimbot",
"Bingbot",
"BlitzBOT",
"boitho.com-dc",
"boitho.com-robot",
"btbot",
"CatchBot",
"Cerberian Drtrs",
"Charlotte",
"ConveraCrawler",
"cosmos",
"Covario IDS",
"DataparkSearch",
"DiamondBot",
"Discobot",
"Dotbot",
"EARTHCOM.info",
"EmeraldShield.com WebBot",
"envolk[ITS]spider",
"EsperanzaBot",
"Exabot",
"FAST Enterprise Crawler",
"FAST-WebCrawler",
"FDSE robot",
"FindLinks",
"FurlBot",
"FyberSpider",
"g2crawler",
"Gaisbot",
"GalaxyBot",
"genieBot",
"Gigabot",
"Girafabot",
"Googlebot",
"Googlebot-Image",
"Googleboot-Image",
"GurujiBot",
"HappyFunBot",
"hl_ftien_spider",
"Holmes",
"htdig",
"iaskspider",
"ia_archiver",
"iCCrawler",
"ichiro",
"igdeSpyder",
"IRLbot",
"IssueCrawler",
"Jaxified Bot",
"Jyxobot",
"KoepaBot",
"L.webis",
"LapozzBot",
"Larbin",
"LDSpider",
"LexxeBot",
"Linguee Bot",
"LinkWalker",
"lmspider",
"lwp-trivial",
"mabontland",
"magpie-crawler",
"Mediapartners-Google",
"MJ12bot",
"MLBot",
"Mnogosearch",
"mogimogi",
"MojeekBot",
"Moreoverbot",
"Morning Paper",
"msnbot",
"MSRBot",
"MVAClient",
"mxbot",
"NetResearchServer",
"NetSeer Crawler",
"NewsGator",
"NG-Search",
"nicebot",
"noxtrumbot",
"Nusearch Spider",
"NutchCVS",
"Nymesis",
"obot",
"oegp",
"omgilibot",
"OmniExplorer_Bot",
"OOZBOT",
"OpenWebIndex",
"Orbiter",
"PageBitesHyperBot",
"Peew",
"polybot",
"Pompos",
"PostPost",
"Psbot",
"PycURL",
"Qseero",
"Radian6",
"RAMPyBot",
"RufusBot",
"SandCrawler",
"SBIder",
"ScoutJet",
"Scrubby",
"SearchSight",
"Seekbot",
"semanticdiscovery",
"Sensis Web Crawler",
"SEOChat::Bot",
"SeznamBot",
"Shim-Crawler",
"ShopWiki",
"Shoula robot",
"silk",
"Sitebot",
"Snappy",
"sogou spider",
"Sosospider",
"Speedy Spider",
"Sqworm",
"StackRambler",
"Statsbot",
"suggybot",
"SurveyBot",
"SynooBot",
"Teoma",
"TerrawizBot",
"TheSuBot",
"Thumbnail.CZ robot",
"TinEye",
"truwoGPS",
"TurnitinBot",
"TweetedTimes Bot",
"TwengaBot",
"updated",
"Urlfilebot",
"Vagabondo",
"VoilaBot",
"Vortex",
"voyager",
"VYU2",
"webcollage",
"Websquash.com",
"wf84",
"WoFindeIch Robot",
"WomlpeFactory",
"Xaldon_WebSpider",
"yacy",
"Yahoo! Slurp",
"Yahoo! Slurp China",
"YahooSeeker",
"YahooSeeker-Testing",
"YandexBot",
"YandexImages",
"YandexMetrika",
"Yasaklibot",
"Yeti",
"YodaoBot",
"yoogliFetchAgent",
"YoudaoBot",
"Zao",
"Zealbot",
"zspider",
"ZyBorg"
);


$user_agent strtoupper($_SERVER['HTTP_USER_AGENT']);
if ( 
$user_agent == "" )
$spider_eng 1; }
else
$spider_eng 0;
while(list(
$key$val) = each($browser))
{
if( 
strstr($user_agentstrtoupper($val)))
{
$spider_eng 1;
break;
}
}
}

if(
$spider_eng)

//wykonujemy czynności jeśli wykryjemy pajączka
}
else
{
//wykonujemy czynności jeśli nie wykryjemy pajączka
}
?> 



 
close
Strona korzysta z plików cookies. Zastosowane pliki cookie służą jedynie do prowadzenia ogólnych statystyk pozwalających na określenie popularności serwisu.