Robots.txt beállítás egyszerűen és hatékonyan

Robots.txt alapok: Kinek van bejárása az oldaladra? – Hogyan tiltsuk le a nem kívánt botokat vagy a fejlesztési könyvtárakat
A keresőoptimalizálás egyik leginkább alulértékelt, mégis alapvető technikai eleme a robots.txt fájl. Egyetlen sor benne elegendő lehet ahhoz, hogy egy teljes könyvtár elérhetetlenné váljon a keresőrobotok számára – vagy épp ellenkezőleg, hogy engedélyezzünk olyan hozzáférést, amit inkább nem tennénk. Az 1b.hu tapasztalata alapján ez az egyszerű szöveges fájl gyakran döntő szerepet játszik egy weboldal technikai SEO-jában, különösen, ha több környezetet (fejlesztői, éles, staging) vagy nagyobb architektúrát kezelünk.
Mi is az a robots.txt fájl, és miért fontos?
A robots.txt fájl a weboldalad gyökérkönyvtárában található, és azt szabályozza, hogy az internetes keresőrobotok (pl. Googlebot, Bingbot, YandexBot) milyen tartalmakhoz férhetnek hozzá. Bár ez a fájl csak egy ajánlás a robotok számára, a legtöbb megbízható keresőmotor tiszteletben tartja. Ez az első fájl, amit a keresőrobotok megnéznek, mielőtt elkezdik feltérképezni a weboldalad tartalmát.
Nem csak SEO: biztonsági és erőforrás-kezelési eszköz is
Sokan kizárólag SEO szempontból tekintenek a robots.txt fájlra, pedig ez a fájl egyben segít optimalizálni a szerver terhelését is. Ha nem szabályozod, mely könyvtárak vagy fájlok érhetők el a robotok számára, könnyen előfordulhat, hogy egy-egy crawler a teljes site-ot próbálja bejárni – beleértve a /admin/, /dev/ vagy más érzékeny könyvtárakat is. Az 1b.hu üzemeltetési tapasztalatai szerint ez gyakran indokolatlan terhelést okozhat a szerveren, főleg, ha több tucat vagy több száz különböző bot próbál egyszerre feltérképezni mindent.
Fejlesztési könyvtárak kizárása – védd, ami nem publikus
Ha aktív fejlesztés zajlik a weboldalon, akkor jó eséllyel vannak olyan könyvtárak, amelyek nem publikusak – például staging, dev, test, beta vagy v2 verziók. Ezeket semmiképpen nem szeretnéd, hogy a Google indexálja, hiszen félkész vagy akár hibás tartalom is lehet bennük, ami ronthatja az oldalad hitelességét a keresők szemében.
Például:
User-agent: *
Disallow: /dev/
Disallow: /staging/
Disallow: /beta/
Ez a szabályozás világosan jelzi a robotoknak, hogy ezeket a könyvtárakat nem szabad feltérképezni.
Nem kívánt botok blokkolása – ne minden robot legyen vendég
Nem minden bot viselkedik jól. Vannak olyan automatizált robotok, amelyek kifejezetten adatgyűjtésre, spamelésre vagy konkurens elemzésre jönnek – ráadásul gyakran jelentős erőforrást emésztenek fel. Ezeket érdemes célzottan tiltani:
User-agent: AhrefsBot
Disallow: /
User-agent: SemrushBot
Disallow: /
User-agent: MJ12bot
Disallow: /
A tiltás nem garantálja, hogy ezek a botok valóban nem lépnek be, de az ismert, “jóhiszemű” robotok többsége követi ezeket a szabályokat. A 1b.hu saját szervermegfigyelése szerint az Ahrefs és Semrush botok például akkor is feltérképezik az oldalt, ha nem akarsz tőlük SEO-elemzést – ezért sok ügyfél automatikusan tiltja őket.
Speciális útvonalak, JavaScript fájlok és feltérképezhetőség
Fontos, hogy ne essünk túlzásba. Ha például olyan mappát zársz ki, amelyben a weboldalad működéséhez elengedhetetlen JavaScript vagy CSS fájlok vannak, az ronthatja a Google indexelési eredményeit. A Google ma már rendereli a weboldalakat, ezért ha nem fér hozzá a frontend forrásokhoz, akkor nem látja jól az oldal működését, struktúráját.
Ezért mindig ellenőrizd, hogy mit tiltottál le. Ha például egy assets vagy public könyvtár is a kizárásban szerepel, az negatívan hathat a rangsorra.
A robots.txt nem biztonsági megoldás
Egy gyakori tévhit, hogy a robots.txt fájl alkalmas érzékeny tartalom elrejtésére. Fontos: a robots.txt nyilvánosan elérhető mindenki számára, és nem titkosít, nem véd. Ha beírod a domain után, pl. example.com/robots.txt, bárki megnézheti. Ha valódi biztonságot akarsz, akkor a könyvtárakat jelszavas védelemmel vagy IP-szűréssel zárd le, ne robots.txt-vel.
Hogyan ellenőrizd, mit csináltál jól vagy rosszul?
Több eszköz is elérhető a robots.txt fájl tesztelésére. A Google Search Console külön részt tartalmaz, ahol ellenőrizheted, hogy egy adott URL elérhető-e a robotok számára, és ha nem, akkor miért. Az 1b.hu SEO auditjaiban rendszeresen használ ilyen eszközöket, hogy ügyfelei biztosak lehessenek abban, amit akarnak indexeltetni, azt valóban látják a keresők – és amit nem, azt valóban nem.
Összefoglalás: egyszerű, de mégis döntő
A robots.txt fájl nem helyettesíti az átgondolt szerver- és tartalomstruktúrát, de egy jól kialakított weboldal elengedhetetlen része. Kiemelt jelentőséggel bír az éles és fejlesztési környezetek elválasztásában, a nem kívánt botok kiszűrésében és a keresőmotorok feltérképezési stratégiájának irányításában. Az 1b.hu szakértői gyakorlati tapasztalataik alapján minden új projekt esetében a robots.txt optimalizálását is az első lépések közé sorolják, hiszen ezzel később súlyos hibákat és adatvesztést lehet megelőzni.
Végső tanács: ne csak legyen robots.txt fájlod, hanem legyen jól beállítva. Mert nem mindegy, hogy kinek adsz kulcsot az ajtódhoz – és kinek nem.