Wat is een robot.txt file?
robots.txt
is een tekstbestand op een website dat instructies geeft aan webcrawlers of “robots” van zoekmachines over welke delen van de website wel of niet mogen worden gecrawld of geïndexeerd. Het is een belangrijk hulpmiddel voor websitebeheerders om controle te hebben over hoe zoekmachines hun website doorzoeken en welke delen van de site zichtbaar zijn in zoekresultaten.
Waarom is eenrobots.txt
belangrijk?
- Instructies voor webcrawlers: Het
robots.txt
-bestand bevat instructies voor webcrawlers van zoekmachines, zoals Googlebot, Bingbot en andere, over welke delen van de website moeten worden genegeerd of toegestaan. Deze instructies worden vaak aangeduid als “disallow” (niet toestaan) of “allow” (toestaan). - Locatie: Het
robots.txt
-bestand bevindt zich meestal in de hoofdmap van de website (bijvoorbeeld https://www.example.com/robots.txt). Webcrawlers controleren regelmatig dit bestand wanneer ze een website bezoeken om te begrijpen welke pagina’s ze wel en niet moeten crawlen. - User-agent: In het
robots.txt
-bestand kunnen instructies specifiek worden gericht op bepaalde webcrawlers of “user-agents”. Bijvoorbeeld, als u wilt dat Google uw hele website crawlt, maar Bing niet, kunt u instructies toevoegen voor elk van deze zoekmachines. - Toegang tot mappen en bestanden: Websitebeheerders kunnen aangeven welke mappen, bestanden of delen van de website moeten worden genegeerd door zoekmachines. Bijvoorbeeld, een site kan ervoor kiezen om de toegang tot de inhoud van privégebruikersaccounts te blokkeren.
- Sitemapverwijzing: Het
robots.txt
-bestand kan ook een verwijzing bevatten naar de locatie van de XML-sitemap van de website, waarmee zoekmachines de pagina’s van de site efficiënter kunnen ontdekken.
Hier is een eenvoudig voorbeeld van een robots.txt
-bestand:
User-agent: * Disallow: /geheime-map/ Allow: /openbare-map/
In dit voorbeeld wordt aan alle webcrawlers de toegang tot de “/geheime-map/” ontzegd, terwijl ze wel toegang hebben tot de “/openbare-map/”.
Let goed op. Zet niet de hele website op no-index
Websitebeheerders moeten zorgvuldig robots.txt
-bestanden instellen om ervoor te zorgen dat ze geen belangrijke pagina’s blokkeren die zichtbaar moeten zijn in zoekresultaten. Helaas zien wij regelmatig websites voorbij komen die helemaal op no-index staan doordat zo is aangegeven in de robot.txt file. Gelukkig in kan je dit in 1 minuut weer op index zetten.
Online marketing bureau
Heb je andere vragen over robot.txt files? Stel je vraag dan aan online marketing bureau Digital Inside. Wij helpen je graag verder!