robots.txt 파일 검색 엔진 크롤링을 조절하는 핵심 도구

웹사이트 운영은 단순히 콘텐츠를 만들고 올리는 것 이상의 과정을 필요로 합니다. robots.txt는 검색 엔진에서의 웹사이트의 특정 부분을 검색 엔진 로봇이 크롤링하는 것을 허용하는 방법을 적어놓은 파일입니다. 그렇다면 어떻게 제어할 수 있을까요? 아래의 글로 알아보아요.

Table of Contents

robots.txt 파일의 역할

robots.txt 파일은 웹사이트의 루트 디렉토리에 위치하며, 검색 엔진 로봇에게 웹페이지를 어떻게 크롤링하고 인덱싱해야 하는지에 대한 지침을 제공합니다. 이 파일을 통해 특정 디렉토리나 파일에 대한 액세스를 허용하거나 제한할 수 있습니다.

User-agent

User-agent 지시는 특정 로봇에게 적용되는 지시를 정의합니다. ‘*’ 기호는 모든 로봇에게 적용되는 지시를 의미합니다.

Disallow

Disallow 지시는 특정 디렉토리 또는 파일에 대한 액세스를 로봇에게 허용하지 않는 지시입니다. 즉, 해당 경로의 페이지는 크롤링되지 않습니다.

Allow

Allow 지시는 특정 디렉토리 또는 파일에 대한 액세스를 로봇에게 허용하는 지시입니다. Disallow 지시와 반대로 해당 경로의 페이지는 크롤링될 수 있습니다.

Crawl-delay

특히, Crawl-delay 지시는 검색 엔진 로봇의 크롤링 속도를 조절하는 데 중요한 역할을 합니다. 이 지시를 통해 로봇이 사이트를 크롤링하는 속도를 지연시킴으로써 서버에 부하를 줄이고 웹사이트의 성능을 최적화할 수 있습니다.

robots.txt 작성방법

아래의 소스코드는 robots.txt 파일의 작성 예시입니다.

# 모든 로봇에게 적용되는 지시
User-agent: *

# /admin/ 디렉토리는 모든 로봇에게 접근을 제한
Disallow: /admin/

# /private/ 디렉토리는 모든 로봇에게 접근을 제한
Disallow: /private/

# /public/ 디렉토리는 모든 로봇에게 허용
Allow: /public/

# 로봇이 각 페이지를 크롤링하기 전에 20초의 지연
Crawl-delay: 20

결론

robots.txt 파일은 웹사이트 운영자가 검색 엔진 로봇의 웹페이지 크롤링을 제어하는 데 필수적인 도구입니다.

특히, Crawl-delay 지시를 통해 크롤링 속도를 조절함으로써 서버 부하를 줄이고 웹사이트의 성능을 최적화할 수 있습니다.