Robots.txt 생성기
웹사이트용 robots.txt 파일을 생성합니다. 검색 엔진이 콘텐츠를 크롤링하고 색인화하는 방법을 제어합니다.
규칙
규칙 #1
모든 봇을 대상으로 하려면 *를 사용하거나, Googlebot, GPTBot 등 특정 봇 이름을 지정하세요.
크롤러가 접근할 수 있는 경로를 입력하세요 (줄당 하나씩)
크롤러가 접근하지 못하게 할 경로를 입력하세요 (줄당 하나씩)
선택 사항: 크롤러 요청 사이의 시간 (초)
선택 사항: 검색 엔진이 콘텐츠를 찾는 데 도움이 되도록 사이트맵 URL을 추가하세요
생성된 robots.txt
User-agent: * Allow: /
사용 방법
- User Agent를 구성하세요 (모든 봇은 * 사용)
- 각 규칙에 허용 또는 금지할 경로를 추가하세요
- 선택적으로 사이트맵 URL과 크롤 지연을 추가하세요
- 생성된 robots.txt 내용을 복사하세요
- 웹사이트 루트 디렉토리에 robots.txt로 업로드하세요
robots.txt란?
robots.txt 파일은 웹사이트의 루트 디렉토리에 배치되어 웹 크롤러와 봇에게 사이트의 어떤 페이지나 섹션에 접근할 수 있고 없는지를 알려주는 텍스트 파일입니다. 이것은 로봇 배제 프로토콜(REP)의 일부로, 로봇이 웹을 크롤링하는 방식을 규제하는 웹 표준 그룹입니다.
왜 robots.txt가 필요한가요?
- 크롤링 제어: 크롤러가 비공개, 중복 또는 중요하지 않은 페이지에 접근하는 것을 방지
- 대역폭 절약: 크롤러 접근을 필수 콘텐츠로 제한하여 서버 부하 감소
- 민감한 영역 보호: 관리자 페이지, 스테이징 환경 및 내부 도구에 대한 접근 차단
- AI 크롤러 관리: GPTBot과 같은 AI 학습 봇이 콘텐츠에 접근할 수 있는지 제어
- SEO 개선: 검색 엔진이 가장 중요한 페이지에 집중하도록 도움
일반적인 User Agent
검색 엔진 봇
- Googlebot (Google)
- Bingbot (Bing)
- Slurp (Yahoo)
- DuckDuckBot (DuckDuckGo)
- Baiduspider (Baidu)
AI 크롤러
- GPTBot (OpenAI)
- CCBot (Common Crawl)
- Google-Extended (Google AI)
- anthropic-ai (Anthropic)
- ClaudeBot (Anthropic)
모범 사례
- 크롤러가 콘텐츠를 발견하는 데 도움이 되도록 항상 사이트맵 지시문을 포함하세요
- Google Search Console을 사용하여 배포 전에 robots.txt를 테스트하세요
- 민감한 정보를 숨기기 위해 robots.txt를 사용하지 마세요 - 대신 인증을 사용하세요
- robots.txt 파일을 간단하고 잘 정리된 상태로 유지하세요
- 사이트가 변경될 때 정기적으로 robots.txt를 검토하고 업데이트하세요
일반적인 예시
모든 크롤러 허용
User-agent: * Allow: / Sitemap: https://example.com/sitemap.xml
AI 크롤러 차단
User-agent: GPTBot Disallow: / User-agent: CCBot Disallow: / User-agent: * Allow: / Sitemap: https://example.com/sitemap.xml
특정 디렉토리 차단
User-agent: * Allow: / Disallow: /admin/ Disallow: /private/ Disallow: /tmp/ Sitemap: https://example.com/sitemap.xml