구글 SEO robots.txt를 효과적으로 활용하기 9

구글 SEO robots.txt를 효과적으로 활용하기


검색에 노출이 필요하지 않은 부분을 robots.txt로 제어합니다


“robots.txt” 파일은 검색 엔진이 사이트에 접근하고 크롤링할 수 있 는 부분을 알려주어 검 색 엔진의 트래픽을 조절하는데 사용됩니다(1).

  


이 파일은 “robots.txt”라는 이름으로 반드시 지정되어야 하고 사이트의 루트 디렉토리에 있습니다(2).






사이트의 특정 페이지가 검색 엔진의 검색결과에 노출되는 것이 바람직하지 않은 경우, 해당 페이지가 크롤링될 수 없도록 할 수 있습니다. Google 웹마스터 도구에는 robots.txt를 변경하여 특정 URL 제어를 테스트하는 기능을 제공합니다(3).

(3) robots.txt 설정에 의해 차단된 URL을 Google 웹마스터 도구를 통해 확인할 수 있습니다.



사이트에 하위 도메인이 있고 특정 하위 도메인에 있는 특정 페이지가 크롤링되지 않기를 바라는 경우 해당 하위 도메인에 대해 별도의 robots.txt 파일을 만들어야 합니다. robots.txt 파일에 대한 자세한 내용은 r o b o t s . t x t 파일 사용에 대한 웹마스터 도움말 센터 가이드를 참조하시기 바랍니다.


콘텐츠가 검색결과에 나타나지 않도록 하는 여러 가지 방법이 있 습 니 다 . 로 봇 메 타 태그에 “ N O I N D E X ” 를 추가하거나, 비밀번호 보호 디렉토리에 .htaccess를 사용하거나, Google

웹마스터 도구를 사용하여 이미 크롤링한 콘텐츠를 제거하는 방법 등이 있습니다.


내 사이트가 검색에 노출이 되고 있는지 확인합니다


Google 웹마스터 도구에는 웹 페이지가 Google에 어떻게 수집되고 있는지를 확인하는 기능이 있습니다. “Fetch As Google” 기능을 통하여 페이지의 크롤링 상태를 확인, 문제가 있는 페이지를 확인할 수 있습니다(4).


(3) “Fetch As Google”의 기능을 사용하면 Google이 인식하는 것과 동일한 페이지를 볼 수 있습니다


이 외에도, 자신의 사이트가 계속해서 검색에 노출이 되지 않을 경우가 있습니다 (Google 에서는 “site:” 검색 연산자를 통하여 대략적인 색인상태를 확인할 수 있습니다) . 만약 이러한 경우라면, 우선 위에서 명시한 robots.txt, 로봇 메타 태그 등의 설정을 확인하여 문제가 없음을 확인합니다. 그 후, 웹서버의 방화벽 설정 등, 사용하는 서버의 기본 설정을 확인하는 등이 도움이 될 수 있습니다.



robots.txt를 효과적으로 이용하기 권장 사항


robots.txt 를 보안 도구로 사용하지 않기

robots.txt는 정상적인 검색 엔진의 트래픽을 조절하기 위한 규약입니다. 과도한 robots.txt 설정은 사이트에 더 많은 방문자를 유도할 수 있는 정상적인 검색 엔진만을 차단할 뿐입니다. 해킹이나 악성코드를 유발하는 수많은 악의적인 로봇들은 이러한 로봇 배제 표준을 따르지 않습니다. 또한 많은 검색 엔진들이 제공하는 좋은 정보를 제공받지 못하게 되어 악성로봇의 공격에 노출되어도 쉽게 파악할 수 없게 됩니다.


피해야 할 사항:

  • 사이트 전반에 대하여 검색 엔진 차단(Disallow:/) - 검색 엔진 최적화를 원하는 사이트들이 robots.txt를 통하여 검색 엔진을 차단하고 있는 경우가 빈번하게 발생합니다. 검색 엔진을 차단하지 않는 것은 최적화의 기본입니다


민감한 콘텐츠는 보다 안전한 방법 사용하기

민감한 콘텐츠가 포함된 페이지의 URL에 인터넷 어딘가에서 링크(예: Referrer logs)가 있는 경우 검색 엔진이 차단된 URL을 여전히 참조할 수 있습니다 (제목 또는 내용 미리보기 없이 URL만 표시). 또한 호기심 많은 사용자가 robots.txt 파일에 명시된 하위 디렉토리를 검사하여 표시되지 않은 콘텐츠의 URL을 추측할 수도 있습니다. 민감한 콘텐츠는 암호화하거나 .htaccess를 사용하여 비밀번호로 보호하는 것이 보다 안전한 방법입니다.


피해야 할 사항:

  • 보안이 필요한 페이지를 보안 작업 없이 robots.txt 를 통하여 검색 엔진만 차단
    - robots.txt는 누구나 확인이 가능한 파일입니다. 검색 엔진만을 차단할 뿐 오히려 보안의 허점을 드러내게 됩니다.


웹마스터를 위한 무료 도구 사용하기

Google의 웹마스터 도구 등 검색엔진들이 웹마스터들을 위해 무료로 제공하는 도구에는 웹사이트의 트래픽을 분석하거나, 크롤링되고 색인되는 페이지에 대한 정보를 제공합니다.

이러한 도구들을 통하여 검색에 노출이 필요하지 않은 부분을 관리할 수 있습니다.



피해야 할 사항:

  • 검색결과 페이지와 유사한 페이지의 크롤링 허용
    - 검색 엔진을 이용하는 사용자의 입장에서, 검색 결과로부터 또 다른 검색 결과 페이지로 이동하는 것을 선호하지 않습니다.
  • 프록시 서비스 등의 결과물로 생성된 URL들의 크롤링을 허용




구글 SEO robots.txt를 효과적으로 활용하기




Designed by CMSFactory.NET