[Jekyll] 블로그 설정 (Google Analytice / sitemap.xml / robots.txt)

GitHub Blog (jekyll) 검색 되게 만들기

Tistory 블로그 같은 경우, robots.txt 가 작성이 되어 있기 때문에, 구글 크롤링 봇 이나 여하 크롤링 봇에 의하여 블로그 글을 수집해간다.

내가 만든 jekyll 을 사용한 GitHub 블로그에는 robots.txt 가 작성이 되어 있지 않기 때문에, 구글이나 여하 검색 사이트에서 내 블로그 글을 검색해도 찾을 수가 없다.

https://pakpark.tistory.com/robots.txt

robots.txt 내용

검색 엔진에 수집 당하기

홈 페이지든, 블로그든 만들었으면 내가 만든 웹 페이지가 있다는 것을 검색 엔진에 알려야 한다.

그러기 위해서, sitemap 이란 것을 작성해서 검색 엔진 로봇에게 내 사이트의 존재와 구조에 대해서 알려야 한다.

다시 말해, sitemap 은 문자 그대로 내 사이트의 존재와 구조에 대해서 알리는 역할을 한다.

그럼 robots.txt 는 무얼 하냐. 내 사이트에서 크롤링 할 접근 목록에 대한 설정을 할 수 있다.
내 사이트에서 검색 엔진이 수집 하지 않아야 하는 부분을 정해 주고,
검색 할 부분을 정해주기도 하고,
어떤 검색 엔진 로봇을 허용할 지 정하고,
sitemap 의 URL 상의 접근 경로를 제시한다.

robots.txt

나의 경우, jekyll 프로젝트 root 경로에 robots.txt 를 위치 시켰다.
범위에 경우는 모든 걸 오픈했다.

robots 관련 링크 : Google Search Console 고객센터

sitemap.xml

sitemap 을 제출(?)하면 일반적인 크롤링 과정에서 쉽게 발견되지 않는 웹 페이지도 크롤링되고 색인 될 수 있게 해준다.

제출하는 방법은 robots.txt 파일 아무 위치에나 아래 경로명을 명시해주면 된다.
```
  Sitemap: http://example.com/sitemap_location.xml
```
굳이 root 경로에 두지 않아도 되지만, 많은 웹 사이트에서 root 경로에 두고있다.
sitemap 을 작성한다고 해서 ‘검색엔진최적화’ 를 이루는 것은 아니다. (‘상위 노출’ 등)

sitemap 관련 링크 : https://www.sitemaps.org

GA (Google Analytics)

Tistory 블로그의 경우 ‘블로그 방문자 통계’ 등을 제시해 준다. GitHub 블로그로 만든 페이지는 그런 서비스가 없기 때문에, Google 에서 사이트 방문에 대한 통계와 분석을 해주는 서비스가 GA (Google Analytics) 이다.

Google Analytice : https://analytics.google.com