작업 일지
작업일지 검색로봇을 위한 작업
관리자   2019.10.07 19:16:37
검색로봇을 위한 작업
 
오늘은 사용자가 아닌 검색로봇을 위한 작업을 했다.
 
대부분의 포털 사이트에서 인터넷에 산재해 있는 자료를 찾아 정리하기 위해서 검색로봇을 활용한다.
 
검색로봇은 사이트를 돌아다니면서, 사이트에서 제공하는 robots.txt 파일을 먼저 확인한다. 이 파일 안에는 검색로봇에게 제공하는 정보가 들어있다.
 
예를 들면, 검색로봇의 방문을 허용할 수도 있고, 차단할 수도 있다. 또는 특정 검색로봇만을 허용 또는 차단을 할 수가 있다. 또한 사이트 내의 특정 페이지를 접근 허용하거나 차단할 수가 있다.
 
이 파일에는 또 다른 정보도 들어간다. 그것은 전체 사이트의 구조를 알 수 있는 사이트맵이다. 정확하게는 sitemap.xml 의 위치가 들어갈 수 있다.
 
사이트맵은 사이트 내의 수집 대상 URL 목록을 담은 XML 형식의 파일이다.
 
지금까지는 수작업으로 새롭게 생성된 자료들의 URL을 추가했었다. 계속하다보니, 번거로운 작업이고, 단순작업이고, 주기적인 작업이고, 즉각 반영이 어렵고, 기타 등등. 무엇보다도 귀찮음이 커졌다.
 
그래서 계속 마음 먹고 있던, 생각하고 있었던, 자동화 작업을 했다.
 
이제는 매일 새벽에 최신의 sitemap.xml 파일로 변신한다.
 
오늘로서 cron 에 등록 된 자동화 작업이 하나 더 추가 됐다.
 
- 작업자 A -
 
목록
목록 보기 / 숨기기