정보 검색 시간에 웹 크롤러를 배워서 한번 만들어 보기로 했다.
mercator paper 내용이 담겨있는 강의자료를 참고해서 만들었다.
백앤드 큐, 프론트 앤드 큐
처리한 URL, 백앤드 큐의 갯수 등을 나타낸다.
탐색한 url list..
생각해보니 해당 url에서 link만 추출하고 다버렸음 ㅋㅋㅋ
생각만큼 그렇게 빠르지는 않았다.
한 200개 정도 쓰레드를 돌려야 속도가 날것같은데
seed가 구린지 큐가 자꾸 비어버린다. 시간을 얼마 안들여서 그런지 왠지 숨겨진 버그도 있을것같다..
모니터 같은 객체를 넣으면 처리는 되겠지만 시험 공부하는 김에 만든 거니 수정은 언제가 될지 모르겠다.
재미는 있는듯 ㅋ
mercator paper 내용이 담겨있는 강의자료를 참고해서 만들었다.
백앤드 큐, 프론트 앤드 큐
처리한 URL, 백앤드 큐의 갯수 등을 나타낸다.
쓰래드는 총 63개가 돌아갔다.
탐색한 url list..
생각해보니 해당 url에서 link만 추출하고 다버렸음 ㅋㅋㅋ
생각만큼 그렇게 빠르지는 않았다.
한 200개 정도 쓰레드를 돌려야 속도가 날것같은데
seed가 구린지 큐가 자꾸 비어버린다. 시간을 얼마 안들여서 그런지 왠지 숨겨진 버그도 있을것같다..
모니터 같은 객체를 넣으면 처리는 되겠지만 시험 공부하는 김에 만든 거니 수정은 언제가 될지 모르겠다.
재미는 있는듯 ㅋ
'공부' 카테고리의 다른 글
| 정보검색 - Web Crawler (3) | 2011/10/12 |
|---|