티스토리 뷰
목차
안녕하세요! 우주파파훈입니다.
블로그를 작성하면서 크롤링과 스크래핑이 궁금해서 공부해 보았습니다.
크롤링(Crawling)과 스크래핑(Scraping)은 데이터 수집과 관련된 용어로,
종종 함께 사용되지만 목적과 방식에서 약간의 차이가 있습니다.
이 차이점에 대해 함께 살펴보겠습니다.
1. 크롤링(Crawling)
- 목적: 웹사이트를 탐색하고, 페이지 구조를 파악하며, 링크를 따라가며 새로운 페이지를 발견하는 것.
- 초점: 어디에 어떤 데이터가 있는지 찾는 과정
- 예시
"책 도서관에 가서 어떤 책들이 어디에 있는지 확인하기."
- 검색 엔진(예: 구글)은 크롤러(봇)를 사용해 웹 페이지를 탐색하고, 페이지의 링크 구조를 따라가며 웹 전체의 콘텐츠를 찾아냅니다.
- 기술: 크롤러 프로그램(예: Googlebot)이나 봇이 주로 사용됩니다.
2. 스크래핑(Scraping)
- 목적: 특정 웹페이지에서 원하는 데이터를 추출하고 저장하는 것.
- 초점: 필요한 데이터를 가져오는 과정
- 예시:
"도서관에서 원하는 책을 골라 그 내용을 메모하기."
예를 들어, 특정 쇼핑몰에서 상품 이름, 가격, 리뷰 데이터를 추출해 엑셀 파일로 저장하는 작업.
- 기술:
- 데이터 추출 도구(예: BeautifulSoup, Selenium) 또는 특정 API를 활용.
- 대상이 되는 페이지에서 특정 요소(예: 텍스트, 이미지)를 식별하고 가져오는 작업.
3. 크롤링과 스크래핑의 관계
- 크롤링이 데이터를 찾는 작업이라면, 스크래핑은 데이터를 추출하는 작업입니다.
- 크롤링은 스크래핑의 첫 번째 단계가 될 수 있습니다. 예를 들어, 웹사이트 전체를 크롤링해 필요한 페이지를 발견한 후, 해당 페이지에서 데이터를 스크래핑하는 방식입니다.
비유로 이해하기
- 크롤링: 동네를 돌아다니며 맛집 위치를 확인하기.
- 스크래핑: 맛집에서 메뉴와 가격표를 직접 가져오기.
주의
크롤링과 스크래핑 모두 법적, 윤리적 제약이 있을 수 있습니다. 특히 스크래핑은 사이트 이용 약관이나 개인정보 보호법을 위반하지 않도록 주의해야 합니다.