티스토리 뷰

카테고리 없음

크롤링과 스크래핑

우주파파훈3 2024. 11. 19. 20:17

목차



     

    안녕하세요! 우주파파훈입니다.

     

    블로그를 작성하면서 크롤링과 스크래핑이 궁금해서 공부해 보았습니다.

     

    크롤링(Crawling)과 스크래핑(Scraping)은 데이터 수집과 관련된 용어로,

     

    종종 함께 사용되지만 목적과 방식에서 약간의 차이가 있습니다. 

     

    이 차이점에 대해 함께 살펴보겠습니다.

     

     

     

     

     

    1. 크롤링(Crawling)

     


    - 목적: 웹사이트를 탐색하고, 페이지 구조를 파악하며, 링크를 따라가며 새로운 페이지를 발견하는 것.


    - 초점: 어디에 어떤 데이터가 있는지 찾는 과정


    - 예시


       "책 도서관에 가서 어떤 책들이 어디에 있는지 확인하기."


    - 검색 엔진(예: 구글)은 크롤러(봇)를 사용해 웹 페이지를 탐색하고, 페이지의 링크 구조를 따라가며 웹 전체의 콘텐츠를 찾아냅니다.


    - 기술: 크롤러 프로그램(예: Googlebot)이나 봇이 주로 사용됩니다.

     

     

     

     

     

     

     

    키워드 스터핑?

    안녕하세요! 우주파파 훈입니다. 저는 Chat GPT에게 질문과 답변을 통해 블로그 작성에 대해 배우고 있습니다. 오늘은 키워드 조사에 대해 배우다가 '키워드 스터핑'이라는 단어를 듣게 되어Chat G

    2.woojoopapa.com

     

     

    2. 스크래핑(Scraping)

     


    - 목적: 특정 웹페이지에서 원하는 데이터를 추출하고 저장하는 것.


    - 초점: 필요한 데이터를 가져오는 과정


    - 예시: 

     

      "도서관에서 원하는 책을 골라 그 내용을 메모하기."


      예를 들어, 특정 쇼핑몰에서 상품 이름, 가격, 리뷰 데이터를 추출해 엑셀 파일로 저장하는 작업.


    - 기술:


      - 데이터 추출 도구(예: BeautifulSoup, Selenium) 또는 특정 API를 활용.


      - 대상이 되는 페이지에서 특정 요소(예: 텍스트, 이미지)를 식별하고 가져오는 작업.

     

     

     

     

     

     

     

    '롱테일 키워드'가 궁금해요!

    안녕하세요! 우주파파훈입니다. 오늘은 블로그작성에 대한 공부 중 '롱테일 키워드'가 궁금해서 살펴보았습니다.      롱테일 키워드란?   롱테일 키워드는 사람들이 검색하는 더 길고 구체

    1.woojoopapa.com

     

     

    3. 크롤링과 스크래핑의 관계

     


    - 크롤링이 데이터를 찾는 작업이라면, 스크래핑은 데이터를 추출하는 작업입니다.


    - 크롤링은 스크래핑의 첫 번째 단계가 될 수 있습니다. 예를 들어, 웹사이트 전체를 크롤링해 필요한 페이지를 발견한 후, 해당 페이지에서 데이터를 스크래핑하는 방식입니다.

     

    비유로 이해하기


    - 크롤링: 동네를 돌아다니며 맛집 위치를 확인하기.
    - 스크래핑: 맛집에서 메뉴와 가격표를 직접 가져오기.

     


    주의

     

    크롤링과 스크래핑 모두 법적, 윤리적 제약이 있을 수 있습니다. 특히 스크래핑은 사이트 이용 약관이나 개인정보 보호법을 위반하지 않도록 주의해야 합니다.

     

     

     

     

     

    챗 지피티에게 물어본 블로그 잘쓰는 방법

    안녕하세요! 우주파파 훈입니다. 오늘은 블로그 잘 쓰는 방법이 궁금해서 챗 지피티에게 질문하고 받은 답변을 정리해 보았습니다.     질문 (Question)  Please tell me how to write a blog suitab

    woojoopapa.com

     

    반응형