'2025/02/25 글 목록

07. 크롤링 도구

1. BeautifulSoup01. BeautifulSoup 개요💡Beautiful Soup은 Python 기반의 HTML, XML 파일을 파싱(parsing)하여 데이터를 추출하는 라이브러리이다. 이미 다운로드된 HTML 문서를 파싱하여 DOM(Document Object Model) 트리를 생성하고, DOM 트리를 탐색하 여 원하는 태그나 속성에 접근하고 데이터를 추출한다. 웹 페이지의 구조를 이해하고 필요한 데이터를 정제해 추출하는 데 적합하다. 02. BeautifulSoup 장단점장점가볍고 사용법이 간단하다.HTML 구조에서 특정 태그나 속성에 쉽게 접근 가능하다.빠른 파싱 속도를 제공한다.단점동적 웹 페이지(JavaScript 렌더링) 크롤링은 불가능하다.HT..

SKN/03. Web Crawling 2025.02.25

06. 크롤링 도구 개요

1. 크롤링 개요01. 파이썬 크롤링 라이브러리 종류(1) Requests특징 : HTTP 요청을 간단히 처리할 수 있는 라이브러리용도 :웹 페이지의 HTML 소스를 가져오기 위해 사용REST API 호출장점 :간단하고 빠른 HTTP 요청 지원쿠키, 세션, 인증 등 지원단점 :동적 콘텐츠(JavaScript로 렌더링되는 데이터)는 처리 불가import requestsurl = 'https://example.com'response = requests.get(url)print(response.text) (2) BeautifulSoup특징 : HTML과 XML 파일을 파싱하여 구조화된 데이터를 추출용도 :정적 웹사이트에서 데이터 추출DOM 트리 탐색 및 조작장점 :HTML 구조 파싱 및 간단한 데이터 추출에 ..

SKN/03. Web Crawling 2025.02.25

05. CSS 선택자

1. CSS 선택자01. 선택자 종류(1) 선택자 문법선택자문법설명전체 선택자*모든 요소 선택태그 선택자태그이름특정 태그 요소 선택클래스 선택자.클래스이름특정 클래스를 가진 요소 선택ID 선택자#아이디이름특정 ID를 가진 요소 선택자식 선택자부모요소 > 자식요소부모 요소 바로 아래 자식 요소 선택후손(하위) 선택자조상요소 자손요소조상 요소의 하위 자손 요소 선택인접 형제 선택자요소1 + 요소2요소1 바로 뒤에 나오는 요소2 선택일반 형제 선택자요소1 ~ 요소2요소1 다음에 나오는 요소2 선택 (2) 선택자 적용전체 선택자 : *태그 선택자 : p 태그클래스 선택자 : .ID 선택자 : #자식 선택자 : .parent > .child후손 선택자 : .ancestor .descendant인접 형제 선택자 :..

SKN/03. Web Crawling 2025.02.25

04. 브라우저 렌더링 동작 구조

1. 브라우저의 동작(1) 브라우저의 기본 구조User interface : 사용자가 사용하느 브라우저의 주소표시줄, 홈버튼, 북마크 등의 페이지 이외의 모든 영역Browswer Process : User interface 와 Redering Process 사이의 동작을 제어하는 영역Redering Process : 표시되는 영역을 모두 제어하는 영역Netrworking : HTTP/HTTPS의 네트워크 요청 및 인터넷 통신과 관련되 보안 문제를 처리하는 영역JavaScript interpreter : JavaScript 코드를 구문 분석하고 실행하는 영학을 하는 영역UI Backend : 기본 운영체제의 사용자 인터페이스를 사용(주로 기본위젯(창이나 콤보상자)등을 그리는데 주로 사용)Data Persi..

SKN/03. Web Crawling 2025.02.25

03. 크롤링 데이터 저장

1. 크롤링 데이터 저장 개요(1) 크롤링을 통해 수집한 데이터의 저장💡크롤링을 통해 수집한 데이터는 다양한 형식과 구조를 가질 수 있으며, 이를 효율적으로 저장하고 활용하기 위해서는 적절한 저장 방식을 선택하는 것이 중요하다. 데이터의 특성과 목적에 따라 파일 시스템, 데이터베이스 등 여러 가지 방법을 사용할 수 있다. (2) 데이터 저장의 필요성수집한 데이터를 안전하게 보관하여 이후 분석이나 활용에 사용하기 위해 데이터의 영속성을 보장해야 한다.적절한 형식으로 데이터를 저장하여 검색 및 처리 효율 향상시킬 수 있도록 데이터를 구조화 해야 한다.팀원 간, 다른 프로젝트 간 데이터 공유 및 재사용을 저장이 필요하다.(3) 데이터 저장 시 고려사항데이터의 특성을 파악한다.구조화 여부 : 데이터가 표 형태..

SKN/03. Web Crawling 2025.02.25

02. WEB의 구조 및 크롤링

1. WEB의 구조 웹은 수많은 웹 페이지들이 하이퍼링크로 연결된 거대한 네트워크로 구성되어 있으며, 이러한 연결성을 이용하여 크롤러는 웹 사이트를 탐색하고 필요한 데이터를 수집한다. 웹의 구조와 프로토콜, 그리고 표준화된 문서 형식은 크롤러가 효율적으로 웹을 탐색하고 정보를 추출할 수 있도록 한다. 01. WEB의 기본 구성 요소URL (Uniform Resource Locator)웹에서 자원의 위치를 나타내는 표준화된 주소 체계이다.프로토콜(http, https), 도메인 이름, 경로, 쿼리 스트링 등으로 구성된다.HTTP/HTTPS 프로토콜웹 클라이언트와 서버 간의 통신을 위한 프로토콜이다.요청(Request)과 응답(Response)의 형태로 데이터를 교환한다.HTML (HyperText Mar..

SKN/03. Web Crawling 2025.02.25

01. 크롤링 개요

1. 크롤링이란?01. 크롤링이란💡 크롤링(Crawling)은 웹 페이지나 API로부터 원하는 정보를 자동으로 수집하는 기술로, 웹 스크래핑(Web Scraping)이라고도 불린다. 크롤러(Crawler) 또는 스파이더(Spider)라고 불리는 프로그램이 인터넷 상의 웹 사이트를 링크를 따라가며 웹 전체 또는 특정 사이트를 자동으로 탐색하며 데이터를 추출한다. 크롤링은 대량의 데이터를 효율적으로 수집하여 데이터 분석, 머신러닝 모델 학습, 시장 조사 등 다양한 분야에서 활용된다. 02. 크롤링과 스크래핑의 차이점웹 크롤링 : 웹 전체를 자동 탐색하여 페이지를 수집 / 주로 검색 엔진에서 활용웹 스크래핑 : 특정 웹 페이지에서 원하는 데이터를 추출 / 데이터 분석이나 시장 조사 등 특정..

SKN/03. Web Crawling 2025.02.25

sk네트웍스 family AI 캠프 11기 3주차 회고록

3차 회고기간 : 2025.02.17월~2025.02.21금 📖 Review이번 주에는 streamlit을 마무리짓고, DB의 전반적인 내용을 배웠다.노션에 복습을 하다가 티스토리로 바꿀라니까 너무 번거로운 과정을 거쳤다 ㅠ 내용이 많아 링크로 요약하겠다https://dscience26.tistory.com/2 💡 Keep지각하지 않기 (당연한거지만....) ⚠️ Problem복습이 귀찮아지기 시작한다...젤 위험할ㄸ ㅐ...열시미 살자 🔥 Try자투리 시간 잘 활용하자집가면 엎어지지 말자..건강한 음식 먹자

SKN/Remind 2025.02.25

claovy☘️

2025/02/25 8

티스토리툴바

« 2025/02 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28