전체 스터디
전체 스터디
  • 전체보기
  • 질문
  • 숙제
내 스터디
  • 스터디에 참여해보세요!
다른 스터디
  • 멀티캠
    • 전체보기
    • 질문
    • 숙제
    • 잡담
  • 파이썬 기초 스터디
  • 네이버 정복 파이썬 크롤링
  • 페이스북 만드는 웹개발
  • 데이터사이언스 12시간 입문기
  • 파이썬 구글 Sheet 연동
  • 엑셀서당 - 훈장님의 기초 엑셀 트레이닝
  • 고전게임을 만들며 배우는 코딩의 기초
  • 내 업무를 거의 자동화하는 방법
  • SQL 입문 4시간
  • QR 코드 프로그래밍
  • 비전공자 개발지식 총정리
  • 초고속 퍼포먼스 마케터
  • 왓챠 함께 만들기
  • 퍼블리셔 초고속 입문기
  • 한국형 커뮤니티 만들기
  • airbnb 프론트엔드 카피 프로젝트
  • 워드프레스로 쿠팡 만들기
신재용 리더
네이버 정복 파이썬 크롤링
온라인
클래스 자세히 보기
천준수
12월 16일 17:38 · 멀티캠

강의자료 5주차 숙제 중에 다음의 영화 예매순위 페이지에서 데이터 수집하는게 있었는데.. 해당 페이지는 접속이 안되어서

https://movie.daum.net/premovie/released 로 들어가서 데이터 수집을 시도해보았는데, 제가 잘못한 것인지.. select로 원하는 데이터 선택이 안되는 것 같습니다.

제대로 수집이 되는지 확인하려고 i로 카운트를 해보려고 했는데 수집이 안되는 것 같습니다 ㅜㅜ


import requests from bs4 

import BeautifulSoup raw = requests.get("https://movie.daum.net/premovie/released", headers = {'User-Agent':'Mozilla/5.0'}) 

html = BeautifulSoup(raw.text, 'html.parser')

i = 1 

movies = html.select("ul.list_movie li")

for m in movies: 

     print(i)

     i += 1


신재용
12월 16일 18:16

daum같은 경우에는 User-Agent에 Mozilla/5.0처럼 불완전한 형태의 문자열이 들어올 경우 결과를 제대로 보내주지 않는 안티크롤링 코드가 심어져 있습니다.

daum 일부 도메인들은 Mozilla/5.0을 쓸 바에 아예 안 넣으면 돌아갈때도 있는데요. 영화 도메인은 완전한 형태의 User-Agent를 넣어야 동작하네요. 일단 아래 붙여드린 User-Agent를 사용해주세요. 제가 브라우저에 추출한 실제 User-Agent입니다.

{'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 11_0_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.101 Safari/537.36'}


https://www.notion.so/WEEK3-9f008766023944fda6d94ad55741b243

위의 강의자료 맨 마지막 즈음에 user-agent를 생성해주는 라이브러리에 대해 짧게 소개해드렸습니다. 다음 시간에 짧게 한번 더 언급하고 넘어가면 좋을것 같네요.

좋아요 0
    참여자 네이버 정복 파이썬 크롤링