멀티캠
전체 스터디
  • 전체보기
  • 질문
  • 숙제
내 스터디
  • 스터디에 참여해보세요!
다른 스터디
  • 멀티캠
    • 전체보기
    • 질문
    • 숙제
    • 잡담
  • 파이썬 기초 스터디
  • 네이버 정복 파이썬 크롤링
  • 페이스북 만드는 웹개발
  • 데이터사이언스 12시간 입문기
  • 파이썬 구글 Sheet 연동
  • 엑셀서당 - 훈장님의 기초 엑셀 트레이닝
  • 고전게임을 만들며 배우는 코딩의 기초
  • 내 업무를 거의 자동화하는 방법
  • SQL 입문 4시간
  • QR 코드 프로그래밍
  • 비전공자 개발지식 총정리
  • 초고속 퍼포먼스 마케터
  • 왓챠 함께 만들기
  • 퍼블리셔 초고속 입문기
  • 한국형 커뮤니티 만들기
  • airbnb 프론트엔드 카피 프로젝트
  • 워드프레스로 쿠팡 만들기
신재용 리더
네이버 정복 파이썬 크롤링
온라인
남주현
11월 18일 22:17 · 멀티캠

1.링크드인에서  채용정보를 수집

(HR, 인사, 직원경험 등 관련부분 24시간 기준)

https://www.linkedin.com


2. 키워드 분석

 1) Jop description에 자주 나오는 단어

 2) 해당 공고가 속한 업계

 3) 1)과 2)의 상관관계 분석


 3. 24시간 단위로 수행하며, 데이터가 누적되어 기간별로 비교분석이 되면 좋겠음

자세히 보기
신재용
11월 18일 23:19

우선 스터디에서 다루는 내용은 Python을 이용해 웹 페이지를 수집하는 1번까지입니다.

제가 링크드인을 잘 다루지 못하기 때문에 정확히 찾아내지는 못했는데, 말씀하신 HR, 인사, 직원경험 등에 대한 정형화된 데이터가 있다면 어렵지 않게 수집이 가능합니다.

키워드분석은 재량껏 진행해주셔야 하는데, 마지막 주차에는 2-1)의 빈도분석까지만 구현하는걸 목표로 잡으시길 추천드립니다. 우리 스터디의 천준수님은 빈도분석을 위해 형태소 분석을 고려하시는것 같습니다. 

기간별로 데이터를 누적시키기 위해서는 엑셀을 사용하시길 추천드립니다. 추후에 개인적으로 진행하는 프로젝트가 고도화되면 다른 데이터베이스가 필요해지겠지만, 초기 단계에서는 엑셀이 빠르게 테스트하고 시각화해보기 가장 좋은 데이터베이스라고 생각합니다.

좋아요 0
    안길현
    11월 17일 20:56 · 멀티캠

    1.네이버 부동산 사이트 '매물'에서 정보를 수집한다

    https://land.naver.com/ 

    (지도형식의 사이트인데 웹크롤링이 가능할까요?)


    2.범주에 해당되는 정보를 불러온다

    (1차)매출검색에서 정보 필터

    ex)아파트오피스텔-아파트-매매-6억 이하

    (2차)지역에서 정보 필터

    ex)서울시-강서구-가양동-최근입주순 상위 5순위까지


    3.랭킹순으로 상위 3순위 매물 정보 수집

    ex)매물명, 매매가, 아래하단의 정보, 중개부동산


    4.매일 아침 10시에 자동으로 1~3번 과정 반복하며 업데이트(엑셀 출력)


    자세히 보기
    신재용
    11월 18일 20:56

    1. 지도의 검색 결과 페이지처럼 수집 도중에 클릭이 필요한 페이지의 수집기도 5주차 과정을 마치고나면 구현 하실 수 있습니다. 

    2번과 3번 내용의 경우 제가 제대로 이해했는지는 모르겠습니다만..

    https://m.land.naver.com/map/37.5681:126.8454:14:1150010400/APT:OPST/A1?dprcMax=60000&

    위의 URL로 접속해보시면 강서구 가양동의 6억 이하 아파트, 오피스텔 매물을 보여줍니다.

    URL에 이미 필터에 관한 많은 정보가 담겨있고, 결과를 보기 위해 약간의 클릭만 더해주면 되므로 충분히 구현 가능할것 같습니다.

    참고로 PC보다 모바일 페이지가 더 깔끔해보여서 m.land.naver.com을 이용했습니다.

    좋아요 1
    천준수
    11월 16일 17:55 · 멀티캠

    1. 글로우픽 사이트에서 화장품 리뷰를 수집

    - https://www.glowpick.com/beauty/ranking?id=142&level=3

      (예시: 마일드선크림 카테고리)

    - 리뷰를 분석하고자 하는 랭킹에 있는 특정 제품 지정


    2. 수집된 데이터를 형태소 분석하여 주요 키워드를 뽑아낸다.

    - 1차 목표: 단순 키워드 빈도분석

    - 2차 목표: 키워드에 대한 긍부정 분석

    (키워드 전후 단어까지 카운팅하여 ex. [끈적임 없이/끈적임 심해서] 를 구분할 수 있게끔)


    3. 단어 사전은 사용하면서 직접 업데이트 가능하면 좋겠음.

    자세히 보기
    신재용
    11월 17일 20:38

    좋은 주제같습니다.

    글로우픽 리뷰 페이지는 5주차가 지나면 스터디에서 익히는 내용을 적용해서 무리없이 수집할수 있습니다. 

    다만 이 페이지에서 리뷰를 추가 로딩하는 방법이 페이지 기반이 아니고, 무한스크롤(마지막 리뷰까지 로드된 후 스크롤을 더 내리면 추가로 로드하는 방법) 기반이기 때문에 이 부분 구현할때 시간이 꽤 들것 같기도 합니다. 이 부분은 스터디에서 다루지 않거든요.

    3시간 짜리 미니프로젝트인 만큼, 1번 + 2번의 1차 목표까지 구현하는걸 우선 목표로 삼으면 좋겠습니다. 이미 나와있는 라이브러리들 이용해서 빈도수 체크까지 하는건 큰 무리 없을것 같습니다.

    좋아요 0
      성기영
      11월 16일 09:21 · 멀티캠

      1. 주요 2개의 Website에서 해외 신제품 출시 정보를 수집한다.

      - (1) 서구권: https://1beautynews.ru/ 

      - (2) 일본: https://www.cosme.net/news


      2. 수집한 data를 동일한 data frame으로 저장한다. (excel)

      - 위 1-(1) Website의 경우, 정형화된 구조가 아니라서 가능할지 모르겠습니다.


      3. 매일 아침 9시에 자동으로 1-2번의 과정을 수행한다.

      자세히 보기
      신재용
      11월 17일 20:12

      말씀하신대로 1-(1)의 사이트는 정형화된 구조가 아니라 1-(2) 사이트와 비슷한 형식의 데이터를 뽑아내기는 어려울 것으로 보입니다. 1-(1) 사이트에서 매일 같은 결과를 얻을 수 있는 요소는 기사 제목과, 태그의 첫번째 요소에 위치한 브랜드 이름 뿐입니다. 글 내용을 수집할 때는, '출시'나 '발매'같은 단어가 들어가는 문장을 수집한다던지, 어느정도 타협이 필요할것 같네요.

      우선 마지막날 실습때는 1-(2) 사이트를 기준으로 크롤러를 작성해 보시고, 추후에 ㄱ 개선해 나가시는걸 추천드립니다. 1-(2) 사이트만으로도 스터디에서 익힌 내용들을 실습해보기 좋은 주제인것 같습니다.

      좋아요 0
        천준수
        11월 11일 13:37 · 멀티캠

        <과제1>

        tr.athing 

        span.rank 

        a.storylink 

        span.sitestr

        <과제2>

        ul.lst_thum li

        ul.lst_thum li a strong 

        span.writer

        자세히 보기
        신재용
        11월 11일 15:03

        딱히 흠잡을데 없이 잘 작성해 주셨습니다!

        좋아요 0
          남주현
          11월 11일 09:43 · 멀티캠
          신재용
          11월 11일 15:02

          자율과제1

          알맞게 잘 작성해 주셨습니다.

          자율과제2

          1. div.1st_thum_wrap -> div.lst_thum_wrap 알파벳 l을 숫자 1로 잘못 적으신것 같아요.

          2.

          #1: 컨테이너를 div.top100 div.lst_thum_wrap 까지만 선택하면 20권의 도서를 모두 감싸고 있는 div가 잡히게 됩니다. 이 문제에서는 제목과 저자를 포함한 도서정보를 가지고 있는 박스가 컨테이너가 되어야 하니까, 작성해주신 선택자에서 살짝만 수정해서 div.top100 div.lst_thum_wrap li 정도로 써볼수 있겠습니다.

          #2: a.title은 title class를 가지는 a 태그라는 의미입니다. a 태그 안에 title이라는 속성이 있어서 혼동하신게 아닐까 생각합니다. 이번 과제에서는 선택자만 이용해서 텍스트를 찾아야 하니까, a 태그 밑에 있는 strong 태그를 이용해보면 좋겠네요. div.lst_thum_wrap a strong

          #3: 마찬가지로 a태그의 title class를 선택하지 않도록 수정해봅시다. div.lst_thum_wrap a span.writer

          좋아요 0
            안길현
            11월 10일 18:40 · 멀티캠

             <자율과제1> 

            1.컨테이너 : tr.athing 

            2.순위 : tr.athing span.rank 

            3.제목 : tr.athing td.title a.storylink 

            4.출처 : tr.athing span.sitestr 


            <자율과제2>

             1.컨테이너 : div.lst_thum_wrap li 

            2.제목 : div.lst_thum_wrap li a>strong 

            3.저자 : div.lst_thum_wrap li span.writer

            자세히 보기
            신재용
            11월 11일 14:51

            두 문제 다 잘 작성해 주셨습니다.

            일부러 자손 선택자, 자식 선택자 둘다 사용해 보신것 같아요.

            자율과제2의 컨테이너는 div.lst_thum_wrap 대신 ul.lst_thum.v1를 사용하셔도 좋아요.

            ul과 li가 항상 붙어다니는 태그니까 의미적으로 더 어울리기도 합니다.

            좋아요 1
            참여자 네이버 정복 파이썬 크롤링
            너무 고민말고 물어보세요!
            kakao 카카오톡 상담
            kakao 적성 테스트
            부담없이 채팅 상담하세요. 친절한 코알라가 대기중입니다:)