전체 스터디
전체 스터디
  • 전체보기
  • 질문
  • 숙제
내 스터디
  • 스터디에 참여해보세요!
다른 스터디
  • 파이썬 기초 스터디
  • 네이버 정복 파이썬 크롤링
  • 페이스북 만드는 웹개발
  • 데이터사이언스 12시간 입문기
  • 파이썬 구글 Sheet 연동
  • 엑셀서당 - 훈장님의 기초 엑셀 트레이닝
  • 고전게임을 만들며 배우는 코딩의 기초
  • 내 업무를 거의 자동화하는 방법
  • SQL 입문 4시간
  • QR 코드 프로그래밍
  • 비전공자 개발지식 총정리
  • 초고속 퍼포먼스 마케터
  • 왓챠 함께 만들기
  • 퍼블리셔 초고속 입문기
  • 한국형 커뮤니티 만들기
  • airbnb 프론트엔드 카피 프로젝트
  • 워드프레스로 쿠팡 만들기
박지선
11월 27일 00:51 · DS사관학교 Oct. Part2

Part 2. 1주차 과제 1, 2 제출합니다

전도영
11월 24일 08:23 · DS사관학교 Oct. Part1

week6 숙제제출합니다.

황민수
11월 23일 16:19 · DS사관학교 Oct. Part1
최승민
11월 23일 14:26 · DS사관학교 Oct. Part1

숙제 제출합니다.

박서영
11월 23일 11:07 · DS사관학교 Oct. Part1
김민경
11월 22일 05:11 · DS사관학교 Oct. Part1

WEEK06 과제 제출합니다.

남주현
11월 18일 22:17 · 멀티캠

1.링크드인에서  채용정보를 수집

(HR, 인사, 직원경험 등 관련부분 24시간 기준)

https://www.linkedin.com


2. 키워드 분석

 1) Jop description에 자주 나오는 단어

 2) 해당 공고가 속한 업계

 3) 1)과 2)의 상관관계 분석


 3. 24시간 단위로 수행하며, 데이터가 누적되어 기간별로 비교분석이 되면 좋겠음

자세히 보기
신재용
11월 18일 23:19

우선 스터디에서 다루는 내용은 Python을 이용해 웹 페이지를 수집하는 1번까지입니다.

제가 링크드인을 잘 다루지 못하기 때문에 정확히 찾아내지는 못했는데, 말씀하신 HR, 인사, 직원경험 등에 대한 정형화된 데이터가 있다면 어렵지 않게 수집이 가능합니다.

키워드분석은 재량껏 진행해주셔야 하는데, 마지막 주차에는 2-1)의 빈도분석까지만 구현하는걸 목표로 잡으시길 추천드립니다. 우리 스터디의 천준수님은 빈도분석을 위해 형태소 분석을 고려하시는것 같습니다. 

기간별로 데이터를 누적시키기 위해서는 엑셀을 사용하시길 추천드립니다. 추후에 개인적으로 진행하는 프로젝트가 고도화되면 다른 데이터베이스가 필요해지겠지만, 초기 단계에서는 엑셀이 빠르게 테스트하고 시각화해보기 가장 좋은 데이터베이스라고 생각합니다.

좋아요 0
    안길현
    11월 17일 20:56 · 멀티캠

    1.네이버 부동산 사이트 '매물'에서 정보를 수집한다

    https://land.naver.com/ 

    (지도형식의 사이트인데 웹크롤링이 가능할까요?)


    2.범주에 해당되는 정보를 불러온다

    (1차)매출검색에서 정보 필터

    ex)아파트오피스텔-아파트-매매-6억 이하

    (2차)지역에서 정보 필터

    ex)서울시-강서구-가양동-최근입주순 상위 5순위까지


    3.랭킹순으로 상위 3순위 매물 정보 수집

    ex)매물명, 매매가, 아래하단의 정보, 중개부동산


    4.매일 아침 10시에 자동으로 1~3번 과정 반복하며 업데이트(엑셀 출력)


    자세히 보기
    신재용
    11월 18일 20:56

    1. 지도의 검색 결과 페이지처럼 수집 도중에 클릭이 필요한 페이지의 수집기도 5주차 과정을 마치고나면 구현 하실 수 있습니다. 

    2번과 3번 내용의 경우 제가 제대로 이해했는지는 모르겠습니다만..

    https://m.land.naver.com/map/37.5681:126.8454:14:1150010400/APT:OPST/A1?dprcMax=60000&

    위의 URL로 접속해보시면 강서구 가양동의 6억 이하 아파트, 오피스텔 매물을 보여줍니다.

    URL에 이미 필터에 관한 많은 정보가 담겨있고, 결과를 보기 위해 약간의 클릭만 더해주면 되므로 충분히 구현 가능할것 같습니다.

    참고로 PC보다 모바일 페이지가 더 깔끔해보여서 m.land.naver.com을 이용했습니다.

    좋아요 1
    천준수
    11월 16일 17:55 · 멀티캠

    1. 글로우픽 사이트에서 화장품 리뷰를 수집

    - https://www.glowpick.com/beauty/ranking?id=142&level=3

      (예시: 마일드선크림 카테고리)

    - 리뷰를 분석하고자 하는 랭킹에 있는 특정 제품 지정


    2. 수집된 데이터를 형태소 분석하여 주요 키워드를 뽑아낸다.

    - 1차 목표: 단순 키워드 빈도분석

    - 2차 목표: 키워드에 대한 긍부정 분석

    (키워드 전후 단어까지 카운팅하여 ex. [끈적임 없이/끈적임 심해서] 를 구분할 수 있게끔)


    3. 단어 사전은 사용하면서 직접 업데이트 가능하면 좋겠음.

    자세히 보기
    신재용
    11월 17일 20:38

    좋은 주제같습니다.

    글로우픽 리뷰 페이지는 5주차가 지나면 스터디에서 익히는 내용을 적용해서 무리없이 수집할수 있습니다. 

    다만 이 페이지에서 리뷰를 추가 로딩하는 방법이 페이지 기반이 아니고, 무한스크롤(마지막 리뷰까지 로드된 후 스크롤을 더 내리면 추가로 로드하는 방법) 기반이기 때문에 이 부분 구현할때 시간이 꽤 들것 같기도 합니다. 이 부분은 스터디에서 다루지 않거든요.

    3시간 짜리 미니프로젝트인 만큼, 1번 + 2번의 1차 목표까지 구현하는걸 우선 목표로 삼으면 좋겠습니다. 이미 나와있는 라이브러리들 이용해서 빈도수 체크까지 하는건 큰 무리 없을것 같습니다.

    좋아요 0
      황민수
      11월 16일 16:49 · DS사관학교 Oct. Part1
      김민경
      11월 16일 16:30 · DS사관학교 Oct. Part1

      WEEK05 과제 제출합니다.

      성기영
      11월 16일 09:21 · 멀티캠

      1. 주요 2개의 Website에서 해외 신제품 출시 정보를 수집한다.

      - (1) 서구권: https://1beautynews.ru/ 

      - (2) 일본: https://www.cosme.net/news


      2. 수집한 data를 동일한 data frame으로 저장한다. (excel)

      - 위 1-(1) Website의 경우, 정형화된 구조가 아니라서 가능할지 모르겠습니다.


      3. 매일 아침 9시에 자동으로 1-2번의 과정을 수행한다.

      자세히 보기
      신재용
      11월 17일 20:12

      말씀하신대로 1-(1)의 사이트는 정형화된 구조가 아니라 1-(2) 사이트와 비슷한 형식의 데이터를 뽑아내기는 어려울 것으로 보입니다. 1-(1) 사이트에서 매일 같은 결과를 얻을 수 있는 요소는 기사 제목과, 태그의 첫번째 요소에 위치한 브랜드 이름 뿐입니다. 글 내용을 수집할 때는, '출시'나 '발매'같은 단어가 들어가는 문장을 수집한다던지, 어느정도 타협이 필요할것 같네요.

      우선 마지막날 실습때는 1-(2) 사이트를 기준으로 크롤러를 작성해 보시고, 추후에 ㄱ 개선해 나가시는걸 추천드립니다. 1-(2) 사이트만으로도 스터디에서 익힌 내용들을 실습해보기 좋은 주제인것 같습니다.

      좋아요 0
        Sejin Ha
        11월 12일 22:31 · DS사관학교 Oct. Part1

        숙제제출합니다.

        박지선
        11월 12일 22:17 · DS사관학교 Oct. Part1

        박지선 wk 5 숙제제출합니다. 

        너무 고민말고 물어보세요!
        kakao 카카오톡 상담
        kakao 적성 테스트
        부담없이 채팅 상담하세요. 친절한 코알라가 대기중입니다:)