본문 바로가기

데이터사이언스

(15)
Selenium 처음 시작해 보기 2021. 9. 30. 08:00 오랜만에 Data Science 카테고리에 글을 올리네요. 예전에 웹에서 데이터를 가지고 오는 간단한 방법을 이야기했던 적이 있습니다. 오늘은 그 글에서 이어지는 내용입니다. 웹상에서 어떤 입력폼에 글자를 입력한다든지, 접근해야할 상세 웹 주소가 보이지 않는다든지 등의 상황에서 유용하게 사용할 수 있는 도구가 selenium입니다. 위 그림에 나타나있듯이 selenium은 사용하는 브라우저에 맞춰 드라이버를 실행합니다. 그러면 해당 드라이버가 웹페이지를 읽을 브라우저를 실행해서 나의 코드에 의해 제어되도록 되는 것입니다. 설치는 pip 명령으로 먼저 진행하구요. 아래 그림처럼 자신의 크롬 버전을 확인합니다. 우측 상단 점 세개를 클릭한 다음 도움말의 크롬 버전을 확인하시면 됩니다. 크롬드라이버 다운로드 ..
많고 많은 캠핑장. 딱 나에게 맞는 캠핑장 추천해 드립니다. 2021. 8. 4. 08:00 이 글은 2021년 봄부터 이른 여름까지 수업을 한 패스트캠퍼스 성수 스쿨(지금은 스노우볼)에서 수업한 데이터사이언스 스쿨 17기의 프로젝트 중 하나를 소개하는 글입니다. 부족한 강사를 만나 더 좋은 성과를 낼 수 있었지만 그러지 못한 것이 미안할 따름입니다. 이번에는 요즘 관심들이 많은 캠핑에 대한 이야기입니다. 제가 수업을 한 팀중에 한 팀인데 이분들의 관심이 여러 경로를 지나다가 알고캠핑(Algo Camping)이라는 이름으로 정착을 했습니다.^^. 목표는 사용자에게 맞는 캠핑장을 추천하고, 또 캠핑장을 여러 공통점? 혹은 비슷한 내용으로 분류하여 사용자가 선택하기 쉽게 하기 위한 서비스의 제공입니다. 벌써 홈페이지도 만들고, 데이터 분석부터 백엔드, 프론트엔드 엔지니어들까지 규합해서 어마어마한 작..
패스트캠퍼스 DS 스쿨 14기 CCTV 속 사람 추적하기 2021. 1. 4. 08:00 이 글이 들어가는 카테고리에 요즘 제가 한가지 주제로만 채우고 있네요. 바로 패스트캠퍼스의 데이터 사이언스 스쿨 수업에서 진행하는 프로젝트의 결과들을 소개하는 글입니다. 패스트캠퍼스에서 수강하는 수강생들은 5~6개월의 기간을 9 to 10으로 아니, 거의 낮밤없이 공부에 매진하고 있는데요. 그 과정에서 5개 이상의 프로젝트를 또한 수행합니다. 이 프로젝트는 시작할떄만 해도 본인들의 역량 이상의 수준이지만, 이 과제를 진행하면서 많은 훈련이 됩니다. 개인이 스스로 진행하든 혹은 팀으로 하든 정확한 목표를 가지고 진행하는 프로젝트는 확실히 실력향상에 도움이 되죠. 이번에 소개할 프로젝트는 그 데이터가 약간 특이합니다.때는 제가 예전에 다녔던 회사에서 미국 휴스턴으로 출장을 가기 전날이었더걸로 기억납니다. 본..
패스트캠퍼스 DS 스쿨 14기 X-Ray 사진을 이용한 바이러스성 페렴 구분 프로젝트 소개 2020. 12. 27. 08:00 이미 많은 글들 속에서 저는 패스트캠퍼스라는 기관에서 데이터사이언스 관련 수업을 진행하고 있습니다. 패스트캠퍼스는 기수로 구분을 하고 있는데요. 최근 저는 14기 분들의 수업 중 진행한 프로젝트를 소개하고 있습니다. 이번에도 재미있는 프로젝트를 소개하려고 합니다. 2012년으로 저는 기억하는데요. 그 때 저는 한 회사의 연구소장이었습니다. 그 때 처음 인사를 했던 한 회사가 있었는데요. 그 회사가 지금 소개할 딥노이드(deepnoid)라는 회사입니다. 물론 그때는 다른 이름이었지만 말이죠. 저는 패스트캠퍼스에서 수업을 하면서 어떻게 하면 수강생들에게 보다 의미있는 실습과제를 진행할 수 있을지 고민이 많았습니다. 어떻게 하면 HW power부터 데이터, 프로젝트 리딩까지 잘 해야 수강생들에게 보다 좋은 기..
패스트캠퍼스 DS 스쿨 14기 마키아벨리즘 성향 분석을 통한 투표 참여 예측 프로젝트 소개 2020. 12. 17. 08:00 얼마전에 패스트캠퍼스의 데이터사이언스 스쿨의 14기 분들의 작품 중에서 쏘카의 보험사기 데이터 분석이라는 프로젝트를 소개했었는데요. 이번에는 역시 같은 기수인 14기 분들 중 또 다른 팀이 수행한 한 프로젝트를 소개하려고 합니다.바로 마키아벨리즘 성향 테스트 결과를 기반으로 투표 참여 여부를 예측해 보겠다는 다소 긴 이름의 프로젝트를 소개하려고 합니다.이 프로젝트는 마키아벨리즘 성향을 확인하는 설문조사 결과를 바탕으로 머신러닝을 이용해서 투표 참여 여부를 예측해보려는 시도입니다.저는 개인적으로 마키아벨리를 좋아하는데요^^ 그건 제가 "나의 친구 마키아벨리"라는 책을 꽤 재미있게 읽은 경험을 가지고 있기 때문입니다. 아무튼, 마키아벨리의 정치 이념에 얼마나 동조하는지 확인하는 조사가 있었던 모양입니다.이 ..
패스트캠퍼스 DS 스쿨 14기 쏘카 보험사기 데이터 프로젝트 소개 2020. 12. 14. 08:00 얼마전에 실화탐사대라는 TV 프로를 보다가 "가피공모"라는 주제를 다룬 것을 보았습니다. 가피공모, 일명 뒷쿵은 보험 사기의 한 수법으로 가해자와 피해자가 공모하여 일부러 사고를 내고, 보험금을 타는 방식의 범죄입니다.이런 데이터를 다룬 프로젝트가 있어서 오늘은 이 팀을 소개하려고 합니다.^^. 아시는 분은 아시지만, 저는 패스트캠퍼스에서 데이터 사이언스 분야에서 분석파트의 수업을 진행하고 있습니다. 관련해서 한 번 수강생들의 프로젝트를 소개한 적이 있었죠. 이번에는 패스트캠퍼스 데이터사이언스 스쿨 14기 분들 중 한 팀입니다. 차차 다른 팀의 업적(^^)들도 소개하도록 하겠습니다. 아무튼, 때는 2009년 여름까지 가네요. 저는 단지 한 작은 지방대에서 졸업 후 월급을 받는 회사에 취업하는 것이 목표였..
네이버 검색 결과를 API를 이용해서 쉽게 받아보자 2020. 10. 13. 08:00 이번에는 네이버에서 데이터를 얻는 방법 중에서 네이버가 제공하는 API를 사용하는 방법을 정리해두려고 합니다. 데이터를 웹페이지에서 직접 얻을 수도 있지만, 만약 해당 사이트가 API 등의 도구로 필요한 데이터를 배포하고 있다면 크게 어렵지 않게 접근할 수 있습니다~먼저 전국민이 아는 Naver의 홈페이지에서~네이버 개발자 센터를 검색합니다.~이렇게 뜨는데요. 일단 로그인을 하고Products에서 서비스 API를 선택하고 어떤 메뉴든 상관없지만, 검색을 선택해서 들어갑니다~그리고 나타는 글의 하단에 있는 오픈 API 이용신청을 눌러줍니다~이제 사용 API를 선택하고 서비스 환경을 지정하면 되는데, 서비스 환경은 우리가 아직 서비스가 없으니 아무거나~^^그리고 내 어플리케이션에서 아까 지정한 이름을 찾아보..
Python seaborn heatmap으로 보는 서울시 구별 범죄현황 (feat. pivot) 2020. 6. 22. 08:00 이번에는 Python에서 seaborn의 heatmap을 익혀볼겸 서울시 구별 범죄현황 데이터를 다뤄보겠습니다. 이 내용은 몇 년전에 제가 지은 책(파이썬으로 데이터 주무르기)에 있는 내용입니다. 그 내용을 조금 다듬어서 오늘 이야기해보려고 합니다.~먼저 구글에서 이쁘게 검색하고~위 사이트에서 관서별 5대 범죄 발생 검거현황을 클릭~위 사이트에서 다운로드 받습니다. 다운로드를 받아서 압축을 풀고 2018년 데이터를 소스코드와 같은 폴더에 두도록 하죠~먼저 raw 데이터를 읽어봅니다. 이 데이터는 경찰서 이름, 각 경찰서마다 5대 범죄, 각 범죄마다 발생/검거가 나눠 기록되어 있습니다.~이 데이터를 정리하는 마법같은 명령어가 pivot_table입니다~~~^^ 이 명령을 위와 같이 사용하면 raw 데이터가..

반응형