본문 바로가기

Theory/Review

PinkWink의 데이터 사이언스 관련 책이 출판됩니다. - 파이썬으로 데이터 주무르기

정말 왜 한다고 결심하고 시작했지?? 하고 후회하는 일이 있었습니다. 최근 저는 책을 한 권 집필했는데요. 나같은 어중이 떠중이가 뭐 대단하다고 이렇게 책을 쓰겠다는 거지? 하면서 몇번을 후회하다가 결국 모든 작업이 마쳐졌네요... 

저는 출판이라는 작업이 그렇게 어려운지 몰랐습니다. 저자는 그저 아이디어와 글과 자료만 있을 뿐 그건 책이 아니더라구요. 디자인하시는분, 교정, 기획, 편집.. 휴.. 정말 많은 분들의 손길이 거치는 것이 책인것 같습니다. 그래서 더더욱 중간중간 후회했지요..ㅠㅠ. 아무튼.... 사실 저의 공식적인 출판은 NCS의 학습모듈을 집필할 때였습니다만, 그건 일종의 국책사업이고, 이번에는 순수하게 제 의지로 수행하는 거니 첫 출판 책이지요. 이 책의 구성을 하게 된 히스토리가 있습니다만.. 그건 한 번 더 시간을 내서 이야기하는 걸로 하죠^^ 일단. 이 책에서 다루는 데이터와 소스코드는 모두 Github[바로가기]에 있습니다. 창피하지만 책 소개는 아래와 같습니다.^^

파이썬으로 데이터 주무르기

ISBN 979-11-86697-47-4 (93000)

책 소개

독특한 예제를 통해 배우는 데이터 분석 입문

이 책은 누구나 한 권 이상 가지고 있을 파이썬 기초 문법책과 같은 내용이 아닌, 데이터 분석이라는 특별한 분야에서 초보를 위해 처음부터 끝까지 파이썬으로 진행되는 과정을 다룹니다. 서울시 범죄 현황 분석, 셀프 주유소 가격 정보 분석, 19대 대선 결과 분석 등 흥미 있는 목표를 이루기 위해서 파이썬의 기초를 익히고, 데이터를 다루고 분석하는 데 필요한 과정을 대화 형식으로 전개하면서 필요한 기초 내용은 그때 그때 습득하고자 합니다. 마치 파이썬에 대해 잘 모르는 독자가 구글에서 검색하며 코드 한 줄 한 줄을 완성해가는 느낌으로 기술했습니다. 대부분의 장에는 뚜렷한 목표가 있습니다. 항상 시작은 데이터를 얻는 법을 먼저 다루게 되고, 그 데이터를 정제하거나 변경해가며 목표를 이루는 과정을 보여줍니다. 필요하다면 해당 모듈의 튜토리얼을 가지고 와서 기초를 설명하고자 합니다. 아마 이 책을 다 읽고 나면 파이썬이, 또 파이썬으로 수행하는 데이터 분석의 세계가 아주 흥미롭다는 것을 알게 될 것입니다

이 책의 특징

  • Pandas, Matplotlib, numpy, folium, KoNLPy, Beautiful Soup, Selenium 등 데이터 분석과 시각화에 필요한 많은 모듈을 다룬다.
  • 정확한 목표를 가진 실제 프로젝트를 다수 수행하면서 프로젝트 단위로 데이터 분석을 학습할 수 있다.
  • 파이썬이 처음인 독자라도 프로젝트를 수행할 수 있도록 설명한다.
  • 파이썬을 공부했지만 실제로 어디에 어떻게 적용하는지 궁금한 독자
  • 데이터 분석을 통해 얻을 수 있는 결과를 학습과 동시에 경험하고 싶은 독자
  • 프로그래밍 언어가 처음이지만 단기간에 성과를 얻고 싶은 독자

목차

  1. 서울시 구별 CCTV 현황 분석
    1. CCTV 현황과 인구 현황 데이터 구하기
    2. 파이썬에서 텍스트 파일과 엑셀 파일을 읽기 – pandas
    3. pandas 기초 익히기
    4. pandas를 이용해서 CCTV와 인구 현황 데이터 파악하기
    5. pandas 고급 기능 – 두 DataFrame 병합하기
    6. CCTV 데이터와 인구 현황 데이터를 합치고 분석하기
    7. 파이썬의 대표 시각화 도구 Matplotlib
    8. CCTV 현황 그래프로 분석하기
  2. 서울시 범죄 현황 분석
    1. 데이터 획득하기
    2. pandas를 이용하여 데이터 정리하기
    3. 지도 정보를 얻을 수 잇는 Google Maps
    4. Google Maps를 이용해서 주소와 위도, 경도 정보 얻기
    5. pandas의 pivot_table 학습하기
    6. Pivot_table을 이용해서 데이터 정리하기
    7. 데이터 표현을 위해 다듬기
    8. 좀 더 편리한 시각화 도구 – Seaborn
    9. 범죄 데이터 시각화하기
    10. 지도 시각화 도구 – Folium
    11. 서울시 범죄율에 대한 지도 시각화
    12. 서울시 경찰서별 검거율과 구별 범죄 발생율을 동시에 시각화하기
  3. 시카고 샌드위치 맛집 분석
    1. 웹 데이터를 가져오는 Beautiful Soup 익히기
    2. 크롬 개발자 도구를 이용해서 원하는 태그 찾기
    3. 실전: 시카고 샌드위치 맛집 소개 사이트에 접근하기
    4. 접근한 웹 페이지에서 원하는 데이터 추출하고 정리하기
    5. 다수의 웹 페이지에 자동으로 접근해서 원하는 정보 가져오기
    6. Jupyter Notebook에서 상태 진행바를 쉽게 만들어주는 tqdm 모듈
    7. 상태 진행바까지 적용하고 다시 샌드위치 페이지 50개에 접근하기
    8. 50개 웹 페이지에 대한 정보 가져오기
    9. 맛집 위치를 지도에 표기하기
    10. 네이버 영화 평점 기준 영화의 평점 변화 확인하기
    11. 영화별 날짜 변화에 따른 평점 변화 확인하기
  4. 셀프 주유소는 정말 저렴할까
    1. Selenium 사용하기
    2. 서울시 구별 주유소 가격 정보 얻기
    3. 구별 주유 가격에 대한 데이터의 정리
    4. 셀프 주유소는 정말 저렴한지 boxplot으로 확인하기
    5. 서울시 구별 주유 가격 확인하기
    6. 서울시 주유 가격 상하위 10개 주유소 지도에 표기하기
  5. 우리나라 인구 소멸 위기 지역 분석
    1. 목표 명확히 하기
    2. 인구 데이터 확보하고 정리하기
    3. 인구 소멸 위기 지역 계산하고 데이터 정리하기
    4. 대한민국 지도 그리는 방법에 대한 소개
    5. 지도 시각화를 위해 지역별 고유 ID 만들기
    6. Cartogram으로 우리나라 지도 만들기
    7. 인구 현황 및 인구 소멸 지역 확인하기
    8. 인구 현황에서 여성 인구 비율 확인하기
    9. Folium에서 인구 소멸 위기 지역 표현하기
  6. 19대 대선 결과 분석
    1. Selenium과 Beautiful Soup을 이용한 데이터 획득 준비 작업
    2. 19대 대선 개표 결과 데이터 획득하기
    3. 각 후보의 득표율과 지역 ID 정리
    4. 19대 대선 결과 득표율 시각화하기
  7. 시계열 데이터를 다뤄보자
    1. Numpy의 polyfit으로 회귀(regression) 분석하기
    2. Prophet 모듈을 이용한 forecast 예측
    3. Seasonal 시계열 분석으로 주식 데이터 분석하기
    4. Growth Model과 Holiday Forecast
  8. 자연어 처리 시작하기
    1. 한글 자연어 처리 기초 - KoNLPy 및 필요 모듈의 설치
    2. 한글 자연어 처리 기초
    3. 워드 클라우드
    4. 육아휴직 관련 법안에 대한 분석
    5. Naïve Bayes Classifier 의 이해 – 영문
    6. Naïve Bayes Classifier 의 이해 – 한글
    7. 문장의 유사도 측정하기
    8. 여자친구 선물 고르기


반응형