본문 바로가기

데이터사이언스

(16)
Python seaborn heatmap으로 보는 서울시 구별 범죄현황 (feat. pivot) 2020. 6. 22. 08:00 이번에는 Python에서 seaborn의 heatmap을 익혀볼겸 서울시 구별 범죄현황 데이터를 다뤄보겠습니다. 이 내용은 몇 년전에 제가 지은 책(파이썬으로 데이터 주무르기)에 있는 내용입니다. 그 내용을 조금 다듬어서 오늘 이야기해보려고 합니다.~먼저 구글에서 이쁘게 검색하고~위 사이트에서 관서별 5대 범죄 발생 검거현황을 클릭~위 사이트에서 다운로드 받습니다. 다운로드를 받아서 압축을 풀고 2018년 데이터를 소스코드와 같은 폴더에 두도록 하죠~먼저 raw 데이터를 읽어봅니다. 이 데이터는 경찰서 이름, 각 경찰서마다 5대 범죄, 각 범죄마다 발생/검거가 나눠 기록되어 있습니다.~이 데이터를 정리하는 마법같은 명령어가 pivot_table입니다~~~^^ 이 명령을 위와 같이 사용하면 raw 데이터가..
데이터 사이언스 과정을 막 배운 병아리 레벨이지만 열정을 가진 분들을 소개합니다. 2020. 5. 31. 10:36 저는 도전적인 일을 정말 좋아합니다. 이번에도 저 개인적으로는 도전적인 일을 하나 소화했습니다. 저는 패스트 캠퍼스와의 인연이 꽤 오래되었습니다. 처음 인연을 맺었던 강의는 파이썬을 활용한 데이터 분석 입문이라는 수업이었습니다. 2016년 가을쯤에 시작해서 2019년 겨울까지 수업을 진행했습니다. 여유가 생기면 곧 다시 시작할 수 있지 않을까 합니다.^^ 그리고 2019년 11월부터 정말 기억에 남고 무시무시한 AI Robot이라는 수업을 또 진행했습니다. 항상 뭔가 수업을 한다는 것은 내가 알고 있던 지식을 다시 체계적으로 정리해야하고, 또 미처 정리하지 않았던 내용도 보강해서 잘 정리해 두고 있어야합니다. 특히 저처럼 언제가 새로움을 추구하고 그 와중에 실습형 수업을 좋아하는 사람은 더더욱 여러 상황..
서울시 인구현황이라는 데이터 시각화해보기 2020. 5. 25. 11:00 최근 데이터사이언스 카테고리에 아주 쉬운 난이도의 글을 올리고 있습니다. 입문하시는 분들에게 작은 도움이 되었으면 좋겠다고 생각했거든요. 이번에는 서울시 인구현황이라는 통계자료가 있는데요. 그걸 한 번 다뤄보도록 하겠습니다.서울시 열린데이터에서 구할 수 있는 자료입니다. 2020년 4월 29일에 업데이트 되었네요.데이터는 휠을 조금 내리면 내려받기를 선택할 수 있습니다. 혹시 시간이 지나서 글을 읽는 분들을 위해 데이터도 같이 올려둡니다.이제 간단히 시작해보겠습니다.~그냥 한 번 읽어봤습니다. 다운로드받는 웹페이지의 안내대로 탭(\t)으로 구분해서 읽어봤습니다.그러나 대략 3번째 줄부터 읽으면 좋을것 같네요. 그래서 header는 2로 설정했습니다. 하나더, 콤마(,)들이 숫자 세자리마다 위치해 있는데요..
[Data Science] 서울시민들이 운동을 하지 않는 이유에 대한 분석 2020. 5. 11. 18:00 안녕하세요. 지난번에 Conda 환경을 세팅하는 이야기를 했구요. 이번에는 첫 번째 프로젝트(라고 부르기 창피하지만)로 서울시민들이 운동을 하지 않는 이유라는 통계 자료를 가지고 한 번 놀아보도록 하겠습니다. 진지하게 접근하는 것이 아니구요. 매우 간단한 파이썬 작업을 해보려고 합니다. 그러니 이 글은 파이썬을 처음 접하는 분들에게 그저 간단한 동기 부여 차원에서 진행되는 작은 글일 뿐임을 미리 이야기해둡니다.^^ 먼저 데이터를 찾아야겠죠. "서울시 운동을 하지 않는 이유 통계"라는 제목으로 구글에서 검색하면 저 글이 뜹니다. 서울 열린데이터 광장에서 구할 수 있는 데이터입니다. 혹시 데이터가 변경되어서 이 글의 코드가 동작하지 않을때를 대비해서 해당 데이터도 본문에 넣어두겠습니다. 열린데이터광장에서 저..
머신러닝을 이용한 Human Activity Recognition 실습 2019. 10. 29. 08:00 사람의 몸에 스마트폰(에 있는 자이로, 가속도센서 데이터)을 붙여서 데이터를 얻어서 그로부터 사람의 행동을 센서데이터 확인하려는 연구가 있습니다. 이 연구는 대부분 (딥러닝을 포함한) 머신러닝 분야에서 활발한듯 합니다. 그런 데이터를 이번에 하나 가지고 살짝 실습해 보려고 합니다.UCI에서 방금이야기한 Human Activity Recognition (HAR) 데이터를 배포하고 있습니다. 읽어보면 2012년 데이터이고 이때 사용한 기기는 삼성 갤럭시2라고 되어 있습니다. 이 데이터가 zip으로 되어 있어서 이를 제 github 계정에 압축을 풀어서 다시 올려놓았습니다.왜냐면 오늘 글은 구글 Colab으로 읽을거여서 그냥 편하게 데이터를 url로 읽기 위해서 입니다.이 데이터는 위의 특징을 가집니다^^데이..
Scikit Learn을 이용한 라벨인코딩 - LabelEncode 2019. 9. 30. 08:00 라벨인코딩은 데이터사이언스, 머신러닝 과정에서 많이 사용하는 기능입니다. Scikit Learn에서는 간단한 라벨인코딩 기능을 제공하는데요. 오늘은 그 간단한 기능을 살짝 설명하려고 합니다.오늘은 아이리스 데이터를 대상으로 하겠습니다.아이리스 데이터를 불러와서 데이터는 value 위치에, feature_names는 컬럼이름으로 잡고, 아이리스의 품종을 의미하는 target 데이터도 컬럼으로 포함시켰습니다.target_names의 경우는 setosa, versicolor, virginica로 세 가지입니다. 라벨인코딩이라는 것은 이름으로 되어있는 것을 숫자로 혹은 그 반대로 변환하는 것입니다.그렇게 해주는 기능을 손쉽게 sklearn이 제공하는 것이지요.라벨인코딩 기능을 사용하기 위해서 sklearn의 p..
PinkWink가 토요일마다 강의를 합니다.^^ 2019. 3. 11. 07:00 2019년 3월이 한 주가 훌쩍 지나갔네요. 요즘 제가 조금 더 나이를 먹기전에 더 좋은, 더 재미있는 일을 해야하는 것은 아닐까 고민한답니다. 사실 직장인들이 다 그렇지만, 요즘 전 하나의 아이템이 머리에서 계속 맴돌고 있거든요. 어떻게든 실현해 보고 싶다는 생각을 많이 하고 있지요^^. 아무튼, 아주 예전부터, 그러니까, 2016년 10월/11월경에 처음 강의를 시작했었답니다. 그렇게 첫 기수를 시작해서 8주간 매주 토요일 수업을 하고, 또 3주 정도를 쉬고, 또 8주간 매주 토요일 수업을 하는 패턴을 가졌네요. 그러다가, 최근 회사일로 너무 바빠 좀 길게 쉬고, 다시 수업을 시작했답니다. 이제 3월 말부터 11기가 시작됩니다. 와우... 지금까지 총 수업을 한 주차가 80주차이네요. ㅎㅎ. 패스트 ..
PinkWink의 데이터 사이언스 관련 책이 출판됩니다. - 파이썬으로 데이터 주무르기 2017. 12. 20. 08:00 정말 왜 한다고 결심하고 시작했지?? 하고 후회하는 일이 있었습니다. 최근 저는 책을 한 권 집필했는데요. 나같은 어중이 떠중이가 뭐 대단하다고 이렇게 책을 쓰겠다는 거지? 하면서 몇번을 후회하다가 결국 모든 작업이 마쳐졌네요... 저는 출판이라는 작업이 그렇게 어려운지 몰랐습니다. 저자는 그저 아이디어와 글과 자료만 있을 뿐 그건 책이 아니더라구요. 디자인하시는분, 교정, 기획, 편집.. 휴.. 정말 많은 분들의 손길이 거치는 것이 책인것 같습니다. 그래서 더더욱 중간중간 후회했지요..ㅠㅠ. 아무튼.... 사실 저의 공식적인 출판은 NCS의 학습모듈을 집필할 때였습니다만, 그건 일종의 국책사업이고, 이번에는 순수하게 제 의지로 수행하는 거니 첫 출판 책이지요. 이 책의 구성을 하게 된 히스토리가 있습니..

반응형