본문으로 바로가기

최근 데이터사이언스 카테고리에 아주 쉬운 난이도의 글을 올리고 있습니다. 입문하시는 분들에게 작은 도움이 되었으면 좋겠다고 생각했거든요. 이번에는 서울시 인구현황이라는 통계자료가 있는데요. 그걸 한 번 다뤄보도록 하겠습니다.

서울시 열린데이터에서 구할 수 있는 자료입니다. 2020년 4월 29일에 업데이트 되었네요.

데이터는 휠을 조금 내리면 내려받기를 선택할 수 있습니다. 혹시 시간이 지나서 글을 읽는 분들을 위해 데이터도 같이 올려둡니다.

report (3).txt

이제 간단히 시작해보겠습니다.~

그냥 한 번 읽어봤습니다. 다운로드받는 웹페이지의 안내대로 탭(\t)으로 구분해서 읽어봤습니다.

그러나 대략 3번째 줄부터 읽으면 좋을것 같네요. 그래서 header는 2로 설정했습니다. 하나더, 콤마(,)들이 숫자 세자리마다 위치해 있는데요. 저 콤마때문에 숫자로 인식하지 못하고 문자로 인식할 수 있습니다. 그래서 숫자 세자리마다 찍혀있는 콤마는 무시해달라는, 그러니까 천단위 구분자가 있다고 알려주는 thousands옵션에 콤마를 지정합니다.

그리고 나서 간단하게 관심있는 컬럼만 선택했구요~

컬럼 이름도 살짝 바꾸었습니다~

전체 합계를 의미하는 첫 행도 제거 했구요~

외국인과 고령자는 해당 구의 전체 인구대비 비율도 계산했습니다.

이제 인구가 많은 구를 보면~ 송파, 강서, 강남, 노원, 관악 순으로 가네요.

외국인ㅣ율이 높은 구는 영등포구네요~

고령자비율이 높은 구는 강북구입니다.

다시 matplotlib에서 한글 사용을 위해 기본 폰트를 변경하구요. 윈도우 유저들은 f_path라는 변수의 내용을 윈도우 경로에 맞추시면 됩니다.

이번에는 그림을 좀 쉽게 그리기 위해 구라는 이름의 컬럼을 인덱스로 지정합니다.

짠~인구 현황을 수평바(barh) 그래프로 그려보았습니다. 흠. 송파구부터 중구까지 인구 현황이 한 눈에 보이네요

이번에는 고령자의 숫자입니다. 송파구가 제일 많은 것으로 보이지만, 이는 송파구의 인구가 많아서일 뿐입니다.

고령자비율로 다시 그리면 강북구가 높고 송파구는 제일 낮죠

이번에는 외국인 비율입니다. 영등포구와 중구, 금천, 구로구가 엄청 높네요. 위 내용은 동영상으로도 강의되고 있습니다.



댓글을 달아 주세요

  1. BlogIcon korea cebrity 2020.05.26 12:49 신고

    힘든 월요일 힘내시고 좋은하루보내세요~~

  2. BlogIcon 북두협객 2020.05.27 09:46 신고

    시각화 비율 코딩이 재미있네요~ 데이터 입력하면 바로 그래프로 보여주는군요^^

  3. BlogIcon 가족바라기 2020.05.27 21:28 신고

    저같은 컴맹도 따라하는데 좋은것같아요
    좋은 정보 감사합니다^^

  4. klair 2020.07.05 21:48

    안녕하세요. 책 사서 연습중인데, 현재 다운받는 cctv 데이터에 띄어쓰기가 들어있어서 인구수와 merge가 안되는데요, 혹시 이건 어떻게 할 수 있을까요? 인구수는 :강동구" 이렇게 되어있는데 cctv 자료에는 "강 동 구" 이렇게 띄어쓰기가 포함되어 있어서, merge가 안되네요.. ^^;;

    • BlogIcon PinkWink 2020.07.13 00:41 신고

      코드에 띄어쓰기를 모두 없애버리는 것을 추가하거나 github에 제가 올려둔 데이터를 사용하는 것이 어떨까 합니다.

  5. alswjd 2020.09.10 15:12

    안녕하세요 책사서 하고있는데 cctv현황 첫코드부터 막히네요 ... file notfound error
    라고 뜨는데 뭐가 잘못된거일까요 깃허브에서 저장해주신 파일도 다운받아서 썼어여

    • BlogIcon PinkWink 2020.09.27 10:59 신고

      파일을 찾을 수없다는 에러는 소스코드에서 지정한 경로가 정상인지를 확인하셔야 합니다. (오타도점검해보시구요)