본문으로 바로가기

최근 데이터사이언스 카테고리에 아주 쉬운 난이도의 글을 올리고 있습니다. 입문하시는 분들에게 작은 도움이 되었으면 좋겠다고 생각했거든요. 이번에는 서울시 인구현황이라는 통계자료가 있는데요. 그걸 한 번 다뤄보도록 하겠습니다.

서울시 열린데이터에서 구할 수 있는 자료입니다. 2020년 4월 29일에 업데이트 되었네요.

데이터는 휠을 조금 내리면 내려받기를 선택할 수 있습니다. 혹시 시간이 지나서 글을 읽는 분들을 위해 데이터도 같이 올려둡니다.

report (3).txt

이제 간단히 시작해보겠습니다.~

그냥 한 번 읽어봤습니다. 다운로드받는 웹페이지의 안내대로 탭(\t)으로 구분해서 읽어봤습니다.

그러나 대략 3번째 줄부터 읽으면 좋을것 같네요. 그래서 header는 2로 설정했습니다. 하나더, 콤마(,)들이 숫자 세자리마다 위치해 있는데요. 저 콤마때문에 숫자로 인식하지 못하고 문자로 인식할 수 있습니다. 그래서 숫자 세자리마다 찍혀있는 콤마는 무시해달라는, 그러니까 천단위 구분자가 있다고 알려주는 thousands옵션에 콤마를 지정합니다.

그리고 나서 간단하게 관심있는 컬럼만 선택했구요~

컬럼 이름도 살짝 바꾸었습니다~

전체 합계를 의미하는 첫 행도 제거 했구요~

외국인과 고령자는 해당 구의 전체 인구대비 비율도 계산했습니다.

이제 인구가 많은 구를 보면~ 송파, 강서, 강남, 노원, 관악 순으로 가네요.

외국인ㅣ율이 높은 구는 영등포구네요~

고령자비율이 높은 구는 강북구입니다.

다시 matplotlib에서 한글 사용을 위해 기본 폰트를 변경하구요. 윈도우 유저들은 f_path라는 변수의 내용을 윈도우 경로에 맞추시면 됩니다.

이번에는 그림을 좀 쉽게 그리기 위해 구라는 이름의 컬럼을 인덱스로 지정합니다.

짠~인구 현황을 수평바(barh) 그래프로 그려보았습니다. 흠. 송파구부터 중구까지 인구 현황이 한 눈에 보이네요

이번에는 고령자의 숫자입니다. 송파구가 제일 많은 것으로 보이지만, 이는 송파구의 인구가 많아서일 뿐입니다.

고령자비율로 다시 그리면 강북구가 높고 송파구는 제일 낮죠

이번에는 외국인 비율입니다. 영등포구와 중구, 금천, 구로구가 엄청 높네요. 위 내용은 동영상으로도 강의되고 있습니다.



댓글을 달아 주세요

  1. BlogIcon korea cebrity 2020.05.26 12:49 신고

    힘든 월요일 힘내시고 좋은하루보내세요~~

  2. BlogIcon 북두협객 2020.05.27 09:46 신고

    시각화 비율 코딩이 재미있네요~ 데이터 입력하면 바로 그래프로 보여주는군요^^

  3. BlogIcon 가족바라기 2020.05.27 21:28 신고

    저같은 컴맹도 따라하는데 좋은것같아요
    좋은 정보 감사합니다^^

  4. klair 2020.07.05 21:48

    관리자의 승인을 기다리고 있는 댓글입니다