본문 바로가기

파이썬

(16)
Ubuntu에서 venv를 이용해서 Python 환경 만들기 2021. 2. 15. 08:00 Python을 가지고 뭘 할때 제일 쉽게 접근할 수 있는 방법중에는 아나콘다가 있습니다. 아나콘다를 설치하고 conda 환경을 만들면 쉽게 다양한 파이썬 환경을 만들 수 있죠. 그런데 conda를 사용하기 조금 어려울때가 있습니다. 안되는건 아닌데 약간 어려울때가 있죠. 저한테는 ROS를 사용할 때입니다. ROS를 사용할때 약간의 어려움이 있거든요. 그 때 선택할 수 있는 또 하나의 방법은 venv입니다. 본 글의 동영상입니다. 일단 먼저 pip를 항상 최신버전으로 유지하세요. pip3 install --upgrade pip 하시면 됩니다. 아래 그림에서 python3의 버전이 3.6인건 ubuntu 18.04여서 그렇구요. Ubuntu 20.04여도 괜찮습니다. 위 그림처럼 python3 -m venv..
한글 형태소 분석기 KoNLPy 사용을 위한 환경 설정 해보기 2020. 12. 23. 08:00 아주 예전에 Lucy Park님의 KoNLPy를 소개했던 적이 있습니다. 이번에는 시간도 많이 흘러고 하니, KoNLPy를 사용하기 위한 작업도 설명할 겸, 이참에 anaconda 설치와 conda 환경설정, JDK의 설치 등도 모두 이야기를 해보겠습니다. 아나콘다 설치 이미 많은 분들이 이미 알고 계시고 사용하고 계시겠지만 Python을 이용한 데이터 사이언스에서 가장 인기있는 Python 개발 환경이라면 아마도 아나콘다(anaconda)일 겁니다. 아나콘다는 손쉽게 구글에서 바로 찾을 수 있습니다. 아나콘다를 검색하고 들어간 사이트에서 Products에서 Individual Edition을 선택합니다. 그리고 Download를 선택합니다. 자신의 OS에 맞춰 다운로드를 하면 됩니다. 그리고 설치하면 ..
matplotlib 한글 문제 해결하기 2020. 7. 20. 08:00 이번에는 우리가 데이터 사이언스나 머신러닝을 공부하면서 많이 사용하는 Python의 그래프 그리는 툴인 matplotlib의 한글 문제를 이야기하겠습니다.일단 먼저 matplitlib와 numpy를 불러보겠습니다~그리고 간단하게 t를 0.부터 10까지 0.01간격으로 지정하고, sin과 cos을 numpy를 이용해서 그리라고 하고~, 타이틀을 "삼각함수"라고 지정했습니다그랬는데 에러가 나네요.ㅠㅠ. font에 뭔가 문제가? import matplotlib.pyplot as plt %matplotlib inline from matplotlib import font_manager, rc plt.rcParams['axes.unicode_minus'] = False f_path = "/Library/Fonts/..
서울시 인구현황이라는 데이터 시각화해보기 2020. 5. 25. 11:00 최근 데이터사이언스 카테고리에 아주 쉬운 난이도의 글을 올리고 있습니다. 입문하시는 분들에게 작은 도움이 되었으면 좋겠다고 생각했거든요. 이번에는 서울시 인구현황이라는 통계자료가 있는데요. 그걸 한 번 다뤄보도록 하겠습니다.서울시 열린데이터에서 구할 수 있는 자료입니다. 2020년 4월 29일에 업데이트 되었네요.데이터는 휠을 조금 내리면 내려받기를 선택할 수 있습니다. 혹시 시간이 지나서 글을 읽는 분들을 위해 데이터도 같이 올려둡니다.이제 간단히 시작해보겠습니다.~그냥 한 번 읽어봤습니다. 다운로드받는 웹페이지의 안내대로 탭(\t)으로 구분해서 읽어봤습니다.그러나 대략 3번째 줄부터 읽으면 좋을것 같네요. 그래서 header는 2로 설정했습니다. 하나더, 콤마(,)들이 숫자 세자리마다 위치해 있는데요..
[Data Science] 서울시 흡연률 데이터에서 연령별 흡연률 데이터 시각화 2020. 5. 18. 08:00 이 글은 아주 쉬운 데이터를 실습용으로 사용해서 파이썬과 데이터 사이언스 분야를 공부하는 컨셉의 글입니다. 이번에 사용할 데이터는 서울시 흡연율 통계라는 데이터입니다. 해당 페이지 하단으로 이동하면저렇게 파일을 받을 수 있습니다.해당 파일은 저도 같이 공유하도록 하죠^^데이터는 매우 심플한 형태입니다.구분과 구분.1이라는 컬럼만 확인을 해보면 되겠네요이중에서 구분에 "생애주기별"이라는 데이터에 오늘은 집중하도록 하겠습니다.pandas의 DataFrame은 조건문을 이용한 데이터 선별이 아주 쉽습니다 저렇게 말이죠^^ 위 결과에서 전체, 남자, 여자만 가져오고 싶다면이렇게 하면 됩니다.이제 저장하죠. 이름을 smoke_age로 하겠습니다.이제 한글 폰트를 지정하고, (이전에도 이야기했지만, 윈도우 유저는 ..
머신러닝을 이용한 Human Activity Recognition 실습 2019. 10. 29. 08:00 사람의 몸에 스마트폰(에 있는 자이로, 가속도센서 데이터)을 붙여서 데이터를 얻어서 그로부터 사람의 행동을 센서데이터 확인하려는 연구가 있습니다. 이 연구는 대부분 (딥러닝을 포함한) 머신러닝 분야에서 활발한듯 합니다. 그런 데이터를 이번에 하나 가지고 살짝 실습해 보려고 합니다.UCI에서 방금이야기한 Human Activity Recognition (HAR) 데이터를 배포하고 있습니다. 읽어보면 2012년 데이터이고 이때 사용한 기기는 삼성 갤럭시2라고 되어 있습니다. 이 데이터가 zip으로 되어 있어서 이를 제 github 계정에 압축을 풀어서 다시 올려놓았습니다.왜냐면 오늘 글은 구글 Colab으로 읽을거여서 그냥 편하게 데이터를 url로 읽기 위해서 입니다.이 데이터는 위의 특징을 가집니다^^데이..
Scikit Learn을 이용한 라벨인코딩 - LabelEncode 2019. 9. 30. 08:00 라벨인코딩은 데이터사이언스, 머신러닝 과정에서 많이 사용하는 기능입니다. Scikit Learn에서는 간단한 라벨인코딩 기능을 제공하는데요. 오늘은 그 간단한 기능을 살짝 설명하려고 합니다.오늘은 아이리스 데이터를 대상으로 하겠습니다.아이리스 데이터를 불러와서 데이터는 value 위치에, feature_names는 컬럼이름으로 잡고, 아이리스의 품종을 의미하는 target 데이터도 컬럼으로 포함시켰습니다.target_names의 경우는 setosa, versicolor, virginica로 세 가지입니다. 라벨인코딩이라는 것은 이름으로 되어있는 것을 숫자로 혹은 그 반대로 변환하는 것입니다.그렇게 해주는 기능을 손쉽게 sklearn이 제공하는 것이지요.라벨인코딩 기능을 사용하기 위해서 sklearn의 p..
numpy의 where 함수 사용법 2019. 8. 5. 08:00 머신러닝이나 딥러닝을 하다보면, numpy 모듈의 다양한 함수를 사용하게 되는 것 같습니다. 오늘은 그 중에서 은근 많이 사용되는 where 함수에 대해 이야기를 해보려고 합니다. 너무 쉽고 간단하면서 괜찮은 함수인 것 같습니다. 간단하게 numpy를 import하구요. 위 코드처럼 데이터를 numpy array로 선언해 두겠습니다. 뭐 min이나 max값을 찾거나, 그 값의 위치를 찾는 것은 argmin, argmax로 됩니다. where함수는 조건문을 사용할때입니다. 출력은 근본적으로는 인덱스입니다. a 배열에서 1보다 적은 것은 6, 7번 데이터라는 것이죠. 그걸 슬라이싱에 사용할 수 있습니다. 그러면 1보다 작은 값을 찾아서 그 값만 반환합니다. 혹은 이렇게, 10보다 크거나 같은 값을 찾아서, ..

반응형