본문 바로가기

Theory/DataScience

(52)
Python 유저가 한글 자연어 처리를 할 때 필수 모듈인 KoNLPy를 소개합니다. 2017. 5. 23. 08:00 제가 S/W나 H/W 혹은 인터넷에서 본 재미있는 아이들을 소개한 적도 있지만, 가끔 인물 자체를 -그것도 잘 알지도 못하면서- 소개한 적이 있습니다. 예를 들면, 많은 글을 적진 않으셨지만, MATLAB에 대해 재미난 글이 많은 theta님이 있었구요... 그리고 최근에는 대한민국 지도를 그릴때 소개해 드린, 혜식님도 있었습니다. 그리고 오늘 또 한 분의 고수를 소개해 드릴까합니다. 사실 이 분은 제 블로그에서 한 번 출연(^^)을 하셨었습니다. 바로 서울시 범죄 현황을 분석하던 글[바로라기]에서 folium으로 지도를 표현할 때 서울시 구별 경계선 데이터를 얻어왔던 한국 지도 데이터가 있던 github[바로가기]을 운영하시던 분 e9t라는 분인데요... 오늘 소개해 드릴 Lucy Park이라는 분입니..
19대 대선 후보간 득표율의 지역별 비교 - 문재인 대통령, 홍준표 후보, 안철수 후보 2017. 5. 13. 09:56 한 주간 참 대단한 일들이 지나갔습니다. 대선이 있었고... 바로 대통령 당선인인 대통령이되고, 그리고 뭔가 대단한 (사실은 지극히 정상적으로 일처리를 하는 것인데도...) 큰 뭔가의 변화들이 있을 것 같아 기대도 됩니다.^^. 그래도 주말마다 취미로 데이터를 만지는게 낙인 저같은 소시민이 이런 대선이라는 큰 이슈에 글하나 남기지 않는다면 그것도 직무유기라 생각되어서 살짝꿍 뭐라도 끄적거리기로 했습니다. 그래서 제가 그간 제 블로그의 Data Science 카테고리에 올린 기본적인 기능을 가지고 이번 대선 득표율을 슬쩍 비교해볼려구요^^. 언제나 그렇듯.. 이 글에는 아무런 기술적 고난도 스킬은 없구요... 그저... 각 모듈을 튜토리얼 수준으로 편집해서 원하는 흐름을 만들었을 뿐입니다.^^ 웹에서 득표..
동적 환경에서 웹 정보를 얻을때 편한 Selenium - 네이버에 로그인하고 메일 목록 확인하기 - 2017. 4. 24. 08:00 아주 예전에 웹 정보를 쉽게 가져올 수 있는 Beautiful Soup을 이야기했었는데요.[바로가기] 이 아이만으로는 약간 한계가 있습니다. 뭐 꼭 버튼을 클릭해야한다던지, 로그인 화면처럼 어떤 정보를 입력해야하는데 그게 접근 주소에 나타나면 쉽게 접근해 볼 수 있는데, 그렇지 않다든지 하는 일들이지요. 그럴때 요즘에 셀레니움(Selenium)을 많이 사용하시는 것 같아요^^. 그래서 그 아이를 한 번 이야기할려구요. 그래서 네이버에 로그인을 하고 또 살짝 내 메일함에서 보낸사람 목록을 추출해 볼까 합니다.^^먼저 pip install selenium으로 셀레니움을 설치합니다.그리고 크롬드라이버를 자신의 OS에 맞춰서 다운로드 받습니다.이제 쉽게 사용하는 방법은 이 4줄을 입력해 보는 겁니다. 아 크롬드..
텐서플로우(tensorflow)에서 텐서보드(tensorboard) 사용하기 (몹시 기초) 2017. 4. 5. 08:00 텐서 플로우 설치에 관한 이야기를 했었는데요[바로가기]. 이번에는 텐서 보드를 처음 사용하는 이야기를 할려고 합니다.~~~^^ 이런 툴은 처음 시작만 좀 익히면 접근하기 쉬운데요^^ 그 시작.. 텐서보드 처음 사용해보기~~ 되겠습니다.^^일단... tf.Graph()를 사용하겠다고 하시구요^^테스트 용으로... 음~~~ 그냥 a,b를 각각 곱하고(c) 더하고(d) 한 것을 다시 더하는(e) 것으로... 심플하게~~그리고.. Session을 실행하면 됩니다.. tf.summary.FileWriter를 통해 first_graph에 저장하라고 해주면 되구요^^이제.. 실행하고... 쓰고.. 닫고^^그리고 터미널에서 소스코드가 위치한 폴더에서 source activate tensorflow를 하시고([바로가기]..
인구 소멸 위기 지역 파악해보기~~~ 2017. 3. 24. 08:00 제 일과는 취미생활처럼 데이터 가지고 있는척(^^) 놀기와 다시 공부를 시작한 ROS입니다. ROS를 이용해서 괜찮은 성과를 얻을 수 있지 않을까 기대를 하고 있거든요... 데이터 데리고 즐겁게 놀기 프로젝트는 이제 당분간은 업무적 영역에서 데이터 프로세싱은 안하다보니 오히려 취미가 되는 듯 합니다.^^. 그래서 좀 즐겁구요... 덕분에 아가 미바뤼를 올리는게 좀 느려졌네요~ 곧 아가 미바뤼도 업로드 하도록 하겠습니다.^^ 오늘은 인구 소멸 위기 지역에 대해 이야기를 해볼려고 합니다. 인구 소멸 위기 지역에 대한 정의는 정확히 누가 어떻게 내린 것인진 모르지만, 구글이나 네이버에서 검색해보면 "65세 이상 인구 대비 20~39세 여성 인구의 비중이 0.5 이하이면 인구 소멸 위기 지역"이라는 정의를 찾을..
시각화하기 좋은 우리나라 지도 그리는 법을 소개해 드립니다.^^ 2017. 3. 15. 08:00 데이터를 가지고 노는 취미(^^)를 가지게 되면 초반에 나타나는 현상이 무조건 그래프로 그려본다(^^)와 지역적인 문제만 들어가면 지도에 표현해보고 싶어진다입니다.^^. 지난번에 저는 서울시 범죄현황에 대한 분석[바로가기]에서 Folium[바로가기]을 이용해서 서울시의 구별 범죄현황을 지도에 시각화 했었는데요. 당연히 좀 더 많은 데이터를 전국규모로 그려보고 싶어집니다. 그런데 실제로 그려보면 약간 이상하다는 느낌이 듭니다. 바로 지리적으로 정확한 지도를 이용하면 약간 정보전달력에 문제가 있는게 아닌가하는 생각이 들거든요... 그래서 제가 방법을 찾다가 역시 구세주같은 분을 만났습니다.바로 Hyeshik Chang(장혜식)님인데요. 이분의 블로그[바로가기]에서 해답을^^ 찾았거든요. 일제 이분의 코드는위..
서울시 범죄현황 통계자료에 대한 확인 2017. 3. 2. 08:00 데이터 과학이라고 거창하게 부르지 않아도 요즘은 데이터를 이용해서 실제 원하는 결과를 검증하고 이를 블로그에 올리거나, Github page에 올리는 경우를 많이 봅니다. 그 주제가 참 멋지고 그 과정이 아름다운 분들도 많구요^^. 저도 그냥 가벼운 마음에 통계자료를 가지고 살짝 뭔가를 해볼려고 합니다. 뭐 거창한 알고리즘을 쓴 건 아니구요. 그저 그래프나 깨작거리고 그리고, 데이터의 순서나 좀 바꾸던지.. 혹은 조금 만지작 거리는 수준입니다.^^. 살짝... "서울 강남 3구 체감안전도 높아"라는 위 기사를 보고~~~ 실제 통계자료도 그렇게 나타나는지를 볼려고 했습니다. 사람들이 생각하는 체감안전도와 혹시 통계자료에서 보는 안전도가 같을지 확인해 보는거죠^^ 데이터 가져오기 공공데이터포털이라는 사이트에..
맥OS 환경의 Anaconda에서 텐서플로우 tensorflow 설치하기 2017. 2. 9. 08:00 항상 뭔가를 깊이있게 하지 않고 잡식성으로 엷게(ㅠㅠ) 공부하는 특성이 있는 제가.... 관심이 있는 것이 데이터분석, 딥러닝이었는데요. 뭐 그래서 당연히 텐서플로우 tensorflow를 깔아볼려고 합니다. 그러나 또... 최근 제가 맥(^^)을 사용할 수 있게 되어서[바로가기] 거기서 설치하고 Jupyter에서 실행해 보는 것까지만^^ 해볼려고 합니다. 즉, 언제나 그렇듯, 공식홈페이지의 설치과정을 그냥~ 따라하겠다는 거죠...^^ 오늘의 목표는 Mac에 설치된 Anaconda 환경에서 tensorflow를 설치하고 Jupyter에서 import시켜보는 것입니다.뭐 어려울 것이 없는 것이... tensorflow홈페이지의 아나콘다를 이용한 설치 페이지[바로가기]를 보면 됩니다.^^ 이미 아나콘다는 설치..

반응형