본문 바로가기

Data Science

(9)
Selenium 처음 시작해 보기 2021. 9. 30. 08:00 오랜만에 Data Science 카테고리에 글을 올리네요. 예전에 웹에서 데이터를 가지고 오는 간단한 방법을 이야기했던 적이 있습니다. 오늘은 그 글에서 이어지는 내용입니다. 웹상에서 어떤 입력폼에 글자를 입력한다든지, 접근해야할 상세 웹 주소가 보이지 않는다든지 등의 상황에서 유용하게 사용할 수 있는 도구가 selenium입니다. 위 그림에 나타나있듯이 selenium은 사용하는 브라우저에 맞춰 드라이버를 실행합니다. 그러면 해당 드라이버가 웹페이지를 읽을 브라우저를 실행해서 나의 코드에 의해 제어되도록 되는 것입니다. 설치는 pip 명령으로 먼저 진행하구요. 아래 그림처럼 자신의 크롬 버전을 확인합니다. 우측 상단 점 세개를 클릭한 다음 도움말의 크롬 버전을 확인하시면 됩니다. 크롬드라이버 다운로드 ..
Jupyter Notebook을 원격으로 접속하기 2021. 4. 8. 08:00 저는 어떤 숭고한(^^) 목적으로 RTX3090을 확보했습니다. 음... 지금은 가격이 더 올랐네요^^. 아무튼, 이 아이를 구매하고 PC가 조립되는 과정은 매우 많은 분들이 도와주셨지요. 오모로봇의 대표님과 연구소장님입니다. ㅋㅋ 이 글을 빌어 감사의 마음을 전합니다. ㅋㅋ^^ 아무튼 그렇게 세팅한 저 데스크탑은 리눅스를 세팅하고 원격으로 사용할 건데요. Jupyter notebook을 데스트탑에서 기동하고, 제 노트북에서 원격으로 접속하려고 합니다^^ 저런 구성을 하고 싶은거죠^^ 일단, 데스크탑의 ip를 알아서 ssh로 접근합니다. ip를 알아내는 방법은 한번 모니터, 키보드, 마우스를 연결하고 ifconfig명령을 이용해서 ip를 확인하면 됩니다. 이제 ssh로 원격으로 데스크탑에 접근을 완료합니..
Python scikit learn의 Label Encoder와 MinMax, Standard, Robust Scaler 이해하기 2021. 4. 5. 08:00 얼핏 관계가 없어 보일 수도 있으나, 이번에는 scikit learn의 Label Encoder와 MinMax, Standard, Robust Scaler를 이야기 해보려고 합니다. 이 아이들 모두 데이터를 만지작 거리다 보면 자주 만나게 되는 아이들입니다. Label Encoder 먼저 연습용 데이터를 즉석에서 만들어 보죠. 그냥 A 컬럼은 문자로, B 컬럼은 흔히 보는 숫자로 되어 있습니다. 네 위와 같이 만들어 지죠. 만약 A컬럼의 문자 a, b, c를 각각 번호 0, 1, 2를 매겨서 변환하고 싶다면 LabelEncoder를 사용하면 됩니다. 먼저 LabelEncoder를 불러와서 A컬럼을 기준으로 fit을 시키면, 어떤 아이를 0이라고 할지, 또 어떤아이를 1이라고 할지를 정합니다. 그 내용이 ..
Box Plot의 기초 2021. 3. 24. 08:00 요즘 수업하면서 box plot의 기초에 대해 궁금해 하시는 분들이 많아서 이 부분만 다시 이야기하려고 블로그에 정리합니다. 데이터의 분포를 관찰하는 좋은 도구 중에 하나가 Box Plot입니다. 간단히 예를 보도록 하죠. 임의로 데이터를 만들어 두겠습니다. 그리고 그림을 그리기 위한 y값도 1로만 채워두겠습니다. 그려보면 위 그림처럼 되죠. 100 근처의 값들이 생뚱(^^)맞게 크게 잡혀있네요. 이제 numpy의 median 명령으로 중간값을 찾아보겠습니다. 45라는 값이 딱 중간 값인가 봅니다. numpy의 percentile 명령을 이용하면 4분의1 (25%), 4분의3 (75%) 지점의 값들을 찾아보면 16과 48이라고 합니다. 그 값을 각각 q1, q3라고 하고 가운데 값은 q2라고 하겠습니다...
네이버 검색 결과를 API를 이용해서 쉽게 받아보자 2020. 10. 13. 08:00 이번에는 네이버에서 데이터를 얻는 방법 중에서 네이버가 제공하는 API를 사용하는 방법을 정리해두려고 합니다. 데이터를 웹페이지에서 직접 얻을 수도 있지만, 만약 해당 사이트가 API 등의 도구로 필요한 데이터를 배포하고 있다면 크게 어렵지 않게 접근할 수 있습니다~먼저 전국민이 아는 Naver의 홈페이지에서~네이버 개발자 센터를 검색합니다.~이렇게 뜨는데요. 일단 로그인을 하고Products에서 서비스 API를 선택하고 어떤 메뉴든 상관없지만, 검색을 선택해서 들어갑니다~그리고 나타는 글의 하단에 있는 오픈 API 이용신청을 눌러줍니다~이제 사용 API를 선택하고 서비스 환경을 지정하면 되는데, 서비스 환경은 우리가 아직 서비스가 없으니 아무거나~^^그리고 내 어플리케이션에서 아까 지정한 이름을 찾아보..
[Keras] 타이타닉 생존자 분석. 디카프리오는 정말 살 수 없었을까? 2018. 4. 13. 08:00 영화 타이타닉의 감동을 이번 공부를 하면서 느꼈네요. 머신러닝을 공부하는 분들이 항상 수행하는 연습문제로 MNIST 필기 숫자 인식과 함께 타이타닉 생존자 분석이 있습니다. 저도 역시 공부하는 과정에서 거쳤구요. 이번에는 최근 그 매력에 빠진 케라스(Keras)로 수행해보려고 합니다. 그리고, Keras로 수행한 후 레오나르도 디카프리오가 연기한 그 역할의 남자 주인공의 생존 가능성을 한 번 확인해 보려고 했습니다.^^ 언제나 그랬지만, 오늘도 역시 혼자힘으로는 못하고 많은 분의 도움을 받았습니다. 일부 내용은 그대로 따라했구요. 먼저 Pandas를 이용한 분석과 다양한 데이터를 들여다보고 시각화하는 것은 Matt dePero님의 Titanic Machine Learning from Disaster[바로..
연습삼아 해보는 비트코인(bitcoin) 시세 예측하기 - 그런데 비트코인이랑 목요일이 뭔 관계가 있나??? 2018. 1. 8. 08:00 요즘 비트코인의 열풍이 대단합니다. 전 뭐 인형 뽑기조차 무서워하는 소심한 캐릭터라 별관심이 없었는데, 그래도 주변에서 많이들 하시고, 또 많이들 수익을 얻었다고 하니 살짝 뉴스를 좀 찾아 읽어보는 수준이었죠^^. 그러다가 문득 요즘 제가 관심있어하는 데이터 사이언스 관련해서 연습용으로 한 번 다뤄볼까하는 생각을 하게 되었습니다. 그래도 명색이 데이터 사이언스 관련 책인 파이썬으로 데이터 주무르기[바로가기]도 쓴 데이터 사이언스 저자인데 말이죠^^. 그래서 책에서도 소개했지만, Selenium[바로가기]과 fbprophet[바로가기]을 이용해서 비트코인 시세 예측을 한 번 시도해 보았습니다. 두 모듈 모두 제가 블로그에서 다루기도 헀지요^^.먼저 비트코인의 시세 데이터는 위 Bitcoincharts라는 ..
PinkWink의 데이터 사이언스 관련 책이 출판됩니다. - 파이썬으로 데이터 주무르기 2017. 12. 20. 08:00 정말 왜 한다고 결심하고 시작했지?? 하고 후회하는 일이 있었습니다. 최근 저는 책을 한 권 집필했는데요. 나같은 어중이 떠중이가 뭐 대단하다고 이렇게 책을 쓰겠다는 거지? 하면서 몇번을 후회하다가 결국 모든 작업이 마쳐졌네요... 저는 출판이라는 작업이 그렇게 어려운지 몰랐습니다. 저자는 그저 아이디어와 글과 자료만 있을 뿐 그건 책이 아니더라구요. 디자인하시는분, 교정, 기획, 편집.. 휴.. 정말 많은 분들의 손길이 거치는 것이 책인것 같습니다. 그래서 더더욱 중간중간 후회했지요..ㅠㅠ. 아무튼.... 사실 저의 공식적인 출판은 NCS의 학습모듈을 집필할 때였습니다만, 그건 일종의 국책사업이고, 이번에는 순수하게 제 의지로 수행하는 거니 첫 출판 책이지요. 이 책의 구성을 하게 된 히스토리가 있습니..

반응형