본문 바로가기

WEB

(2)
웹에 있는 데이터를 가져와보자 2020. 8. 28. 19:22 데이터 사이언스 관련된 연재를 올리다가 제가 너무 바쁜 관계로 잠시 쉬었네요. 이제 다시 시작해야죠. 데이터를 다루는 것을 공부하다보면 어디서 데이터를 얻을 것인지에 대한 고민이 당연히 생깁니다. 대부분의 회사에서야 자기들만의 방법으로 데이터를 얻게 되죠. 그러나 웹에서 데이터를 얻는 방법을 알아두면 정말 재미있는 일을 많이 해볼수 있답니다.일단, jupyter notebook에서 pip install bs4를 수행해서 Beautiful Soup이라는 것을 설치합니다. 이미 설치되어 있는 분들도 있겠지만, 우리가 처음 환경을 설치하던 글에서 시작하신 분들은 설치되어 있지 않을 겁니다.그리고 세상에서 가장 간단한 사이트중 하나인 beans-r-us라는 사이트를 찾아 보겠습니다. 사실 이 사이트는 몇 개 이..
Python Beautiful Soup으로 웹 페이지의 내용 쉽게 가져오기~ 2016. 12. 16. 08:00 오늘은 웹 페이지 내용을 쉽게 가져올 수 있는 Python 라이브러리인 Beautiful Soup을 소개할까 합니다. 아나콘다[바로가기]에서는 이미 포함되어 배포되구요. 아니어도 쉽게 설치[바로가기]할 수 있습니다. 뭐 여하튼 시작하죠~~~ 무턱대고^^아주아주 심플한 뭐 그런 페이지입니다.^^. 이 페이지의 소스를 보면 뭐~ 정말 간단하다는 것을 알 수 있죠^^간단하게 beautiful soup4를 import해서 쉽게 웹페이지를 읽었습니다. Python3부터 urlopen은 urllib.request에서 가져와야 합니다. 그리고 BeautifulSoup에서 html을 읽는 옵션중 lxml은 빠르고 간편한 옵션을 가지고 있다고 안내하고 있네요^^여기서 soup이라는 변수로 받았으니, soup.p라고 하면..

반응형