본문 바로가기

전체 글

(71)
[Ch 4. 셀프 주유소는 정말 저렴할까] from "파이썬으로 데이터 주무르기(민형기 지음)" 4장에서는 서울시를 대상으로 셀프 주유소의 '휘발유' 가격이 일반 주유소에 비해 더 저렴한지에 대한 분석을 수행하였다. Selenium 을 사용하여 인터넷에서 서울시 구별 주유소 정보를 가져왔다. 이 때, chromedriver의 버전이 내 노트북과 맞지 않아서 다시 재 다운로드 한 뒤에 분석을 수행하였다. ※ 본인의 노트북 Chrome 버전에 맞는 chromedriver를 설치해야 한다!! 먼저 인터넷으로부터 가져온 정보들을 분석하기 좋은 형태로 가공해 준 다음, boxplot 및 지도 시각화를 통해 "셀프 주유소는 정말 저렴할까?"에 대한 확인을 해보았다. 시각화에 대한 결과와 코드는 아래의 링크에서 확인할 수 있다 ★ 코드 및 설명 링크 : https://nbviewer.jupyter.org/gis..
[핸즈온 머신러닝 2/E] 1장. 한 눈에 보는 머신러닝 오늘부터 "핸즈온 머신러닝 2/E" 교재에 나온 내용들을 정리하며, 머신러닝 이론에 대한 공부를 시작했다. 1장에서는 머신러닝이란 무엇인지 그리고 왜 필요한지에 대한 내용들이 담겨있고, 사례들을 예시로 이해하기 쉽게 설명해주고 있다. 자, 그럼 이제 1장에서 공부한 내용들을 정리해보겠다. ▶ 머신러닝이란 무엇인가? 머신러닝은 명시적인 규칙을 코딩하지 않고, 기계가 데이터로부터 학습하여 어떤 작업을 더 잘하게 만드는 것이다. 스팸 필터 수익 예측 고장 진단 및 사기 탐지 (이상치 탐지) 고객 군집화 상품 추천 챗봇 음성 인식 이미지 분류 텍스트 분류 머신러닝 기술을 적용해서 대용량의 데이터를 분석한 후, 겉으로는 찾지 못했던 새로운 패턴을 발견하는 것을 "데이터 마이닝"이라고 한다. 말 그대로 "마이닝"이..
[R을 이용한 데이터 처리&분석 실무] 1 ~ 3장 내용 정리 R을 공부하기 위해 책을 펼치는 순간, 기본적인 내용들은 아직 내 손가락이 기억하는 듯 했다...ㅎ 그래서 1장부터 3장까지의 빠르게 한 번 훑었다. 한 번 읽어보며 코드를 치는 과정에서, 중요하다고 생각되는 부분들과 Python과 다른 부분들에 대해서 간략하게 정리해보겠다. 먼저 현재 배우고 있는 또 다른 프로그래밍 언어인 Python과 어떤 부분들이 다른지에 대해 적어보겠다. 파이썬의 경우에는 변수에 값을 할당할 때 "=" 연산자를 주로 사용하는데에 반면, R에서는 "
[Ch 3-2. 네이버 영화 평점 분석] from "파이썬으로 데이터 주무르기(민형기 지음)" 이번 챕터에서는 "네이버 영화 평점 분석"이라는 주제로 분석을 수행해보았다. 마찬가지로 인터넷에 있는 정보를 크롤링해서 내가 원하는 형태로 가공해 준 다음, 날짜별 영화 평점의 변화를 시각화하는 작업까지 수행해주었다. 개인적으로 이번 주제는 지난 챕터 주제였던 "시카고 샌드위치 맛집 분석"보다 더 흥미로웠다. 아마 "영화"라는 주제가 모두에게 흥미로운 주제일 것이라고 생각한다. 관심이 그만큼 많기 때문에, 분석을 좀 더 집중해서 수행해 볼 수 있었던 것 같다. 최종 시각화를 할 때, 내가 평소 관심 가졌던 5개의 영화(택시운전사, 47 미터, 스파이더맨: 홈커밍, 라라랜드, 500일의 썸머)의 날짜별 평점 변화를 확인해보았다. 이처럼 내가 관심 가는 주제를 선택해서 분석해보면 코딩 실력도 많이 늘고, 흥..
[Ch 3-1. 시카고 샌드위치 맛집 분석] from "파이썬으로 데이터 주무르기(민형기 지음)" 오늘은 "시카고 샌드위치 맛집 분석"이라는 주제로 분석을 수행해보았다. 이번 챕터에서는 1, 2장과는 다르게 BeautifulSoup을 사용하여 "웹 스크래핑(크롤링)"을 통해 인터넷으로부터 직접 데이터를 긁어오는(?) 식으로 진행되었다. "웹 스크래핑". 일명 "크롤링"이라고도 불리는 이 작업을 수행해주면서, HTML에 대한 지식이 절실함을 느꼈다. 유트브를 보면서 HTML에 대한 기본 지식 공부도 시작해야겠다... ★ 코드 및 설명 링크 : https://nbviewer.jupyter.org/gist/HyeongWookKim/3d5f24967bacbeeefb5330a4dae365f9 Jupyter Notebook Viewer 샌드위치 맛집 리스트 50개 각각에 대해서 절대경로로 잡힌 url은 그대로 ..
[Ch 2. 서울시 범죄 현황 분석] from "파이썬으로 데이터 주무르기(민형기 지음)" 오늘은 "서울시 범죄 현황 분석"이라는 주제로 직접 코드를 따라쳐보며 분석을 수행해보았다. 이번 분석 목적은 뉴스 기사에 나온 "강남 3구가 과연 범죄로부터 안전할까?"라는 가설을 확인해보는 것이었다. 하지만 분석을 해 본 결과, 강남 3구가 범죄로부터 그렇게 안전하지 않다는 사실을 확인했다. (뉴스 기사에서는 분명 안전하다고 했는데...?) 결과를 직접 시각화해서 눈으로 확인할 때마다, Python에 이렇게 좋은 시각화 모듈 및 라이브러리들이 있구나라는 것을 새삼 다시 깨닫는다. ★ 코드 및 설명 링크 : https://nbviewer.jupyter.org/gist/HyeongWookKim/f7664f8666cee542ac4e3ef62b6e0b7b Jupyter Notebook Viewer '강간 발생..
[알고리즘_Programmers] 6주차 문제 및 풀이 (총 5 문제) ※ 6주차 문제들... 할많하않 ^^;; 이 문제는 결국 풀지 못하고, 구글 신의 도움을 받아 코드를 참고하였다... 위 풀이에서는 짝수는 어차피 소수가 될 수 없으니, n 미만의 자연수들 중에서 홀수들만 뽑아내서 코드의 효율성을 높여주었다. 그리고 "에라토스테네스의 체"라는 개념을 사용하여 문제를 풀면 된다...(이름부터 정이 안가네 ㅎ) "에라토스테네스의 체"라는 개념을 이해하기 위해, 아래 링크를 걸어놓은 위키피디아 사이트를 참고하였다. ko.wikipedia.org/wiki/%EC%97%90%EB%9D%BC%ED%86%A0%EC%8A%A4%ED%85%8C%EB%84%A4%EC%8A%A4%EC%9D%98_%EC%B2%B4 에라토스테네스의 체 - 위키백과, 우리 모두의 백과사전 위키백과, 우리 모두의..
[Ch 1. 서울시 구별 CCTV 현황 분석] from "파이썬으로 데이터 주무르기(민형기 지음)" 오늘부터 "파이썬으로 데이터 주무르기(민형기 지음)" 교재에 있는 코드들을 하나하나 따라쳐보면서, 직접 데이터 분석을 해보기 시작했다. 파이썬으로 코드 구현을 직접 해보면서, 데이터 탐색 과정이라고 불리우는 "EDA 과정"에 대해 많은 것을 배울 수 있을 것 같다. 오늘 분석해 본 주제는 "서울시 구별 CCTV 현황 분석"이다. 서울시의 구별로 CCTV 개수를 파악하여 시각화하는 과정까지 수행해보았다. 처음이라 그런지 굉장히 재밌고 흥미로웠다 ^^ 이런 마음가짐이 쭉 이어지길...!! ★ 코드 및 설명 링크 : https://nbviewer.jupyter.org/gist/HyeongWookKim/53e41c395f2b19b360bd3ccb38928cd8 Jupyter Notebook Viewer 결과를 ..