본문 바로가기

R

(5)
[R을 이용한 데이터 처리&분석 실무] 5장 내용 정리_Part 2 이번 포스팅에서는 지난 5장 에 이어서, 에 대한 내용들을 포스팅 하겠다. ▶ 데이터 구조의 변형과 요약 ◎ reshape2 패키지 - 데이터의 모양을 바꾸거나 그룹별 요약 값을 계산하는 함수들을 담고 있는 패키지 - 변환된 데이터는 측정치를 variable과 value라는 두 컬럼으로 표현하므로, 데이터의 통계치 계산이 편리해진다. ★★★ 1. melt(data, id.vars, measure.vars, na.rm = FALSE) → 유용하게 쓰이므로 꼭 기억하자!! data : melt할 데이터 id.vars : 식별자 컬럼들 measure.vars : 측정치 컬럼들. 이 값이 생략되면 id.vars에 해당하지 않는 모든 컬럼이 측정치 컬럼으로 취급된다. na.rm = FALSE : NA인 행을 결과..
[R을 이용한 데이터 처리&분석 실무] 5장 내용 정리_Part 1 이번 포스팅에서는 "데이터 조작 II : 데이터 처리 및 가공"에 대해서 정리해보겠다. 자, 그럼 시작해보겠다!! ▶ SQL을 사용한 데이터 처리 - sqldf(x) x : SQL SELECT 문 데이터 프레임에 SQL SELECT 질의를 수행한다. (그냥 SQL과 똑같다고 생각하고 사용하면 된다) 반환 값은 데이터 프레임이다. ※ iris 데이터를 예시로 설명하면, R과 달리 SQL에서 '.'은 테이블 컬럼명이 될 수 없으므로, Sepal.Length가 아니라 Sepal_Length로 컬럼명을 적어야 한다. 또한 SQL에서 대소문자 구별은 없으므로 Sepal_Length 대신 sepal_length로 적어도 된다. ▶ 분할, 적용, 재조합을 통한 데이터 분석 데이터를 분할하고(split), 분할된 데이..
[R을 이용한 데이터 처리&분석 실무] 4장 내용 정리_Part 2 이번 포스팅에서는 지난 4장에 대한 내용들을 이어서 정리해보겠다. 오늘 공부한 내용에도 꽤나 중요한 내용들이 포함되어 있으므로, 잘 기억해두도록 하자 ^^ 자, 그럼 공부한 내용에 대한 정리를 시작해보겠다! ▶ 데이터 프레임 컬럼 접근 1. attach( ) → 이 함수는 자주 사용하므로 꼭! 기억해두자! attach( )를 사용한 후부터는 필드 이름만으로 데이터를 곧바로 접근할 수가 있다. 즉, df$columns 이런 식으로 "$" 기호를 써주지 않아도 된다. 2. detach( ) attach( )의 반대 역할로, detach( )를 사용한 후부터는 더 이상 필드 이름으로 데이터를 곧바로 접근할 수가 없다. 즉, df$columns 이런 식으로 "$" 기호를 써주어야 한다. ▶ 조건에 맞는 데이터의..
[R을 이용한 데이터 처리&분석 실무] 4장 내용 정리_Part 1 오늘은 교재 4장 "데이터 조작 I: 벡터 기반 처리와 외부 데이터 처리"에 대한 내용을 정리해보겠다. 4장의 양이 꽤나 많으므로, Part 1 과 Part 2로 나눠서 포스팅을 하겠다. ▶ CSV 파일 입출력 read.csv(file, header = FALSE) 여기서 header 옵션은 파일의 첫 행을 헤더로 처리할 것인지 여부를 설정하는 것이다. header = FALSE 가 default 값이다. ▶ 데이터 프레임의 행과 컬럼 합치기 rbind( ) : 지정한 데이터들을 행으로 취급해서 합친다. cbind( ) : 지정한 데이터들을 컬럼으로 취급해서 합친다. ▶ apply 계열 함수 --> 요긴하게 써먹을 듯 싶으니, 잘 기억해두자!! ^^ 함수 설명 다른 함수와 비교했을 때의 특징 apply(..
[R을 이용한 데이터 처리&분석 실무] 1 ~ 3장 내용 정리 R을 공부하기 위해 책을 펼치는 순간, 기본적인 내용들은 아직 내 손가락이 기억하는 듯 했다...ㅎ 그래서 1장부터 3장까지의 빠르게 한 번 훑었다. 한 번 읽어보며 코드를 치는 과정에서, 중요하다고 생각되는 부분들과 Python과 다른 부분들에 대해서 간략하게 정리해보겠다. 먼저 현재 배우고 있는 또 다른 프로그래밍 언어인 Python과 어떤 부분들이 다른지에 대해 적어보겠다. 파이썬의 경우에는 변수에 값을 할당할 때 "=" 연산자를 주로 사용하는데에 반면, R에서는 "