R을 공부하기 위해 책을 펼치는 순간, 기본적인 내용들은 아직 내 손가락이 기억하는 듯 했다...ㅎ
그래서 1장부터 3장까지의 빠르게 한 번 훑었다.
한 번 읽어보며 코드를 치는 과정에서, 중요하다고 생각되는 부분들과 Python과 다른 부분들에 대해서 간략하게 정리해보겠다.
먼저 현재 배우고 있는 또 다른 프로그래밍 언어인 Python과 어떤 부분들이 다른지에 대해 적어보겠다.
<Python과 다른 부분>
- 파이썬의 경우에는 변수에 값을 할당할 때 "=" 연산자를 주로 사용하는데에 반면, R에서는 "<-" 연산자를 사용한다.
- R에서는 "=" 연산자를 사용할 경우, 때에 따라 사용할 수 없는 경우가 발생할 수 있기 때문이다.
- R과 다른 언어의 가장 큰 차이 중 하나가 바로 NA(Not Available) 상수다. NA는 데이터 값이 없음을 의미한다.
- R에서 NA는 결측치, 즉 값이 빠져있는 경우를 말하며 NULL은 프로그래밍의 편의를 위해 미정 값을 표현하는데 사용한다.
- R에서 index는 0이 아닌 1부터 시작한다!! (이 부분이 파이썬이랑 달라서 굉장히 헷갈린다;;)
- x라는 벡터가 주어졌을 때, R에서 "x[-n]" 이 의미하는 바는 벡터 x로부터 n번째 요소를 제외한 나머지를 의미한다.
- 또한 "x[start:end]"가 의미하는 바는 벡터 x의 start부터 end까지(즉, end를 포함한다!!)의 값을 반환한다는 의미이다.
- R에서 함수를 정의할 때는 값 반환 시 "return 반환 값" 형태가 아닌, "return(반환 값)" 형태로 작성해야 한다.
다음으로 1장부터 3장까지 공부한 내용들 중, 중요하다고 생각되는 부분들만 정리해보았다.
<중요하다고 생각되는 부분>
▶ %in% 연산자 : 어떤 값이 벡터에 포함되어 있는지를 알려준다.
▶ 리스트 데이터 접근
문법 | 의미 |
x$key | 리스트 x에서 키 값 key에 해당하는 값 |
x[n] | 리스트 x에서 n번째 데이터의 서브리스트 |
x[[n]] | 리스트 x에서 n번째 저장된 값 |
▶ str( ) : 데이터 타입을 확인해주는 함수
<주의할 점>
- 원래는 stringAsFactor = FALSE 를 지정해주지 않으면, 문자열이 character(문자열 벡터)가 아니라 factor가 된다. 그런데 R 4.0.0 부터 stringAsFactor = FALSE 가 default 값으로 바뀌면서, 이 옵션을 따로 지정해줄 필요가 없어졌다!
▶ as.factor( )와 factor( )의 차이
- as.factor( )는 변환할 데이터 이상의 인자를 받지 않으므로, factor의 level을 우리가 원하는대로 지정해 줄 수 있는 방법이 없다.
- 반면, factor( )는 factor의 level을 우리가 원하는대로 지정해줄 수가 있다.
▶ na.rm : NA 값이 있을 때, 해당 값을 연산에서 제외할 것인지를 지정
▶ na.omit(object) : object에 NA가 포함되어 있으면 이를 제외
- 위의 결과를 보면, NA가 포함된 행을 제외시키고 출력한 것을 알 수 있다.
여기까지 해서 1장부터 3장까지 공부한 내용들을 정리해보았다!!
책이 두꺼워서 공부할 양이 겁나 많아 보인다...(사실 많아 보이는게 아니라 실제로 많...다)
그래도 오랜만에 R 공부하니까 재밌네...ㅎㅎ 쭉쭉 진도를 빼보자~
★ 참고 자료
- R을 이용한 데이터 처리&분석 실무 교재
'R' 카테고리의 다른 글
[R을 이용한 데이터 처리&분석 실무] 5장 내용 정리_Part 2 (0) | 2020.06.16 |
---|---|
[R을 이용한 데이터 처리&분석 실무] 5장 내용 정리_Part 1 (0) | 2020.06.09 |
[R을 이용한 데이터 처리&분석 실무] 4장 내용 정리_Part 2 (0) | 2020.06.03 |
[R을 이용한 데이터 처리&분석 실무] 4장 내용 정리_Part 1 (0) | 2020.06.01 |