본문 바로가기

R

[R을 이용한 데이터 처리&분석 실무] 1 ~ 3장 내용 정리

R을 공부하기 위해 책을 펼치는 순간, 기본적인 내용들은 아직 내 손가락이 기억하는 듯 했다...ㅎ

 

그래서 1장부터 3장까지의 빠르게 한 번 훑었다.

 

한 번 읽어보며 코드를 치는 과정에서, 중요하다고 생각되는 부분들과 Python과 다른 부분들에 대해서 간략하게 정리해보겠다.

 

 

먼저 현재 배우고 있는 또 다른 프로그래밍 언어인 Python과 어떤 부분들이 다른지에 대해 적어보겠다.

 

<Python과 다른 부분>

  • 파이썬의 경우에는 변수에 값을 할당할 때 "=" 연산자를 주로 사용하는데에 반면, R에서는 "<-" 연산자를 사용한다.
  • R에서는 "=" 연산자를 사용할 경우, 때에 따라 사용할 수 없는 경우가 발생할 수 있기 때문이다.
  • R과 다른 언어의 가장 큰 차이 중 하나가 바로 NA(Not Available) 상수다. NA데이터 값이 없음을 의미한다.
  • R에서 NA는 결측치, 즉 값이 빠져있는 경우를 말하며 NULL은 프로그래밍의 편의를 위해 미정 값을 표현하는데 사용한다.
  • R에서 index는 0이 아닌 1부터 시작한다!! (이 부분이 파이썬이랑 달라서 굉장히 헷갈린다;;)
  • x라는 벡터가 주어졌을 때, R에서 "x[-n]" 이 의미하는 바는 벡터 x로부터 n번째 요소를 제외한 나머지를 의미한다.
  • 또한 "x[start:end]"가 의미하는 바는 벡터 x의 start부터 end까지(즉, end를 포함한다!!)의 값을 반환한다는 의미이다.
  • R에서 함수를 정의할 때는 값 반환 시 "return 반환 값" 형태가 아닌, "return(반환 값)" 형태로 작성해야 한다.

 

 

다음으로 1장부터 3장까지 공부한 내용들 중, 중요하다고 생각되는 부분들만 정리해보았다.

 

<중요하다고 생각되는 부분>

▶ %in% 연산자 : 어떤 값이 벡터에 포함되어 있는지를 알려준다.

 

▶ 리스트 데이터 접근

문법 의미
x$key 리스트 x에서 키 값 key에 해당하는 값
x[n] 리스트 x에서 n번째 데이터의 서브리스트
x[[n]] 리스트 x에서 n번째 저장된 값

 

▶ str( ) : 데이터 타입을 확인해주는 함수

<주의할 점>

  • 원래는 stringAsFactor = FALSE 를 지정해주지 않으면, 문자열이 character(문자열 벡터)가 아니라 factor가 된다. 그런데 R 4.0.0 부터 stringAsFactor = FALSE 가 default 값으로 바뀌면서, 이 옵션을 따로 지정해줄 필요가 없어졌다!

 

▶ as.factor( )와 factor( )의 차이

  • as.factor( )는 변환할 데이터 이상의 인자를 받지 않으므로, factor의 level을 우리가 원하는대로 지정해 줄 수 있는 방법이 없다.
  • 반면, factor( )는 factor의 level을 우리가 원하는대로 지정해줄 수가 있다.

 

▶ na.rm : NA 값이 있을 때, 해당 값을 연산에서 제외할 것인지를 지정

 

▶ na.omit(object) : object에 NA가 포함되어 있으면 이를 제외

위와 같이 데이터 프레임을 d 라는 변수로 지정하고, 전체에 괄호 ( ) 를 씌워주면 따로 d 라고 입력하지 않아도 바로 결과가 출력된다.

  • 위의 결과를 보면, NA가 포함된 행을 제외시키고 출력한 것을 알 수 있다.

 

여기까지 해서 1장부터 3장까지 공부한 내용들을 정리해보았다!!

 

책이 두꺼워서 공부할 양이 겁나 많아 보인다...(사실 많아 보이는게 아니라 실제로 많...다)

 

그래도 오랜만에 R 공부하니까 재밌네...ㅎㅎ 쭉쭉 진도를 빼보자~

 

 

★ 참고 자료

- R을 이용한 데이터 처리&분석 실무 교재