데이터 > 활성 데이터셋이 있는 변수 관리하기 > 데이터셋에서 변수 지우기...

Data > Manage variables in active data set > delete variables from data set...

 

Linux 사례 (Ubuntu 18.04)

 

잘못 작업된 변수 또는 분석에 필요없는 변수를 삭제하는 기능이다. 삭제하고자 하는 변수를 선택하고 예(OK) 버튼을 누른다.

 

Linux 사례 (Ubuntu 18.04)

삭제하기전에 다시 한번 확인하는 질문을 받는다. 예(OK) 버튼을 누른다.

Linux 사례 (Ubuntu 18.04)

출력창에 아래와 같은 명령문의 내용을 보게 될 것이다. 알림글에는 2개의 변수가 삭제되었음을 알리는 주석이 등장한다.

 

데이터셋 <- within(데이터셋, {삭제될변수 <- NULL })


?NULL  # base 패키지의 NULL 도움말 보기

is.null(list())     # FALSE (on purpose!)
is.null(pairlist()) # TRUE
is.null(integer(0)) # FALSE
is.null(logical(0)) # FALSE
as.null(list(a = 1, b = "c"))

데이터 > 활성 데이터셋의 변수 관리하기 > 변수이름 다시 짓기...
Data > Manage variables in active dataset > Rename variables...

Linux 사례 (MX 21)


변수의 이름을 바꿔야할 때 사용하는 기능이다. 이름을 바꿀 변수를 선택하고 예(OK) 단추를 누르면, 다음 창이 뜨는데 여기에서 생각한 새로운 변수 이름을 입력하면 된다.

Linux 사례 (MX 21)

 

Linux 사례 (MX 21)

names(데이터셋이름)[변수번호] <- c("새로운변수이름1", "새로운변수이름2", "새로운변수이름3") 등으로 함수가 사용된다.

names(Prestige)[c(1, 2, 4)] <- c("교육연수", "수입", "직업권위")

Linux 사례 (MX 21)

R Commander 화면에서 <데이터셋 보기> 버튼을 누르면, 다음과 같이 변수 이름이 바뀐 데이터셋 정보를 보게된다.

Linux 사례 (MX 21)


?names  # base 패키지의 names 도움말 보기

# print the names attribute of the islands data set
names(islands)

# remove the names attribute
names(islands) <- NULL
islands
rm(islands) # remove the copy made

z <- list(a = 1, b = "c", c = 1:3)
names(z)
# change just the name of the third element.
names(z)[3] <- "c2"
z

z <- 1:3
names(z)
## assign just one name
names(z)[2] <- "b"
z

데이터 > 활성 데이터셋의 변수 관리하기 > 수치 변수 구간만들기...
Data > Manage variables in active data set > Bin a numeric variable...

Linux 사례 (MX 21)


수치 변수를 촘촘히 연결된 연속형 변수라고 생각해보자. 선 그래프로 시각화 할 수 있을 것이다. 연속적인 값들을 구간으로 나누어 쪼개어 배치하는 기법이 필요할 수 있다. 흔히 연령을 연령대로 만드는 작업이 이것에 속한다.

구간을 만드는 작업창에는 몇 몇 검토 사항의 조건들을 묻는 내용이 있다.
1. 몇 개의 구간을 만들 것인가?
2. 구간 수준의 이름을 어떻게 정할 것인가?
3. 구간화 작업을 넓이로, 계산치로, 군집화로 할 것인가?

몇 개의 구간을 만들 것인가라는 질문에 답을 결정하려면, 아마도 이 수치형 변수의 요약적 특징을 미리 알고 있어야 할 것이다. 그리고, 구간화 작업에서 동일-넓이 구간이 기본 선택사항인데, 다른 선택을 하려면, 데이터에 대한 이해와 높은 분석적 통찰력이 요구될 것이다.

carData 패키지에 있는 Prestige 데이터셋의 수입(연봉)을 뜻하는 income 변수를 구간으로 쪼개자. income 변수는 수치형 변수이다. 102개의 income 변수의 사례 요약은 다음과 같다:

Linux 사례 (MX 21)

income.bin1, income.bin2, income.bin3 등 세개의 income 변수 구간화 작업을 하자. 구간의 수는 3개로, 수준 이름은 lower, middle, upper로 정하자. 구간화 기법은 bin1은 동일-넓이 구간, bin2는 동일-계산치 구간, bin3는 Natural breaks(K-평균 군집화에서)을 각각 선택하자.

Linux 사례 (MX 21)
Linux 사례 (MX 21)

아래 출력창에서 각각의 구간화 인자 method와 세 변수의 요인 갯수를 살펴보라.

Linux 사례 (MX 21)

<데이터셋 보기> 버튼을 눌러 Prestige 데이터셋에서 income.bin1, income.bin2, income.bin3의 요인들을 살펴보라.

Linux 사례(MX 21)


?binVariable  # RcmdrMisc 패키지에서 binVariable 도움말 보기

summary(binVariable(rnorm(100), method="prop", labels=letters[1:4]))

+ Recent posts