활성화된 데이터셋 선택하기...

Data > Active data set > Select active data set...

 

메모리에 여러개의 데이터셋이 올려져 있을 수 있다. 그 중 하나를 선택하는 기능이다. 여러 개의 데이터셋에서 하나를 선택한다는 것은 그 데이터셋을 갖고 분석 작업을 수행하겠다는 것으로 이해할 수 있다. 그 과정에서 매번 그 데이터셋을 지정할 필요가 없다는 것이다.

Linux 사례 (MX 21)

메모리에 탑재된 데이터셋이 하나인 경우 다음과 같은 경고문을 알림글에서 보게 된다. 

Windows 사례

아래와 같이 두개의 데이터셋이 메모리에 있다고 가정하자. 이 경우 어느 데이터셋을 선택해서 자료처리와 분석을 진행할 것인가를 결정해야 한다.

Windows 사례

아래 화면은 Prestige 데이터셋이 선택된 상황이다. 예(OK)를 누른다.

Windows 사례

R Commander 화면에서 R 아이콘 옆에 '데이터셋: Prestige' 이 뜬다.

Windows 사례

만약, Moore 데이터셋을 선택하면 '데이터셋: Moore'로 바뀐다.

Windows 사례

 

Windows 사례

한편, 위와 같은 방식 (Pull-down)의 메뉴와 기능 선택을 거치지 않고, 바로 데이터셋을 바꿔가며 활성화시켜 작업하고자 할 때는 마우스를 이용하여 바로 버튼을 누를 수 있다. 파란색의 Prestige 버튼을 눌러보라: 

Windows 사례

'Data > Active data set' 카테고리의 다른 글

6. Set case names...  (0) 2019.09.08
5. Variables in active data set  (0) 2019.09.08
4. Help on active data set (if available)  (0) 2019.09.08
3. Refresh active data set  (0) 2019.05.13
1. View data...  (0) 2019.05.13

데이터 > 활성 데이터셋 > 데이터 보기...

Data > Active data set > View data...

 

Linux 사례 (MX 21)

메모리로 불러온 데이터의 내부 값들을 볼 때 사용한다.  데이터프레임화 된 객체 전체를 보거나, 일부 변수들만 추려서 볼 수도 있다. carData 패키지에 포함된 Prestige 데이터셋을 사용하여 연습해보자. '데이터 > 패키지에 있는 데이터 > 첨부된 패키지에서 데이터셋 읽기...' 기능을 선택하여 Prestige 데이터셋을 선택하자. 그러면, R Commander 상단의 '활성 데이터셋 없음'이 'Prestige'로 바뀐다. 이후 '활성데이터셋 > 데이터 보기...'를 선택하면 아래와 같은 메뉴창이 등장한다.

 

기본 설정에는 '모든 변수 포함하기'가 선택되어 있다.

Windows 사례

데이터셋의 크기가 작거나, 변수의 갯수가 적은 경우는 크게 무리 없이 '모든 변수 포함하기'를 이용할 수 있다.

Windows 사례

데이터셋에 대한 이해가 깊어지고, 분석의 대상의 명확해지면서 소량의 변수를 중심으로 데이터를 살펴볼 경우도 있다. 이 때는 '모든 변수 포함하기' 설정을 해제하고 필요한 변수들만으로 제한할 수 있다.  Prestige 데이터셋에서 교육연수와 수입(연봉)이 직업의 권위에 대한 인식에 어떤 영향을 미치는가를 연구주제로 정했다고 하면, education, income, prestige 등의 변수로 제한할 수 있다:

 

Windows 사례 (10 Pro)
Windows 사례 (7)

?showData  # relimp 패키지의 showData 도움말 보기

data(mtcars)
showData(mtcars)

조금 난이도가 있는 고민을 해보자. 데이터셋 내부를 보고자 한다. 그러나, 데이터셋에 대한 기초적인 이해를 확보한 이후, 범위를 좁혀서 통찰력을 키우기 위하여 다양한 방식으로 데이터셋 내부를 보고자 할 수 있다. 몇 개의 변수를 선택하고, 또 요인형 변수의 어느 수준으로 제한된 범위 안에서 데이터셋 내부를 볼 수 있다. 아래 화면에서 원하는 변수를 선택하고,  <하위셋 표현식>을 추가한 것을 볼 수 있다. type (직업 유형)에는 bc, prof, wc 라는 수준이 있다는 것을 미리 알고, white collar 직업군 내부의 정보를 보고자 type == "wc"로 제한하도록 하자.

Linux 사례 (MX 21)

아래의 데이터는 Prestige 데이터셋에서 white collar 직업군으로 제한하여, education, income, prestige, women 변수의 사례를 출력한 결과이다.

Linux 사례(MX 21)

'Data > Active data set' 카테고리의 다른 글

6. Set case names...  (0) 2019.09.08
5. Variables in active data set  (0) 2019.09.08
4. Help on active data set (if available)  (0) 2019.09.08
3. Refresh active data set  (0) 2019.05.13
2. Select active data set...  (0) 2019.05.13

데이터 > 패키지에 있는 데이터 > 첨부된 패키지에서 데이터셋 읽기...

Data > Data in packages > Read data set from an attached package...

 

Windows 사례

R에는 많은 예제 데이터셋이 있다. 대부분의 패키지들에 예제 데이터셋이 담겨 있다. R과 R Commander를 사용하는 과정에서 불러온, 다른 말로 하면 메모리로 호출된 패키지들에 데이터셋이 포함되어 있을 수 있다. 예제로 포함된 데이터셋을 선택하여 메모리 안으로 불러들일 때, 이 기능을 사용한다. 주로 통계 방법론이나 함수 사용법을 연습할 때, 주로 활용하게 된다.

 

하나의 사례로서, carData 패키지의 Prestige 데이터셋을 선택한다. 

 

Windows 사례

 

Windows 사례

출력 창을 보면, data() 함수가 사용됨을 알 수 있다:

data(데이터셋이름, package="패키지이름")

Windows 사례


?data # utils 패키지의 data 도움말 보기

require(utils)
data()                         # list all available data sets
try(data(package = "rpart") )  # list the data sets in the rpart package
data(USArrests, "VADeaths")    # load the data sets 'USArrests' and 'VADeaths'
## Not run: ## Alternatively
ds <- c("USArrests", "VADeaths"); data(list = ds)
## End(Not run)
help(USArrests)                # give information on data set 'USArrests'

'Data > Data in packages' 카테고리의 다른 글

1. List data sets in packages  (0) 2019.05.13

패키지의 데이터셋 목록

Data > Data in packages > List data sets in packages

 

Windows 사례

R과 Rcmdr에서 불러온 패키지에 담겨있는 데이터셋의 목록을 보여준다.

data() 함수를 사용한다. R이 시작될 때 기본 설정으로 함께 호출되는 Datasets 패키지, Rcmdr 패키지를 호출할 때 의존성을 갖는 carData, sandwish 패키지의 데이터셋 목록을 포함한다.

 

Windows 사례

'Data > Data in packages' 카테고리의 다른 글

2. Read data set from an attached package...  (0) 2019.05.13

데이터 > 데이터 불러오기 > Excel 파일로부터…
Data > Import data > from EXCEL file...

Linux 사례 (MX 21)
Linux 사례 (MX 21)



Microsoft사의 Office 제품에 포함된 EXCEL은 광범위하게 사용되는 수치정보 관리 및 시각화 툴이다. 관리/재무 정보를 다루는 수많은 기업과 개인이 사용하기 때문에 R 사용자가 엑셀의 .xls, 또는 .xlsx 파일을 불러오는 요구는 매우 크다. 관심사가 크기 때문일까, R에서 EXCEL파일을 불러오기 위해서 개발자들이 만든 기여패키자들도 많다. R Commander에서 EXCEL파일을 불러오기 위하여 사용하는 외부 패키지도 변해왔다. 2019년 5월 현재는 readxl 이라는 패키지이다.

- EXCEL은 다른 통계분석툴과 달리 sheet 개념이 있다. 따라서 불러올 데이터의 객체화 과정에서 EXCEL 파일의 어느 sheet를 불러올 것인가를 선택할 수 있다.
- EXCEL은 다른 통계분석툴과 달리 데이터 프레임화에 필요한 변수명에 대한 강한 규칙을 갖고 있지 않다. 따라서 R Commander의 기본 설정은 선택된 sheet의 첫 행의 정보를 변수 정보로 활용하는 것이다.

 


?readXL  # RcmdrMisc 패키지의 readXL 도움말 보기

Rcmdr 2.7-x 의 한글 환경에서는 excel 파일을 불러오는데 오류가 발생한다. 아래의 문서를 참조할 수 있다.

https://rcmdr.tistory.com/64

 

Data > Import data > from Excel file... 오류 발생 및 상황 이해하기

R Commander에서 엑셀파일을 불러올 때가 있다. 이 때 사용하는 기능이다. 그런데 Rcmdr 2.7-x 에서 엑셀파일을 불러오는데 오류가 발생한다. 메뉴 한글화 담당자로서 이 상황을 설명하려고 한다. 먼저

rcmdr.kr

 

'Data > Import data' 카테고리의 다른 글

clipboard(클립보드)를 활용한 데이터셋 불러오기  (1) 2022.12.19
from STATA data set...  (0) 2019.05.12
from Minitab data set...  (0) 2019.05.12
from SAS b7dat file...  (0) 2019.05.12
from SAS xport file...  (0) 2019.05.12

(한글 번역을 하지 않았다)

Data > Import data > from STATA data set...

 

STATA는 사회과학분야의 고급통계문화에서 많이 사용하는 분석툴중 하나이다. SPSS처럼 문자 변수를 요인화시키는 것이 기본 설정이다. 날짜를 R 형식으로 전환하는 것이 기본 설정이다. (추후 논의하겠다)

'Data > Import data' 카테고리의 다른 글

clipboard(클립보드)를 활용한 데이터셋 불러오기  (1) 2022.12.19
from EXCEL file...  (0) 2019.05.12
from Minitab data set...  (0) 2019.05.12
from SAS b7dat file...  (0) 2019.05.12
from SAS xport file...  (0) 2019.05.12

(한글 번역을 하지 않았다)

Data > Import data > from Minitab data set...

'Data > Import data' 카테고리의 다른 글

from EXCEL file...  (0) 2019.05.12
from STATA data set...  (0) 2019.05.12
from SAS b7dat file...  (0) 2019.05.12
from SAS xport file...  (0) 2019.05.12
from SPSS data set...  (0) 2019.05.12

(한글 번역을 하지 않았다)

from SAS b7dat file...

'Data > Import data' 카테고리의 다른 글

from STATA data set...  (0) 2019.05.12
from Minitab data set...  (0) 2019.05.12
from SAS xport file...  (0) 2019.05.12
from SPSS data set...  (0) 2019.05.12
1. from text file, clipboard, or URL...  (0) 2019.05.12

(한글 번역을 하지 않았다)

Data > Import data > from SAS xport file...

'Data > Import data' 카테고리의 다른 글

from STATA data set...  (0) 2019.05.12
from Minitab data set...  (0) 2019.05.12
from SAS b7dat file...  (0) 2019.05.12
from SPSS data set...  (0) 2019.05.12
1. from text file, clipboard, or URL...  (0) 2019.05.12

데이터 > 데이터 불러오기 > SPSS 데이터셋에서...

Data > Import data > from SPSS data set...

Linux 사례 (MX 21)

'데이터 > 데이터 불러오기 > SPSS 데이터셋에서...' 메뉴 기능을 선택하자. 아래와 같은 화면이 등장한다. 

Linux 사례 (MX 21)

- 데이터셋의 기본이름은 Dataset으로 되어있다. 원하는 (영문)이름으로 바꿀 수 있다.

- 기본설정으로 클릭되어 제공되는 선택사항이 '(문자 변수를 요인으로 변환하기(Convert character variables to factors)'이다. 문자형 변수를 요인형 변수로 바꾼다는 것이다. 문자형을 요인형으로 바꾸는 것이 필요한가? 필요하지 않은가?  이 질문은 R을 이해하는 데 있어서 중요하다. 필요할 수 도 있고, 불필요하고 오히려 분석에 거추장스러울 수 있다. 하지만, R Commander에서 제공하는 대부분의 기능은 문자형을 요인형으로 만들어 처리한다.

 

SPSS라는 인기있는 GUI 사회과학 통계분석툴이 있다. 70년대 초반부터 발전해온 전산 통계툴이기 때문에, 대부분의 학자들에게 무척 친숙하다. SPSS 경험자들이 R을 배울 때 어색한 개념이 factor이다. R의 데이터 유형(Type) 중 하나인 factor는 흔히 '범주형(categorical)' 으로 SPSS 사용자들이 이해하고 있기 때문이다. 아울러 factor하면 요인분석에서 등장하는 개념으로 바로 넘어가는 경우가 흔하다.

 

요인형으로 바꾸는 이유는 시각화 작업과도 연관성이 크다. R에서 시각화되는 정보는 수치형과 요인형이다. 수치형은 연속형 자료로, 요인형은 이산형 자료로 시각화되기 때문에, plot()로 호출되는 방식이 크게 다르다. 문자형을 요인형으로 바꾼다는 것은 곧 시각화 준비를 마쳤다는 의미이기도 하다.

Linux 사례 (MX 21)

 

?readSPSS  # RcmdrMisc 패키지의 readSPSS 도움말 보기

Dataset <- readSPSS("/home/jhshin/다운로드/foreign/inst/files/electric.sav", 
  rownames=FALSE, stringsAsFactors=TRUE, tolower=FALSE)            
                            # 로컬 저장소에 있는 electric.sav 파일 불러오기 사례

SPSS 파일 불러오기 연습용 사례 파일 저장소 위치:

https://rcmdr.tistory.com/210

 

SPSS 데이터 파일 사례

foreign 패키지 안에는 SPSS 파일이 예제로 포함되어 있다.

rcmdr.kr

 

'Data > Import data' 카테고리의 다른 글

from STATA data set...  (0) 2019.05.12
from Minitab data set...  (0) 2019.05.12
from SAS b7dat file...  (0) 2019.05.12
from SAS xport file...  (0) 2019.05.12
1. from text file, clipboard, or URL...  (0) 2019.05.12

+ Recent posts