datasets::swiss()

Linux 사례 (MX 21)
Linux 사례 (MX 21)

data(swiss, package="datasets") # swiss 데이터셋 불러오기
summary(swiss)                  # swiss 데이터셋 요약정보보기
str(swiss)                      # swiss 데이터셋 구조살펴보기

Linux 사례 (MX 21)

데이터셋의 내부는 다음과 같다:

Linux 사례 (MX 21)


swiss {datasets} R Documentation

Swiss Fertility and Socioeconomic Indicators (1888) Data

Description

Standardized fertility measure and socio-economic indicators for each of 47 French-speaking provinces of Switzerland at about 1888.

Usage

swiss

Format

A data frame with 47 observations on 6 variables, each of which is in percent, i.e., in [0, 100].

[,1] Fertility Ig, ‘common standardized fertility measure’
[,2] Agriculture % of males involved in agriculture as occupation
[,3] Examination % draftees receiving highest mark on army examination
[,4] Education % education beyond primary school for draftees.
[,5] Catholic % ‘catholic’ (as opposed to ‘protestant’).
[,6] Infant.Mortality live births who live less than 1 year.

All variables but ‘Fertility’ give proportions of the population.

Details

(paraphrasing Mosteller and Tukey):

Switzerland, in 1888, was entering a period known as the demographic transition; i.e., its fertility was beginning to fall from the high level typical of underdeveloped countries.

The data collected are for 47 French-speaking “provinces” at about 1888.

Here, all variables are scaled to [0, 100], where in the original, all but "Catholic" were scaled to [0, 1].

Note

Files for all 182 districts in 1888 and other years have been available at https://opr.princeton.edu/archive/pefp/switz.aspx.

They state that variables Examination and Education are averages for 1887, 1888 and 1889.

Source

Project “16P5”, pages 549–551 in

Mosteller, F. and Tukey, J. W. (1977) Data Analysis and Regression: A Second Course in Statistics. Addison-Wesley, Reading Mass.

indicating their source as “Data used by permission of Franice van de Walle. Office of Population Research, Princeton University, 1976. Unpublished data assembled under NICHD contract number No 1-HD-O-2077.”

References

Becker, R. A., Chambers, J. M. and Wilks, A. R. (1988) The New S Language. Wadsworth & Brooks/Cole.

Examples

require(stats); require(graphics)
pairs(swiss, panel = panel.smooth, main = "swiss data",
      col = 3 + (swiss$Catholic > 50))
summary(lm(Fertility ~ . , data = swiss))

[Package datasets version 4.0.4 Index]

'Dataset_info > swiss' 카테고리의 다른 글

swiss 데이터셋 예제  (0) 2022.06.25

모델 > 가설 검정 > 두 모델 비교하기...

Models > Hypothesis test > Compare two models...

Linux 사례 (MX 21)

하나의 데이터셋을 대상으로 가장 최적의 분석모형을 찾고자 할 때, 또는 보다 정교한 설명을 위하여 만들어진 모형들을 비교하고자 할 때 사용하는 기능이다.

 

예를 들어, carData에 포함된 Prestige 데이터셋을 이용하여 연습해보자. 직업의 사회적 권위(prestige)에 영향을 미치는 두 개의 독립변수(설명변수)를 교육기간(education)과 수입(income)이라고 가정하자. 그런데 education과 income의 선형적 관계에 대한 보다 깊은 고민을 한다고 생각해보자. education과 income이 서로 독립적인 선형관계로 prestige에 영향을 줄 수도 있고, 또 education과 income이 독립적인 영향을 줄 뿐 만 아니라, 서로 상호작용을 일으키면서 prestige에 영향을 추가 할 수 도 있다고 주장할 수 있다. 이러한 문제의식에서 아래와 같은 두개의 모형을 만들고 또 이 두개의 모형 중에서 어느것이 더 정교한지를 찾는다고 생각해보자.

 

참고로 연산자 +는 설명변수들의 독립적 선형관계를, *는 독립적 선형관계와 결합적 선형관계를 함께 계산하는데 사용한다.

data(Prestige)   #Prestige 데이터셋 불러오기
LinearModel.1 <- lm(prestige ~ education + income, data=Prestige #변수들의 독립영향 점검
summary(LinearModel.1)
LinearModel.2 <- lm(prestige ~ education*income, data=Prestige)  #변수들의 독립영향 + 결합영향 점검
summary(LinearModel.2)
anova(LinearModel.1, LinearModel.2 #LinearModel.1과 LinearModel.2를 비교하기

Linux 사례 (MX 21)

LinearModel.1과 LinearModel.2라는 두 개의 모형을 만들고 두 개의 모델을 비교하는 방법이다. 모델 > 가설 검정 > 두 모델 비교하기...의 메뉴를 선택하면, 만들어 놓은 두 개의 모형을 비교하는 기능을 이용할 수 있다. 직관적으로 두개의 모형을 차례로 선택해보자. 그리고 예(OK) 버튼을 누른다.

Linux 사례 (MX 21)

R Commander 출력창에 다음과 같은 결과가 출력될 것이다. 출력 내용은 모델 1과 모델 2의 차이가 유의미하며 (Pr(>F)), 모델 2가 보다 설명력이 높다(Sum of sq > 0 또는 RSS < 0)는 뜻으로 해석할 수 있다.

'Models > Hypothesis test' 카테고리의 다른 글

1. ANOVA table...  (0) 2022.03.09

통계> 차원 분석 > 확인적 요인 분석...
Statistics > Dimensional analysis > Confirmatory factor analysis...

Linux 사례 (MX 21)

R Commander를 설치하는 과정에서 의존패키지인 sem이 함께 설치된다. 안내가 나오면서 추가 설치를 하겠는가 물어보기도 한다. 위의 화면처럼, sem 패키지에 포함된 함수를 사용하는 <확인적 요인 분석...> 기능은 처음에는 비활성화되어 있다.

Linux 사례 (MX 21)

만약 Rcmdr 패키지가 호출될 때, sem 패키지가 자동으로 호출된다면, '데이터 > 패키지에 있는 데이터 > 첨부된 패키지에서 데이터셋 읽기...'에 sem 패키지가 carData, sandwich 처럼 메뉴창안의 패키지 목록에 포함되어 있어야 할 것이다. 하지만, 위의 화면에선 보이지 않는다. sem 패키지를 추가로 호출해주어야 한다는 뜻이다.

library(sem) #설치한 sem 패키지를 호출하기
Linux 사례 (MX 21)

sem 패키지가 호출되면, '데이터 > 패키지에 있는 데이터 > 첨부된 패키지에서 데이터셋 읽기...'기능에서 sem 패키지의 데이터셋을 선택할 수 있게 된다. 아래 화면을 살펴보라.

Linux 사례 (MX 21)

HS.data를 선택하자. HS.data 데이터셋이 활성화되면, 처음에 미활성화된 <확인적 요인 분석...> 메뉴가 활성화된다. <확인적 요인 분석...> 메뉴를 선택하면, 두개의 하위 창을 보게된다. 변수들을 선택하여 요인으로 묶는 <데이터> 창과, 연산을 통하여 획득하고자하는 통계지수(index) 목록의 <선택기능> 창이다.

Linux 사례 (MX 21)
Linux 사례 (MX 21)
local({
  .model <- c('spatial: cubes, flags, paper, visual', 'verbal: general, paragrap, sentence, wordc, wordm',
   'memory: figurer, figurew, numberf, numberr, object, wordr', 
  'math: arithmet, deduct, numeric, problemr, series')
  .model <- cfa(file=textConnection(.model), reference.indicators=FALSE)
  .Data <- HS.data[, c('cubes', 'flags', 'paper', 'visual', 'general', 'paragrap', 'sentence', 'wordc', 
  'wordm', 'figurer', 'figurew', 'numberf', 'numberr', 'object', 'wordr', 'arithmet', 'deduct', 'numeric', 
  'problemr', 'series')]
  summary(sem(.model, data=.Data), robust=FALSE, fit.indices=c("AIC","BIC"))
})

위에 보이는 스크립트는 무엇을 나타내는가? 설명을 추가한다.
1. 선택된 HS.data는 여러개의 변수들을 포함하고 있다.
2. 최초의 연구목적에서 개념적으로 구성된 몇 몇 요인들이 있고, 이 요인들을 세부적으로 구성하는 것이 하위 변수들이다.
3. 변수들 몇 개씩을 묶어서 요인으로 재구성하는것, 연구적 의도에서 보면, 요인을 구성한다고 가정하여 세분화된 변수들의 사례적 값들이 실제로 요인을 구성하는지를 확인하는 작업이 <확인적 요인 분석>이다.
4. HS.data에 포함된 여러개의 변수들을 spatial, verbal, memory, math라는 네개의 개념화된 요인으로 변수들을 재그룹화 한것이다.
'spatial: cubes, flags, paper, visual'
'verbal: general, paragrap, sentence, wordc, wordm'
'memory: figurer, figurew, numberf, numberr, object, wordr'
'math: arithmet, deduct, numeric, problemr, series'
5. spatial, verbal, memory, math 라는 요인의 이름은 최초의 설계에서 등장하는 개념적 요인을 뜻하는 것이다. 편의상으로 factor.1, factor.2, factor.3, factor.4 등으로 이름을 붙여도 무방하다.
6. fit.indices라는 옵션에 AIC, BIC 두개의 통계지수가 포함되어 있는데, 이것은 <선택기능> 창의 기본설정이며, 원하는 지수를 추가로 선택할 수 있다. CFI, RMSEA 등이 선택될 수 있다.


Model Chisquare = 288.2654 Df = 164 Pr(>Chisq) = 0.000000007093121
AIC = 380.2654
BIC = -647.7007

Normalized Residuals
Min. 1st Qu. Median Mean 3rd Qu. Max.
-2.9135038 -0.7194881 0.0000003 -0.0040765 0.6636815 3.0180220

R-square for Endogenous Variables
cubes flags paper visual general paragrap sentence wordc wordm figurer figurew numberf
0.2226 0.3941 0.2223 0.5230 0.7003 0.6720 0.7473 0.5482 0.7279 0.4048 0.2281 0.2666
numberr object wordr arithmet deduct numeric problemr series
0.2637 0.2620 0.3410 0.3701 0.3716 0.3703 0.4514 0.5677

Parameter Estimates
Estimate Std Error z value Pr(>|z|)
lam[cubes:spatial] 2.2223150 0.29346740 7.572613 3.657918e-14 cubes <--- spatial
lam[flags:spatial] 5.6800079 0.54187523 10.482132 1.043637e-25 flags <--- spatial
lam[paper:spatial] 1.3343163 0.17637296 7.565311 3.869370e-14 paper <--- spatial
lam[visual:spatial] 5.0654142 0.41217065 12.289604 1.030090e-34 visual <--- spatial
lam[general:verbal] 10.3704348 0.59270550 17.496775 1.516142e-68 general <--- verbal
lam[paragrap:verbal] 2.8629032 0.16891656 16.948624 1.970114e-64 paragrap <--- verbal
lam[sentence:verbal] 4.4622524 0.24224226 18.420619 8.977035e-76 sentence <--- verbal
lam[wordc:verbal] 4.2021424 0.28775953 14.602965 2.688910e-48 wordc <--- verbal
lam[wordm:verbal] 6.5431707 0.36275031 18.037671 9.861300e-73 wordm <--- verbal
lam[figurer:memory] 4.8631276 0.45983127 10.575896 3.854762e-26 figurer <--- memory
lam[figurew:memory] 1.9563212 0.25677249 7.618889 2.558674e-14 figurew <--- memory
lam[numberf:memory] 2.3250383 0.27958224 8.316116 9.089292e-17 numberf <--- memory
lam[numberr:memory] 3.9599443 0.47913815 8.264723 1.400191e-16 numberr <--- memory
lam[object:memory] 2.5141011 0.30532432 8.234199 1.807636e-16 object <--- memory
lam[wordr:memory] 6.7199425 0.70198380 9.572789 1.040602e-21 wordr <--- memory
lam[arithmet:math] 2.9160802 0.26684706 10.927908 8.478019e-28 arithmet <--- math
lam[deduct:math] 11.5046085 1.05018494 10.954840 6.298925e-28 deduct <--- math
lam[numeric:math] 2.8136309 0.25736242 10.932563 8.054079e-28 numeric <--- math
lam[problemr:math] 6.2092835 0.50114800 12.390119 2.956038e-35 problemr <--- math
lam[series:math] 6.8583564 0.47520864 14.432306 3.240628e-47 series <--- math
C[spatial,verbal] 0.4489025 0.06117871 7.337560 2.175225e-13 verbal <--> spatial
C[spatial,memory] 0.5108162 0.06792364 7.520449 5.458862e-14 memory <--> spatial
C[spatial,math] 0.7790230 0.04665441 16.697736 1.361327e-62 math <--> spatial
C[verbal,memory] 0.3463073 0.06433754 5.382662 7.339215e-08 memory <--> verbal
C[verbal,math] 0.7149260 0.03895329 18.353416 3.099934e-75 math <--> verbal
C[memory,math] 0.6462679 0.05390219 11.989642 4.026422e-33 math <--> memory
V[cubes] 17.2435545 1.54451622 11.164373 6.091980e-29 cubes <--> cubes
V[flags] 49.6008557 5.10084929 9.724039 2.381442e-22 flags <--> flags
V[paper] 6.2302089 0.55792080 11.166834 5.925551e-29 paper <--> paper
V[visual] 23.4058957 2.94816071 7.939152 2.035683e-15 visual <--> visual
V[general] 46.0293821 4.70499846 9.783081 1.330957e-22 general <--> general
V[paragrap] 4.0002855 0.39637139 10.092266 5.977355e-24 paragrap <--> paragrap
V[sentence] 6.7333966 0.73838990 9.119026 7.580260e-20 sentence <--> sentence
V[wordc] 14.5526746 1.32499385 10.983202 4.603146e-28 wordc <--> wordc
V[wordm] 16.0038823 1.69905922 9.419261 4.542739e-21 wordm <--> wordm
V[figurer] 34.7745483 3.65651230 9.510305 1.901038e-21 figurer <--> figurer
V[figurew] 12.9489304 1.16993513 11.068075 1.792078e-28 figurew <--> figurew
V[numberf] 14.8673713 1.37745320 10.793377 3.699420e-27 numberf <--> numberf
V[numberr] 43.7757571 4.04762882 10.815161 2.917801e-27 numberr <--> numberr
V[object] 17.8024992 1.64412044 10.827978 2.536967e-27 object <--> object
V[wordr] 87.2656598 8.58151618 10.169026 2.726215e-24 wordr <--> wordr
V[arithmet] 14.4741292 1.30214271 11.115624 1.053114e-28 arithmet <--> arithmet
V[deduct] 223.8658487 20.15310880 11.108254 1.143741e-28 deduct <--> deduct
V[numeric] 13.4602271 1.21106704 11.114353 1.068216e-28 numeric <--> numeric
V[problemr] 46.8548686 4.40132174 10.645636 1.827323e-26 problemr <--> problemr
V[series] 35.8131070 3.71864165 9.630696 5.932631e-22 series <--> series

Iterations = 319


7. 위의 내용은 R Commander 출력창에 등장하는 분석 결과 요약이다.

모델 > 관찰 통계를 데이터에 추가하기...

Models > Add observation statistics to data...

Linux 사례 (MX 21)

데이터셋을 활성화시킨 다음, 그 데이터셋으로 모델을 만들었다고 생각하자. 예를 들어, carData 패키지의 Prestige 데이터셋으로 선형 모델을 만들었고, 그 모델을 LinearModel.1이라고 하자.

그럼, R Commander의 화면 메뉴 기능에서 '모델 > 관찰 통계를 데이터에 추가하기...' 기능이 활성화된다. 해당 메뉴 기능을 선택하면 아래와 같은 선택 창이 등장한다. 이 통계치들은 lm() 함수를 이용하여 모델을 생성하는 과정에서 함께 연산된 값들이며, 이 값들을 Prestige 데이터셋에 추가할 것인가를 질문받게 된다.

Linux 사례 (MX 21)

R Commander 화면에서 <데이터셋 보기>를 선택하면 관찰 통계치가 추가되어 있음을 아래와 같이 알 수 있다:

Linux 사례(MX 21)

data(Prestige)         # 데이터셋 불러오기
summary(LinearModel.1) # 모델 만든후 요약정보 보기
Prestige<- within(Prestige, {
  fitted.LinearModel.1 <- fitted(LinearModel.1)
  residuals.LinearModel.1 <- residuals(LinearModel.1)
  rstudent.LinearModel.1 <- rstudent(LinearModel.1)
  hatvalues.LinearModel.1 <- hatvalues(LinearModel.1)
  cooks.distance.LinearModel.1 <- cooks.distance(LinearModel.1)
  obsNumber <- 1:nrow(Prestige) 
})

그래프 > 이산형 수치 변수 그리기...

Graphs > Plot discrete numeric variable...

Linux 사례 (MX 21)

carData 패키지의 Cowles 데이터셋을 활용해서 연습해보자.

data(Cowles, package="carData") # Cowles 데이터셋 불러오기
summary(Cowles)                 # Cowles 데이터셋의 요약정보 보기 (변수이름, 사례요약)

외향성을 의미하는 이산형 수치 변수인 extraversion을 선택한다.

Linux 사례 (MX 21)

요인형 변수 목록에 sex와 volunteer가 있다. volunteer를 선택한다.

Linux 사례 (MX 21)

<선택기능> 창의 선택 기능중에서 <축 크기조정>에 '백분율"을 선택한다. 그리고 <그림 이름표>에는 내용적 이해를 돕는 사항들을 넣을 수 있다.

Linux 사례 (MX 21)

아래와 같이 그래픽 창에 '이산형 수치 변수' extraversion의 백분율 분포가 자원봉사 지원 여부인 volunteer 변수의 요인형 수준인 'no', 'yes' 별로 그래프화된다.

Linux 사례 (MX 21)

with(Cowles, discretePlot(extraversion, by=volunteer, scale="percent", xlab="외향성 (extraversion)",
   ylab="비율 (%)", main="자원봉사 지원여부 그룹에 따른 외향성 분포"))

<관련 사항>

- Cowles 데이터셋 이해하기 -> https://rcmdr.tistory.com/154

 

Cowles 데이터셋

carData > Cowles data(Cowles, package="carData") help("Cowles") Cowles {carData} R Documentation Cowles and Davis's Data on Volunteering Description The Cowles data frame has 1421 rows and 4 co..

rcmdr.kr


?discretePlot  # RcmdrMisc 패키지의 discretePlot 도움말 보기

if (require(datasets)){
  data(mtcars)
  mtcars$cyl <- factor(mtcars$cyl)
  with(mtcars, {
    discretePlot(carb)
    discretePlot(carb, scale="percent")
    discretePlot(carb, by=cyl)
  })
}

통계 > 비모수 검정 > 쌍-표본 Wilcoxon test...

Statistics > Nonparametric tests > Paired-samples Wilcoxon test...

 

Windows 사례 (10 Pro)

depression 이라는 이름의 데이터셋을 만들자. first, second, change 라는 세개의 변수를 갖는다고 하자. change 변수는 second와 first의 차이를 사례 값으로 갖는다고 하자. 아래와 같을 것이다.

first <- c(1.83,  0.50,  1.62,  2.48, 1.68, 1.88, 1.55, 3.06, 1.30)
second <- c(0.878, 0.647, 0.598, 2.05, 1.06, 1.29, 1.06, 3.14, 1.29)
change <- second - first  # compute new variable 참조할 것
depression <- data.frame(cbind(first, second, change)) # 세개의 vector를 묶어 데이터프레임으로 전환

https://rcmdr.kr/54

 

2. Compute new variable...

새로운 변수 계산하기... Data > Manage variables in active data set > Compute new variable... 활성 데이터셋에 있는 변수들을 활용하여 새로운 변수를 생성하는 많은 방법이 있다. 은 일반적으로 수치형 사..

rcmdr.kr

Windows 사례 (10 Pro)

<선택기능> 창에 있는 기본 선택 사양을 그대로 사용해보자. <대립 가설>에서 '양쪽(측)'이 선택되어 있다. depression 데이터셋의 second 변수와 first 변수 사이에 순위 차이가 있는가를 살펴보는 것이라 할 수 있다.

Windows 사례 (10 Pro)

with(depression, median(second - first, na.rm=TRUE)) # median difference
with(depression, wilcox.test(second, first, alternative='two.sided', 
  paired=TRUE)) # 양측 검정
with(depression, wilcox.test(second, first, alternative='less', paired=TRUE))
                # 단측 검정 ( 차이 < 0 )

Windows 사례 (10 Pro)

<선택 기능> 창에서 <대립 가설>에 '차이 < 0'를 선택하자. second 변수의 사례 값이 first 변수의 사례 값보다 작아졌는지를 점검하는 것이다. (depression이 작아졌다는 것은 개선되었다는 의미로 해석될 수도 있다.)

Windows 사례 (10 Pro)
Windows 사례 (10 Pro)

'Statistics > Nonparametric tests' 카테고리의 다른 글

2. Single-sample Wilcoxon test...  (0) 2022.03.21
1. Two-sample Wilcoxon test...  (0) 2022.03.21
5. Friedman rank-sum test...  (0) 2022.03.20
4. Kruskal-Wallis test...  (0) 2022.03.09

통계 > 비모수 검정 > 일-표본 Wilcoxon 검정...

Statistics > Nonparametric tests > Single-sample Wilcoxon test...

Windows 사례 (10 Pro)

먼저 '통계 > 비모수 검정 > 쌍-표본 Wilcoxon 검정...'을 살펴보는 것을 추천한다. depression 이라는 데이터셋을 만들고, 변수 first, second, change를 만들었다. change는 second와 first의 차이에 관련 사례 값을 갖는다.

https://rcmdr.tistory.com/179

 

3. Paired-samples Wilcoxon test...

통계 > 비모수 검정 > 쌍-표본 Wilcoxon test... Statistics > Nonparametric tests > Paired-samples Wilcoxon test... depression 이라는 이름의 데이터셋을 만들자. first, second, change 라는 세개의 변수를..

rcmdr.kr

'통계 > 비모수 검정 > 일-표본 Wilcoxon 검정...'은 depression 데이터셋의 change 변수처럼 두 개 변수의 차이를 갖는 (또는 차이가 계산된) 변수를 기준값과 비교하여 차이 검정을 하는 기법이다. 때로는 특정 변수와 기준 값의 비교를 통하여 검정을 하기도 한다.

Windows 사례 (10 Pro)

데이터셋과 변수에 대한 의미적 판단이 깊은 경우 <대립 가설>의 선택을 다양하게 결정할 수 있다. 아래 화면에서 'mu < 0'은 change가 귀무(영) 가설, mu=0.0 일 때 depression 의 변화가 작아졌음을 확인하는 것으로 이해할 수 있다.

Windows 사례 (10 Pro)

with(depression, median(change, na.rm=TRUE))
with(depression, mean(change, na.rm=TRUE))
with(depression, wilcox.test(change, alternative='less', mu=0.0))

출력 창에 아래와 같이 검정의 통계적 정보가 제공된다:

'Statistics > Nonparametric tests' 카테고리의 다른 글

3. Paired-samples Wilcoxon test...  (0) 2022.03.21
1. Two-sample Wilcoxon test...  (0) 2022.03.21
5. Friedman rank-sum test...  (0) 2022.03.20
4. Kruskal-Wallis test...  (0) 2022.03.09

통계 > 비모수 검정 > 이-표본 Wilcoxon 검정...

Statistics > Nonparametric tests > Two-sample Wilcoxon test...

Windows 사례 (10 Pro)

'통계 > 비모수 검정 > 이-표본 Wilcoxon 검정...' 기능을 이용하기 위해서 데이터셋을 선택하고, 정비해보자. datasets 패키지에 있는 airquality 데이터셋을 선택하고, 그 안에 있는 변수 Month 사례 값들 중에서 5월, 8월에 해당하는 5, 8을 선택한 하위 데이터셋을 만들고, airquality.sub라 이름 붙이자. 그리고, 5, 8을 요인화 시켜서, May, August라고 수준을 만들자.

https://rcmdr.kr/100

 

airquality 데이터셋

datasets > airquality R이 시작될 때, datasets 패키지가 자동으로 호출된다. 따라서 R Commander를 실행할 때, datasets 패키지는 첨부 패키지화되어 메뉴창을 통해서 내부 데이터셋을 찾고 불러올 수 있다.

rcmdr.kr

data(airquality, package="datasets") # airquality 데이터셋 불러오기
airquality.sub <- subset(airquality, subset=Month %in% c(5, 8)) 
                                     # 5월, 8월만 포함하는 하위셋 만들기
summary(airquality.sub)
airquality.sub <- within(airquality.sub, {
  Month.f <- factor(Month, labels=c('May','August'))
})                                   # Month.f라는 요인형 변수 만들기

집단 변수인 Month.f는 두개의 수준을 갖고 있고, 이 두개의 수준을 기준으로 Ozone을 비교하는 것이다.

Windows 사례 (10 Pro)

<선택기능> 창에 있는 기본 설정을 우선 그대로 사용해보자. 향후 데이터셋과 변수에 대한 이해력이 높아지면, 다양한 선택을 할 수 있다.

Windows 사례 (10 Pro)

Tapply(Ozone ~ Month.f, median, na.action=na.omit, data=airquality.sub) 
  # medians by group
wilcox.test(Ozone ~ Month.f, alternative="two.sided", data=airquality.sub)

Windows 사례 (10 Pro)

'Statistics > Nonparametric tests' 카테고리의 다른 글

3. Paired-samples Wilcoxon test...  (0) 2022.03.21
2. Single-sample Wilcoxon test...  (0) 2022.03.21
5. Friedman rank-sum test...  (0) 2022.03.20
4. Kruskal-Wallis test...  (0) 2022.03.09

통계 > 비모수 검정 > Friedman 순위-합 검정...

Statistics > Nonparametric tests > Friedman rank-sum test...

Linux 사례 (MX 21)

<Friendman 순위-합 검정...> 기능은 두개 이상의 수치형 변수가 데이터셋에 포함되어 있을때 활성화된다. <Friedman 순위-합 검정...> 기능의 함수적 특징을 이해하기 위하여 먼저 아래와 같이 RoundingTimes라는 데이터셋을 만들어보자.

RoundingTimes <-
data.frame(matrix(c(5.40, 5.50, 5.55,
         5.85, 5.70, 5.75,
         5.20, 5.60, 5.50,
         5.55, 5.50, 5.40,
         5.90, 5.85, 5.70,
         5.45, 5.55, 5.60,
         5.40, 5.40, 5.35,
         5.45, 5.50, 5.35,
         5.25, 5.15, 5.00,
          5.85, 5.80, 5.70,
         5.25, 5.20, 5.10,
         5.65, 5.55, 5.45,
         5.60, 5.35, 5.45,
         5.05, 5.00, 4.95,
         5.50, 5.50, 5.40,
         5.45, 5.55, 5.50,
         5.55, 5.55, 5.35,
         5.45, 5.50, 5.55,
         5.50, 5.45, 5.25,
         5.65, 5.60, 5.40,
         5.70, 5.65, 5.55,
         6.30, 6.30, 6.25),
       nrow = 22,
       byrow = TRUE,
       dimnames = list(1 : 22,
                       c("Round Out", "Narrow Angle", "Wide Angle"))))
summary(RoundingTimes)     # RoundingTimes 데이터셋 보기

이 데이터셋을 만드는 이유는 friedman.test()라는 함수의 예제 연습에 포함되어있기 때문이다. RoundingTimes 데이터셋은 아래와 같은 내부 구성을 갖는다:

Linux 사례 (MX 21)

RoungdingTimes 라는 데이터셋을 만들고, 화면 맨 위에 있는 <Friedman 순위-합 검정...> 기능을 선택하면 추가적인 선택 메뉴 창으로 넘어간다. <Friedman 순위 합 검정> 창에서 <반복-측정 변수 (두개 이상 선택)>에서 세개의 변수를 모두 선택하고, 예(OK) 버튼을 누른다.

Linux 사례 (MX 21)

local({
  .Responses <- na.omit(with(RoundingTimes, cbind(Narrow.Angle, Round.Out, Wide.Angle)))
  cat("\nMedians:\n") 
  print(apply(.Responses, 2, median)) 
  friedman.test(.Responses)
})

Linux 사례 (MX 21)

help("friedman.test")     # Friedman 순위 합 검정 도움말 보기
example("friedman.test")  # Friedman 순위 합 검정 예제 연습하기

'Statistics > Nonparametric tests' 카테고리의 다른 글

3. Paired-samples Wilcoxon test...  (0) 2022.03.21
2. Single-sample Wilcoxon test...  (0) 2022.03.21
1. Two-sample Wilcoxon test...  (0) 2022.03.21
4. Kruskal-Wallis test...  (0) 2022.03.09

datasets::warpbreaks()

Linux 사례 (MX 21)

data(warpbreaks, package="datasets") # 데이터셋 불러오기	
help("warpbreaks")                   # 데이터셋 도움말 보기
summary(warpbreaks)                  # 데이터셋 통계 요약 보기

Linux 사례 (MX 21)

R Commander 화면 상단 우측에 있는 <데이터셋 보기> 버튼을 누른다. 아래와 같이 warpbreaks 데이터셋의 내부 구성을 볼 수 있다.

Linux 사례 (MX 21)


warpbreaks {datasets} R Documentation

The Number of Breaks in Yarn during Weaving

Description

This data set gives the number of warp breaks per loom, where a loom corresponds to a fixed length of yarn.

Usage

warpbreaks

Format

A data frame with 54 observations on 3 variables.

[,1] breaks numeric The number of breaks
[,2] wool factor The type of wool (A or B)
[,3] tension factor The level of tension (L, M, H)

There are measurements on 9 looms for each of the six types of warp (AL, AM, AH, BL, BM, BH).

Source

Tippett, L. H. C. (1950) Technological Applications of Statistics. Wiley. Page 106.

References

Tukey, J. W. (1977) Exploratory Data Analysis. Addison-Wesley.

McNeil, D. R. (1977) Interactive Data Analysis. Wiley.

See Also

xtabs for ways to display these data as a table.

Examples

require(stats); require(graphics)
summary(warpbreaks)
opar <- par(mfrow = c(1, 2), oma = c(0, 0, 1.1, 0))
plot(breaks ~ tension, data = warpbreaks, col = "lightgray",
     varwidth = TRUE, subset = wool == "A", main = "Wool A")
plot(breaks ~ tension, data = warpbreaks, col = "lightgray",
     varwidth = TRUE, subset = wool == "B", main = "Wool B")
mtext("warpbreaks data", side = 3, outer = TRUE)
par(opar)
summary(fm1 <- lm(breaks ~ wool*tension, data = warpbreaks))
anova(fm1)

[Package datasets version 4.0.4 Index]

'Dataset_info > warpbreaks' 카테고리의 다른 글

warpbreaks 데이터셋 예제  (0) 2022.06.25

+ Recent posts