그래프 > 산점도...
Graphs > Scatterplot...

Windows 사례 (10 Pro)

산점도(Scatterplot)은 두개의 수치형 변수 사이의 수리적 연관성에 관한 시각화 기법이다. 아래의 화면에서 각 하나씩을 x-변수와 y-변수에 선택해야 한다. Prestige 데이터셋에 있는 education (교육연수), income (수입, 연소득)을 각각 선택해보자.

Windows 사례 (10 Pro)

<선택기능>창에 여러가지 추가 기능과 선택사양들이 있다. 먼저 <그림 선택기능> 중에 <최소-제곱 선>, <평활선>을 선택해보자. 그리고 <그림 이름표와 점 정보>에 변수와 그래프를 이해하는 데 도움을 주는 내용을 입력한다. 그리고 <Point(점) 크기>, <축 텍스트 크기>, <축-이름표 텍스트 크기> 등의 크기를 조금씩 변경할 수 있다.

Windows 사례 (10 Pro)

scatterplot(income~education, regLine=TRUE, smooth=list(span=0.5, 
  spread=FALSE), boxplots=FALSE, xlab="education (교육연수)", 
  ylab="income (수입, 연소득)", main="교육연수와 연소득의 관계", cex.axis=1.5, cex.lab=1.5, 
  data=Prestige)

새로운 그래픽장치 창에 산점도가 출력된다. <교육연수와 연소득의 관계>를 시각적으로 살펴보고자 한 목적으로 점들의 분포와 추가된 최소제곱선, 평활선 등을 점검한다. 교육연수와 연소득의 관계의 방향, 크기 및 경향성 등에 대한 통찰력을 키울 수 있다.

Windows 사례 (10 Pro)

한편, 산점도에 요인형 변수의 수준별로 나누어 시각화를 할 수 있다. Prestige 데이터셋에는 type 이라는 요인형 변수가 있는데, 직업유형에 따른 <교육연수와 연소득의 관계>를 보다 미시적으로 살펴볼 수 있다. 그리고 x-축, y-축 이름 옆에 <한계적인 상자그림>을 추가하여 각 변수들의 수치적 특징을 추가할 수 있다.

scatterplot(income~education | type, regLine=TRUE, smooth=list(span=0.5, 
  spread=FALSE), boxplots='xy', xlab="education (교육연수)", ylab="income (수입, 
  연소득)", main="교육연수와 연소득의 관계", cex.axis=1.5, cex.lab=1.5, by.groups=TRUE, 
  data=Prestige)

Windows 사례 (10 Pro)


?scatterplot  # car 패키지의 scatterplot 도움말 보기

scatterplot(prestige ~ income, data=Prestige, ellipse=TRUE)

scatterplot(prestige ~ income, data=Prestige, smooth=list(smoother=quantregLine))

# use quantile regression for median and quartile fits
scatterplot(prestige ~ income | type, data=Prestige,
            smooth=list(smoother=quantregLine, var=TRUE, span=1, lwd=4, lwd.var=2))

scatterplot(prestige ~ income | type, data=Prestige, legend=list(coords="topleft"))

scatterplot(vocabulary ~ education, jitter=list(x=1, y=1),
            data=Vocab, smooth=FALSE, lwd=3)

scatterplot(infantMortality ~ ppgdp, log="xy", data=UN, id=list(n=5))

scatterplot(income ~ type, data=Prestige)

## Not run: 
    # remember to exit from point-identification mode
    scatterplot(infantMortality ~ ppgdp, id=list(method="identify"), data=UN)

## End(Not run)

그래프 > 대칭 상자그림...
Graphs > Symmetry boxplot...

Linux 사례 (MX 21)

Prestige 데이터셋에 있는 income 변수를 선택해보자.

Linux 사례 (MX 21)

?symbox  # car 패키지의 symbox 도움말 보기

symbox(~ income, data=Prestige, trans=bcPower, powers=c(-1,-0.5,0,0.5,1))

그래픽장치 창에 아래와 같이 시각화된다:

Linux 사례 (MX 21)

그래프 > 분위수-비교 그림...
Graphs > Quantile-comparison plot...
분위수-비교 그림은 수치형 변수 사례 값의 분포적 경향성을 확인하는데 사용된다. 또한 변수들의 관계에 대한 수리적 계산 과정에서 발생하는 잔차(Residuals)들의 분포적 특징을 확인하는데 활용할 수 있다.

Linux 사례 (MX 21)

Prestige 데이터셋에 있는 수치형 변수중에 income 변수를 선택해보자.

Linux 사례 (MX 21)

<선택기능> 메뉴 창을 열면, income 변수의 특징을 맞춰 볼 분포들을 선택하는 기능이 있다. 기본 설정으로 되어있는 정규분포를 많이 사용한다. 오른쪽에 있는 <그림 이름표>에 출력될 그래프의 정보를 담는 내용을 입력할 수 있다.

Linux 사례 (MX 21)

정규분포적 특징 안에서 income 변수의 사례적 흐름을 시각적으로 확인할 수 있다. 오른쪽 상단에 두 개의 이상치가 있는데, general.managers, physicians 직업이라고 알려준다.

Linux 사례 (MX 21)
with(Prestige, qqPlot(income, dist="norm", id=list(method="y", n=2, 
	labels=rownames(Prestige)), ylab="income (수입)", 
    main="income 변수의 분위수-비교 그림"))
Linux 사례 (MX 21)

아래 그래프는 income 변수 대신 education 변수를 선택해서 정규분포적 특징 안에서 살펴본 것이다. income 변수에 비해서 이상치들이 적게 보인다.

Linux 사례 (MX 21)

아래 그래프는 Prestige 데이터셋에 포함된 prestige 변수의 분위수-비교 그림의 시각화 결과이다. 정규분포적 특징 안에서 prestige 변수의 사례들이 분포되어 있음을 알 수 있다.

Linux 사례 (MX 21)

참고로 income 변수에 log 계산을 한 후 분위수-비교 그림을 그려보자. 원래의 income 변수보다 정규분포적 특징이 강화된다.

Linux 사례 (MX 21)

?qqPlot  # car 패키지의 qqPlot 도움말 보기

x<-rchisq(100, df=2)
qqPlot(x)
qqPlot(x, dist="chisq", df=2)

qqPlot(~ income, data=Prestige, subset = type == "prof")
qqPlot(income ~ type, data=Prestige, layout=c(1, 3))

qqPlot(lm(prestige ~ income + education + type, data=Duncan),
	envelope=.99)

https://rcmdr.kr/m/205

2. Residual quantile-comparison plot...

모델 > 그래프 > 잔차 분위수-비교 그림... Models > Graphs > Residual quantile-comparison plot... 데이터셋을 활성화시키고, 분석 모형을 만들었다면, '모델 > 그래프 > 잔차 분위수-비교 그림...' 메뉴 기능..

rcmdr.kr

+ Recent posts