범주(category)별로 빈도(frequency)만이 주어진 범주형 데이터의 분석은 일반적으로 카이제곱 분포를 이용한 검정법을 적용


아이템의 사용여부와 활성여부에 연관성이 있는가 ? 

 

귀무가설(H0) : 연관성이 없다

대립가설(H1) : 연관성이 있다


tmp <- textConnection("is_active is_use user_cnt

활성 미사용 29519

활성 사용 5414

이탈 미사용 27521

이탈 사용 4580

")


x <- read.table(tmp, header=TRUE)

close.connection(tmp)

head(x)


t <- xtabs(user_cnt~is_active+is_use, data=x)


apply(t,1,sum)

apply(t,2,sum)


#P-VALUE > 0.05 귀무가설 기각, 대립가설 지지 

summary(t)




'기초통계' 카테고리의 다른 글

상관관계분석, 회귀분석  (0) 2017.02.06
산포도의 측정치  (0) 2016.12.15
중심경향의 측정치  (0) 2016.12.15
도수분포표  (0) 2016.12.15
측정척도의 형태  (0) 2016.12.15


귀무가설(H0) : 두변수는 상관관계가 없다 

대립가설(H0) : 두변수는 상관관계가 있다 


p-value > 0.05 --> 귀무가설 채택 --> 두 변수는 상관관계가 없다 

p-value < 0.05 --> 대립가설 채택 --> 두 변수는 상관관계가 있다    


'기초통계' 카테고리의 다른 글

R에서 카이제곱 검정  (0) 2017.03.28
산포도의 측정치  (0) 2016.12.15
중심경향의 측정치  (0) 2016.12.15
도수분포표  (0) 2016.12.15
측정척도의 형태  (0) 2016.12.15

 

산포도란 ?

자료의 특성을 정리, 요약하기 위해서는 자료의 변동도 살펴봐야 합니다.

자료들이 서로 차이가 나는 정도를 산포도 또는 분산도라고 합니다.

개별 관찰치들이 평균을 중심으로 흩어져 있는 정도를 말합니다.

두 자료간에 평균, 중앙값, 최빈값이 동일해도 자료가 흩어진 정도는 차이가 있을 수 있습니다.

 

산포도의 특성치

 

범위

자료중에서 가장 큰값과 가장 작은값의 절대적인 차이

<출처: excel 활용 통계학>

 

 

분산

분산은 자료값들이 평균 주위로 얼마나 떨어져 있는가를 나타낸다

 

모분산과 표분분산을 구하는 공식은 아래와 같습니다.

(개별 자료값 - 평균)을 제곱하여 더하고,  자료값의 전체갯수로 나누어 주면 분산을 구할 수 있습니다.

 

  

 

                         

평균은 같지만 분산이 다른 분포  

                          

 

평균은 다르지만 분산이 같은 분포

 

 

표준편차

표준편차도 분산과 동일하게 자료값이 평균 주위에 얼마나 떨어져 있는가를 나타냅니다.

다만 분산을 구하게 되면, 편차에 제곱을 하게 되어서, 원자료의 단위보다 큰 단위로 변환이 됩니다.

예를 들이서 키 자료의 단위는 cm 지만, 키 의 분산을 구하게 되면 cm2 가 됩니다.

이런 경우에 원 자료의 단위인 cm로 다시 변환을 해주기 위해서 분산에 제곱근을 해주면 표준편차가 됩니다.

 

 

 

 

 

'기초통계' 카테고리의 다른 글

R에서 카이제곱 검정  (0) 2017.03.28
상관관계분석, 회귀분석  (0) 2017.02.06
중심경향의 측정치  (0) 2016.12.15
도수분포표  (0) 2016.12.15
측정척도의 형태  (0) 2016.12.15

+ Recent posts