범주(category)별로 빈도(frequency)만이 주어진 범주형 데이터의 분석은 일반적으로 카이제곱 분포를 이용한 검정법을 적용


아이템의 사용여부와 활성여부에 연관성이 있는가 ? 

 

귀무가설(H0) : 연관성이 없다

대립가설(H1) : 연관성이 있다


tmp <- textConnection("is_active is_use user_cnt

활성 미사용 29519

활성 사용 5414

이탈 미사용 27521

이탈 사용 4580

")


x <- read.table(tmp, header=TRUE)

close.connection(tmp)

head(x)


t <- xtabs(user_cnt~is_active+is_use, data=x)


apply(t,1,sum)

apply(t,2,sum)


#P-VALUE > 0.05 귀무가설 기각, 대립가설 지지 

summary(t)




'기초통계' 카테고리의 다른 글

상관관계분석, 회귀분석  (0) 2017.02.06
산포도의 측정치  (0) 2016.12.15
중심경향의 측정치  (0) 2016.12.15
도수분포표  (0) 2016.12.15
측정척도의 형태  (0) 2016.12.15


귀무가설(H0) : 두변수는 상관관계가 없다 

대립가설(H0) : 두변수는 상관관계가 있다 


p-value > 0.05 --> 귀무가설 채택 --> 두 변수는 상관관계가 없다 

p-value < 0.05 --> 대립가설 채택 --> 두 변수는 상관관계가 있다    


'기초통계' 카테고리의 다른 글

R에서 카이제곱 검정  (0) 2017.03.28
산포도의 측정치  (0) 2016.12.15
중심경향의 측정치  (0) 2016.12.15
도수분포표  (0) 2016.12.15
측정척도의 형태  (0) 2016.12.15

 

산포도란 ?

자료의 특성을 정리, 요약하기 위해서는 자료의 변동도 살펴봐야 합니다.

자료들이 서로 차이가 나는 정도를 산포도 또는 분산도라고 합니다.

개별 관찰치들이 평균을 중심으로 흩어져 있는 정도를 말합니다.

두 자료간에 평균, 중앙값, 최빈값이 동일해도 자료가 흩어진 정도는 차이가 있을 수 있습니다.

 

산포도의 특성치

 

범위

자료중에서 가장 큰값과 가장 작은값의 절대적인 차이

<출처: excel 활용 통계학>

 

 

분산

분산은 자료값들이 평균 주위로 얼마나 떨어져 있는가를 나타낸다

 

모분산과 표분분산을 구하는 공식은 아래와 같습니다.

(개별 자료값 - 평균)을 제곱하여 더하고,  자료값의 전체갯수로 나누어 주면 분산을 구할 수 있습니다.

 

  

 

                         

평균은 같지만 분산이 다른 분포  

                          

 

평균은 다르지만 분산이 같은 분포

 

 

표준편차

표준편차도 분산과 동일하게 자료값이 평균 주위에 얼마나 떨어져 있는가를 나타냅니다.

다만 분산을 구하게 되면, 편차에 제곱을 하게 되어서, 원자료의 단위보다 큰 단위로 변환이 됩니다.

예를 들이서 키 자료의 단위는 cm 지만, 키 의 분산을 구하게 되면 cm2 가 됩니다.

이런 경우에 원 자료의 단위인 cm로 다시 변환을 해주기 위해서 분산에 제곱근을 해주면 표준편차가 됩니다.

 

 

 

 

 

'기초통계' 카테고리의 다른 글

R에서 카이제곱 검정  (0) 2017.03.28
상관관계분석, 회귀분석  (0) 2017.02.06
중심경향의 측정치  (0) 2016.12.15
도수분포표  (0) 2016.12.15
측정척도의 형태  (0) 2016.12.15

중심경향의 측정치 ?

자료 분포의 중심이 되어, 전체 자료를 대표하는 대표값을 말한다.

이런 대표값에는 산술평균, 중앙치, 최빈치 등이 있다.

 

산술평균

산술평균은 우리가 흔히 말하는 평균(average, mean)을 말한다.

아래는 3-1반과 3-2반의 수학점수를 산술평균 내는 예제다

 

 

가중평균

산술평균은 각 개별치가 똑같이 중요하다는 가정에서 사용할 수 있다.

그러나 만약 각 개별치의 중요도에 차이가 발생하면, 어떻게 평균을 구해야 하는가

이런 경우에 가중평균을 사용하면 된다.

 

위 3-1반, 3-2반 자료에서 구성원의수에 가중치를 부여해서 가중평균을 구해보자

아래와 같이 수학점수의 가중평균을 구할 수 있다.

 

 

중앙치(Median)

변수의 값들을 크기의 순서로 배열 했을때, 정확히 한가운데 위치하는 관찰치를 의미한다.

중앙치를 구하는 순서는 아래와 같다

  • 자료의 크기를 순서로 정리
  • 자료의수가 n개 일때
    • n이 홀수면 (n+1)/2 번째 관찰치가 중앙값
    • n이 짝수면 n/2 ~ n/2 + 1 번째 자료를 평균하여 중앙치를 구한다.

최빈치(Mode)

자료중에서 발생하는 도수가 가장 많은 관찰치를 말한다. 최빈값이라고도 표현한다.

 

통계분석에서 평균이 가장 자주 사용되는 이유는?

 

  • 중앙치와 최빈치는 자료의 전체가 아니고, 일부만을 이용하여 구하는데 비해서, 평균은 자료의 크기와 도수까지 고려하여 자료의 정보를 가장 많이 활용하고 있음
  • 중앙치와 최빈치는 수학적 연산이 불가능하지만, 평균은 연산이 가능하다.

평균의 오류, 평균의 함정은?

자료에 극단적인 이상치(Outlier)가 있는 경우에, 큰 영향을 받는다

예들 들어서 이건희 회장을 포함하여, 직장인의 평균 월급을 구하면 이상하게 나올것이다.

이런 경우는 중앙치를 활용하는게 좋다.

 

 

 

 

 

 

 

 

 

 

 

 

'기초통계' 카테고리의 다른 글

상관관계분석, 회귀분석  (0) 2017.02.06
산포도의 측정치  (0) 2016.12.15
도수분포표  (0) 2016.12.15
측정척도의 형태  (0) 2016.12.15
통계학 자료의 종류  (0) 2016.12.15

도수분포표란?

수집된 자료에서 유사한 성질이나 크기의 값들을 몇개의 계급으로 그룹핑하고 각 계급에 해당하는 측정치의 도수를 기록하는 통계표를 말한다.

 

도수분포표의 그래프

도수분포표 자체보다는 그래프로 표현하면 자료의 특성을 파악하기가 더 쉽다.

질적자료의 경우는 파이차트가 있고, 양적자료의 경우는 히스토그램, 꺽은선그래프, 누적백분율곡선 등이 있다.

히스토그램 같은 경우는 질적자료와 양적자료 양쪽에 많이 사용된다.

 

도수분포표 활용

예를 들어서 서울 30대 여성의 한달간 영화관람 회수 자료가 수집이 되었다.

영화관람 횟수가 0회 ~ 4회 사이에서 다양하게 측정이 되었다고 가정해보자.  

자료를 어떻게 표현해야 한눈에 시각화가 가능할까?  이럴때 도수분포표를 활용하면 된다.

아래 표에서 계급은 영화관람횟수가 되겠다

도수는 계급의 횟수다 (영화관람을 1번한 서울 30대 여성은 6명이라는 의미)  

상대도수는  계급도수 / 도수누적의 비율이고, 누적도수는 도수를 누적한 값이된다.  

누적상대도수는 상대도수를 누적한 값이다.

 

출처: excel 활용 통계학

 

그럼 도수분포표를 활용하여 시각화를 해보자

막대그래프로 표현을 해보니, 한달간 3회 관람하는 여성이 가장 많다는것을 쉽게 확인 할 수 있다.  

 

 

출처: excel 활용 통계학

 

자료의 특성을 표현하고 시각화 하는데, 도수분포표는 매우 유용한것을 알 수 있다.

'기초통계' 카테고리의 다른 글

산포도의 측정치  (0) 2016.12.15
중심경향의 측정치  (0) 2016.12.15
측정척도의 형태  (0) 2016.12.15
통계학 자료의 종류  (0) 2016.12.15
모집단과 표본  (0) 2016.12.15

자료의 형태는 제공하는 정보의 수준에 따라서 4가지로 구분

 

- 명목자료

- 서열자료

- 구간자료

- 비율자료

 

 

명목척도

측정 대상을 상화배타적인 범주나 종류에 따라 분류하는 방법으로 명목척도를 측정한 자료를 명목자료라고 한다.

예: 성별, 출신지, 전공등

 

서열척도

측정대상을 상호배타적으로 분류 하지만, 측정결과의 서열 순서를 매겨주는 것으로 순위척도 라고도 한다.

예: 학년, 계급, 선호도등

 

구간척도

특정대상을 범주에 따라 분류하고, 서열순서를 매긴다는것은 서열척도와 동일하지만 서열을 나타내는 숫자간의 간격이 산술적 의미를 갖는것에서 서열척도와 다르다

예) 온도, 지능지수, 양궁경기의 점수

 

비율척도

명목척도, 서열척도, 구간척도가 갖는 특성을 포함하는데, 절대적 원점을 갖기 때문에 상대적 크기의 비교나 절대적 크기의 비율을 반영한다

예: 시간, 길이, 무게등

    역도선수가 100kg를 들고, 일반인이 50kg을 들었다면,  역도선수가 일반인보다 2배의 무게를 들었다고 말할 수 있다.

 

자료의 비교

명목척도, 서열척도, 구간척도, 비율척도의 관계

 

 

 

연습문제

다음과 같은 자료를 수집하기 위해서는 어떤 형태의 측정정도를 사용해야 하는가?

 

전화 지역코드: 명목

우리 가족의 연령: 비율

주민등록번호: 명목

응급실의 처리시간: 비율

포츈500에 나타난 기업의 순위: 서열

지능지수: 구간

수학능력점수: 구간

혈압: 구간

대학생의 학년: 서열

온도: 구간

군대의 계급: 서열

우편번호: 명목

학번: 명목

출생연도: 구간  

축구선수의 등번호: 명목

종합주가지수: 구간

호봉에 따른 공무원의 봉급: 구간

올림픽 순위: 서열

신용카드의 비밀번호: 명목

마라톤 선수들의 골인순서: 서열

영종도 공항의 실내온도: 구간

계좌번호: 명목

혈액형: 명목

주소: 명목

호주 오픈에 출전하는 테니스 선수의 시드: 서열

 S&P 신용등급: 서열

 

 

 

 

 

 

 

'기초통계' 카테고리의 다른 글

중심경향의 측정치  (0) 2016.12.15
도수분포표  (0) 2016.12.15
통계학 자료의 종류  (0) 2016.12.15
모집단과 표본  (0) 2016.12.15
통계학이란 무엇인가? 통계학의 분류는?  (0) 2016.12.15

 

자료는 ?

어떤 문제에 대한 의사결정을 하기 위해서는 자료가 필요하다.

필요한 자료를 수집하기 위해서는 관심대상의 속성을 결정하고 이 기준에 맞춰서 측정해야 한다.

이때 관심 대상의 속성을 변수라고 한다.

예를 들어서 키, 나이, 소득, 인구 같은 것을 변수라고 한다.

일반적으로 자료는 이런 변수들 여러개로 구성이 된다.

 

 

질적자료와 양적자료

질적변수의 값을 관찰하여 얻는 자료가 질적 자료다.

예) 인종, 성별, 직업,  (예 or 아니요)등 --> 수치척도로 측정할수 없는 자료

 

양적변수의 값을 관찰하여 얻는 자료가 양적 자료다.

예) 수입, 이익,  매출등

 

이산자료와 연속자료

양적자료는 이산자료와 연속자료로 구분이 된다.

이산 자료는 셀수가 있는 자료이며, 연속자료는 셀수가 없다.

 

이산자료 : 학생수, 과목수등과 같이 셀수 있는 자료

연속자료 : 키, 몸무게, 온도와 같이 셀수 없는 자료

 

자료의 형태

 

 

단변수 자료와 다변수 자료

관찰대상이 하나의 변수만을 갖고 있으면 단변수 자료, 두개의 변수를 갖고 있으면 양변수 자료 라고 한다.

 

 

'기초통계' 카테고리의 다른 글

중심경향의 측정치  (0) 2016.12.15
도수분포표  (0) 2016.12.15
측정척도의 형태  (0) 2016.12.15
모집단과 표본  (0) 2016.12.15
통계학이란 무엇인가? 통계학의 분류는?  (0) 2016.12.15

 

모집단이란?

분석의 대상이 되는 관찰치들의 집합을 말한다.

모집단의 크기는 연구대상의 범위에 따라 결정 되는데, 모집단 수에 따라서 유한모집단과 무한모집단으로 분류 됩니다.

 

예) 유한모집단 -> 우리학교 선생님들의 평균연령

     무한모집단 -> 전국 직장인의 평균연봉

 

모집단에 대해서 추론을 한다는것은 모집단의 특성에 대해서 결론을 내린다는것을 의미 합니다.

 

모수란?

모집단의 특성을 모수라고 합니다. 모수의 특정한 값은 모수치 라고 합니다.

모수에는 모평균, 모분산, 모표준편차, 모비율등이 포함 됩니다.

 

모집단과 표본의 관계

어떤 모집단에 대해서 의사결정을 하려면, 대표적인 표본을 추출하고 자료를 수집해야 합니다.

이 자료를 표, 그래프, 차트, 요약치등의 기술 통계학의 기법으로 정리하면 정보가 됩니다.

 

'기초통계' 카테고리의 다른 글

중심경향의 측정치  (0) 2016.12.15
도수분포표  (0) 2016.12.15
측정척도의 형태  (0) 2016.12.15
통계학 자료의 종류  (0) 2016.12.15
통계학이란 무엇인가? 통계학의 분류는?  (0) 2016.12.15

 

통계학이란 무엇일까요?

 

통계학이란 불확실한 상황에서 좀 더 효과적인 의사결정을 하기 위해서, 관심 대상이 되는 집단을 관찰하여

수치 자료를 수집하고 정리하고 표현화고 분석하고 해석하는 분야를 다르는 학문 입니다.

효과적인 의사결정,  자료의 수집/정리/표현/분석이 핵심 키워드가 되겠습니다.

 

통계학의 분류

통계학은 기술통계학과 추리통계학으로 나뉩니다.

 

기술통계학

측정이나 실험을 통해 수집한 자료를 정보로 전환하기 위해서 요약하고 정리하고 그의 특성을 기술하는 그래프적 수치적 절차에 관한 학문 입니다.

자료는 표본조사나 실험을 통해서 수집하고, 이렇게 수집된 자료를 이해하기 쉬운 표, 그래프, 차트, 또는 요약특성치(평균, 분산)로 요약하고 분류하여 표현하면 정보가 됩니다.

예를 들면 야구선수의 타율, 실업율, 환율 등이 기술 통계에 해당이 됩니다.

 

추리통계학

기술통계학은 표본이나 모집단의 크기가 적을때는 문제가 없으나, 크기가 커지면 비용, 시간, 정확성의 문제가 발생 합니다.

이런 경우에는 모집단의 일부분인 표본을 추출하고. 표본정보를 이용하여 모집단 전체에 대해서 결론을 내릴수가 있는데,

이때 추리 통계학을 사용 합니다.

예를 들어서 대통령 선거에서 유권자 일부분을 표본으로 추출하여, 지지율을 추정하고, 당선결과를 예측하는데 활용되는것이 추리 통계학입니다.

 

오늘날 통계학의 주류는 추리 통계학 입니다.

모집단 전체를 조사하는데는 막대한 시간과 비용이 들어가기 때문에, 표본조사를 통해서 모집단의 특성을 추론하는것이 일반적인 관행입니다.

 

 

기술통계학과 추리통계학의 관계

기술통계학과 추리통계학은 상호 관련이 있습니다.

기술통계학의 기법을 사용한후, 그 정보를 사용하여 모집단의 어떤 특성에 대한 결론을 이끌어 내는 추리적 분석을 실시한다.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

'기초통계' 카테고리의 다른 글

중심경향의 측정치  (0) 2016.12.15
도수분포표  (0) 2016.12.15
측정척도의 형태  (0) 2016.12.15
통계학 자료의 종류  (0) 2016.12.15
모집단과 표본  (0) 2016.12.15

+ Recent posts