분류 전체보기 89

기초통계 / 자료를 파악하는 방법 (표, 그래프)

💡통계 분석방법을 적절하기 선택하기 위해서는? • 어떤 통계분석 방법을 선택할 지는 '자료의 속성/형태' 와 '분석 목적' 에 따라 달라진다. • 즉, 분석하고자 하는 자료가 통계분석 방법에서 가정한 조건을 얼마나 만족하는지에 따라 분석 방법의 적절성이 결정된다. 변수의 자료 형태 CASE X Y 1️⃣ 범주형 자료 범주형 자료 2️⃣ 범주형 자료 수치형 자료 3️⃣ 수치형 자료 범주형 자료 4️⃣ 수치형 자료 수치형 자료 분석 목적 • 비교 - X(그룹)에 따라 Y에 차이가 있나요? • 관계 - X와 Y가 관련이 있나요? (= X가 Y에 영향을 주나요?) • 분류 - X에 따라 Y를 분류할 수 있나요? - X, Y 를 함께 고려하여 비슷한 것끼리 묶을 수 있나요? 💡분석 목적마다 알맞은 '변수의 자료 ..

기초통계 / 분포 형태를 나타내는 측도 (왜도, 첨도)

💡자료의 분포 형태를 알아야 하는 이유 • 어떤 통계분석 방법을 선택할 지는 '자료의 속성/형태' 와 '분석 목적' 에 따라 달라진다. • 즉, 분석하고자 하는 자료가 통계분석 방법에서 가정한 조건을 얼마나 만족하는지에 따라 분석 방법의 적절성이 결정된다. • 특히 많은 통계분석 방법에서 모집단의 분포가 중심위치를 기준으로 대칭(symmetric)한다고 가정한다. • 따라서 자료가 모집단의 가정을 만족하는지 확인하기 위해서는, 자료의 분포 형태에 대한 측도를 확인할 필요가 있는 것이다. 왜도(skewness) • 자료의 분포가 대칭적인지 or 한쪽으로 치우쳐있는지를 나타내는 측도 • 큰 음수: 왼쪽으로 꼬리가 긴 분포 • 큰 양수: 오른쪽으로 꼬리가 긴 분포 • 0 에 가까울수록 대칭을 이루는 분포 첨도..

기초통계 / 산포도 (사분위범위, 표본 분산, 표본 표준편차, 변동계수)

산포도 • 자료들이 얼마나 퍼져 있는지를 나타내는 측도 • 중심위치(대표값)가 얼마나 안정적인지에 대한 중요한 정보를 제공 - 자료가 조밀하게 모여있다. ⇒ 중심위치의 변동이 작아짐 - 자료가 넓게 퍼져있다. ⇒ 중심위치의 변동이 커짐 • 범위, 사분위 범위, 분산, 표준편차, 절대편차, 변동 계수 등 범위 • 자료 중 가장 큰 값과 작은 값의 차이 • 최대값과 최소값에만 영향을 받기때문에 자료 전체에 대해 퍼져있는 정도를 파악할 수는 없다. 그래서 실제 산포도로서 많이 사용되지는 않는다. 사분위 범위 1) 사분위수(quartile) 자료를 오름차순으로 정렬한 뒤, 동일한 비율로 4등분할 때의 세 위치 • 25%지점 → 제 1사분위수 • 50%지점 → 제 2사분위수 = 표본중앙값 • 75%지점 → 제 3..

기초통계 / 대표값 (평균, 중앙값, 절사평균, 최빈값)

표본 크기 대표값 - 자료의 중심을 나타내는 값으로서 자료 전체를 대표할 수 있는 값. - 적절한 대표값을 찾고 확인하는 이유는 자료의 분포를 전체적인 맥락에서 중심 경향성에 대해 살펴보기 위함이다. - 같은 의미로 중심 경향치, 집중화 경향성, 중심위치의 측도라는 용어를 사용하기도 한다. - 가장 많이 사용되는 대표값은 평균이다. 표본평균(sample mean) • 자료 전체의 무게중심을 의미한다. • 표본평균은 표본의 모든 값을 더하여 표본 크기로 나누어 구한다. • 표본평균은 '관측값 x 상대도수'의 합계로도 나타낼 수 있다. ★ 예시 어느 고등학교 학생의 키를 조사하기 위해 5명을 표본으로 뽑았다고 하자. - 표본: 162, 157, 170, 177, 168 - 표본 크기: 5 - 표본 평균은 두..

R 기초 / 제어문, 사용자 정의 함수

조건문 1) if문 - 벡터 연산 불가. 스칼라 값만 가능 - 조건 하나만 사용: if + else - 조건 여러개 사용: if + else if + else rm(list=ls()) myweight 80) { print('비만입니다') # 조건이 TRUE일 때, 실행될 명령 } else { print('정상입니다') # 조건이 FALSE일 때, 실행될 명령 } # OUTPUT: "정상입니다" if (myweight > 80) { print('비만입니다') } else if (myweight < 40) { print('저체중입니다') } else { print('정상입니다') } # OUTPUT: "정상입니다" 2) ifelse문 - if문의 한계를 보완함 (벡터 연산이 가능함. 즉 벡터의 각 요소별 조..

R 기초 / 패키지 사용하기

패키지 설치하고 로드하기 install.packages('패키지 이름') # 패키지 설치 library('패키지 이름') # 패키지 로딩 설치할 때 - install.packages('reshape') : 따옴표 사용해서 문자열로 입력해야한다. 로드할 때는 둘다 가능 - library('reshape') : 따옴표 사용해서 문자열로 입력 가능 - library(reshape) : 따옴표 없이 패키지 이름을 바로 입력 가능 reshape 패키지: melt, cast 1) 패키지 및 데이터 불러오기 # 패키지 설치 및 로딩 install.package('reshape') library(reshape) # 예시 데이터 로딩 data(airquality) names(airquality) colnames(airq..

R 기초 / apply 함수

apply 함수 - for문 등 반복문 없이 짧은 코드로 빠르게 연산 가능하다. - split -> apply -> combine 기능 제공, (데이터 분할 -> 함수 적용 -> 재결합) apply 함수 유형 - apply 함수 유형에 따라, 입력 데이터(연산대상) 유형 / 결과 출력 데이터 유형 / 연산 단위 달라진다. 1) apply input: array, matrix, dataframe(단 모든 컬럼이 같은 데이터 타입을 가져야함) output:array, vector rm(list=ls()) a