분류 전체보기 92

AIB_122_복습정리 : More Hypothesis Testing

비모수적 검정 • 모집단이 특정 분포를 따른다는 전제를 하지 않고 검정하는 방법 • categorical data이거나 극단적 outlier가 있는 경우 매우 유효한 방식이다. 비모수적 검정의 종류 • chi-square test • Kolmogorov-Smirnov test • Wald-Wolfowitz run test • Mann-Whitney U test • Wilcoxon • run test • sign test 카이 제곱 검정(chi-square test) • 카이제곱 분포에 기초한 통계적 검정 방법 • 표본 집단의 분포를 비교할 때 이용한다. • 특히 명목척도 자료에 대해서만 사용이 가능하다. • 카이 제곱 적합성 검정 • 카이 제곱 독립성 검정 • 카이 제곱 동질성 검정 [참고자료] gaye..

AIB_121_복습정리 : 가설검정, T-test

가설검정 모집단에 대한 정보를 알아보기 위하여, 모집단에 대한 어떤 가설을 설정한 뒤에 표본의 통계량을 통해 통계적으로 유의한지 판정하여 그 가설의 채택 여부를 결정하는 통계적 추론 방법. 1) 귀무가설 - 처음부터 버릴 것으로 예상하는 가설 - 직접 검증의 대상이 되는 가설로 연구자가 부정하고자 하는 가설 - 이 약을 먹은 사람과 안먹은 사람의 차이가 없다. 2) 대립가설 - 처음부터 채택할 것으로 예상하는 가설 - 귀무가설에 반대되는 사실로 연구자가 주장하고자 하는 가설 - 이 약을 먹은 사람과 안먹은 사람의 차이가 있다. 3) 유의확률(significance probability) - p값(p-value) - 1종 오류를 범할 확률 - 귀무가설을 지지하는 정도 - 유의확률(p값)이 유의수준(alph..

AIB_121_복습정리 : Introduction to Data Science (1)

통계학에 대한 이해 • 데이터는 거의 모든 분야에서 발생하고 있고 데이터를 이용하여 우리는 보다 나은 의사결정을 할 수 있다. 더 나은 의사결정은 확률을 계산함으로써 가능해진다. 이러한 확률은 데이터와 만나 구체적으로 계산되어야 유용하다. 이에 대한 과학적 방법을 연구하는 것이 통계학이다. • '경험주의'에 의하면 우리는 모든 데이터를 다 관측할 수 없기에 그 지식을 결코 확신할 수 없다는 난관에 부딪히고, 따라서 확신하지 못하는 지식을 얼마나 신뢰할 수 있겠냐는 문제가 생긴다. 이런 문제를 수리적인 방법으로 해결한 것이 결국 통계학이다. • 통계적 가설검정은 일종의 '귀류법'으로 볼 수 있다. 어떤 가설을 데이터로 증명하는게 아니라, 그 가설을 일단 부정한 후에 (=귀무가설이라고함) 데이터가 그 귀무가..

AIB_113_복습정리 : Data Manipulation

문자열 나누기, 분리하기 1) Split bread = "my favorite bread is Kouign-amann" bread.split() # OUTPUT: ['my', 'favorite', 'bread', 'is', 'Kouign-amann'] metro = "jongro-euljiro-chungmuro" metro.split("-") # OUTPUT: ['jongro', 'euljiro', 'chungmuro'] - 문자열 나누기, 문자열 분리하기 함수 - bread.split( ) 와 같이 괄호 안에 아무것도 넣지 않으면, 공백 기준으로 문자열을 분리한다. - metro.split("-") 와 같이 괄호 안에 특정 값을 넣으면, 해당 값을 구분자로 문자열을 분리한다. - 분리된 결과 값은 리스..

AIB_112_복습정리 : Feature Engineering

Feature Engineering (특성 공학) 도메인 지식과 창의성을 바탕으로 데이터셋에 존재하는 feature들을 재조합하여 특정 어플리케이션에 가장 적합한 feature를 찾아내는 것. 구간을 분할하거나 통합할 수도 있고, 스케일을 조정할 수도 있고, 여러 특성을 조합하거나 연산을 적용해서 새로운 특성을 만들 수도 있다. 예를 들어 데이터셋에 '몸무게'와 '키' 라는 특성이 있는데, 이 두개의 특성을 재조합하여 새로운 특성으로 'BMI지수' 를 만드는 것은 feature engineering이라고 할 수 있다. DataFrame (데이터 프레임) Pandas의 DataFrame은 그냥 테이블 형태의 데이터다 정도로만 이해하기 (지금 내 수준에선,,) • Row(행)에는 observation dat..