본문 바로가기

Data Science29

통계용어 - 기대값(expected value) :: Data 쿡북 통계 용어를 정리해보자 | 기대값(expected value)이란 기대값 정의를 보면 다음과 같이 되어 있다.확률론에서, 확률 변수의 기댓값(期待값, 영어: expected value)은 각 사건이 벌어졌을 때의 이득과 그 사건이 벌어질 확률을 곱한 것을 전체 사건에 대해 합한 값이다. 이것은 어떤 확률적 사건에 대한 평균의 의미로 생각할 수 있다.(위키피디아) 예를 들어보자주사위 하나를 던졌을 때 각 누의 값이 나올 확률이 1/6이라고 한다면 주사위의 기대값은 각 눈의 값에 각 확률을 곱한 값의 합이다. 이것을 공식으로 보면 다음과 같다. 수식으로 풀어보면 다음과 같다. 결론적으로, 주사위의 기대값은 3.5다. | 왜 기대값을 구해야 하나?주사위를 한번 던진 결과를 가지고 그 결과를 주사위가 준 일반적.. 2017. 9. 8.
Rstudio 들여쓰기, 주석달기 단축키 :: Data 쿡북 | RStudio 깜짝 팁 Rstudio는 R 코드 개발툴이다.몇몇 단축키들이 있는데 * 줄맞추기 기능은 줄맞출 영역 지정후 ctrl+i * 주석달기 기능은 주석달 영역 지정후 ctrl + shift + c 한번더 누르면 주석이 해제된다. 2017. 9. 7.
카이제곱 분포(chi-squared distribution) 이해하기 :: Data 쿡북 | 들어가며연속확률 분포중 카이제곱 분포에 대해 이해해보자 | 개념정리카이제곱 분포는 데이터의 분산이 퍼져있는 모습을 분포로 만든 것이다.데이터를 파악할때 중심 위치(평균)와 퍼짐 정도(분산)이 중요한데 카이제곱은 바로 분산의 제곱값에 대한 분포다.독립변수가 명목치인 어떤 표본이 모집단의 분포와 같은지 다른지 검정할때 활용된다.카이제곱 분포는 분산의 제곱된 값을 보여주기 때문에 마이너스(-) 값으로 나오지 않고 (+) 값만 존재하며 좌우 비대칭의 분포를 따른다. | 카이제곱 분포 그래프 library(ggplot2) ggplot(data.frame(x=c(0,10)), aes(x=x)) + stat_function(fun=dchisq, args=list(df=1), colour="black", size=.. 2017. 9. 7.
정규분포(Nomal distribution) 이해하기 :: Data 쿡북 | 들어가며 통계를 처음 공부하다보면 분포가 어김없이 나온다.분포... 말은 좋은데 그래서 어디 써야할지 왜 배워야 하는지는 배워도 쉽게 설명하기 어렵다.특히 당장 분석하고 싶은 통계 입문자들에게는 요상한 분포 얘기부터 나오니 재미도 없고 미칠 지경이다.따라서 여러가지 분포에 대해서 비 통계학과 출신들을 위해 분포란 무엇이며 어디에 어떻게 쓸지 왜 배워야 하는지 얘기할까 한다.(잘못된 설명이나 부가 설명에 대해서는 언급해 주시면 감사드립니다.) 첫번째로 그 유명한 정규분포에 대한 이야기다 | 분포란 무엇인가? 좀 길지만 잠시 세상 이치에 대해 얘기 해보자.이 세상은 불확실하다. 때문에 생겨나는 데이터들을 찍어내듯이 똑같은 경우가 없고 제각각이 된다.이렇게 데이터가 제각각인 수치로 나타나는 것을 '데이터 .. 2017. 9. 5.