반응형 전체 글100 확대행렬(Augmented matrix)과 기본행연산(elementary row operation) 그리고 기호 이해 - 선형대수 2강 :: Data 쿡북 | 들어가며이전 포스팅에서 3가지 기본 연산과 소거법에 대해 설명했다.이전 포스팅은 다음을 참고한다.▶ : 소거법(elimination method)의 이해 이번은 확대 행렬과 3가지 기본행연산(elementary row operation) 그리고 그에 대한 기호를 설명한다. | 방정식 기본 연산방정식 기본연산은 다음의 3가지를 의미하며 이 3가지 연산을 한다고 해도 해가 바뀌지 않는 것을 말한다.1) 두 행을 서로 교환한다.2) 한 방정식에 0이 아닌 상수를 곱한다.3) 한 방정식에 임의의 상수를 곱하여 다른 방정식에 더한다.| 방정식 3가지 기본연산이미 언급했던 방정식 기본 3연산은 다음과 같다.1) 두 행을 서로 교환한다.2) 한 행에 0이 아닌 상수를 곱한다.3) 한 행에 임의의 상수를 곱하여 다.. 2017. 9. 10. 소거법(elimination method)의 이해 - 선형대수 1강 :: Data 쿡북 | 들어가며선형대수를 이해하는데 가장 기본이 되는 소거법에 대해 알아보고 광합성에 대한 식에 소거법을 적용해 풀어보자앞으로 선형대수에 대한 이론과 실습을 설명할텐데 선형대수는 기호를 활용하는 예가 많기 때문에 차근차근 이해하는 것이 필요하다. | 방정식의 3가지 기본연산으로 소거법 쓰기소걱법이란? 주어진 연립방정식을 동일한 해 집합을 가지면서 보다 풀기 쉬운 형태의 연립방정식으로 변환하는 방법이다. 소거법을 쓰기전 방정식의 기본 3연산은 다음과 같다.다음의 연산을 한다고 해도 방정식의 결과는 달라지지 않는 다는 것을 말한다.1) 두 방정식을 교환한다.2) 한 방정식에 0이 아닌 상수를 곱한다.3) 한 방정식에 임의의 상수를 곱하여 다른 방정식에 더한다. 이를 기본으로 다음을 소거법으로 풀어보자 1법칙으로.. 2017. 9. 10. 통계용어 - 모수적, 비모수적 방법 :: Data 쿡북 수정이력 : | 배경통계를 통해서 우리가 확인하고 싶은것은 모집단(전체집단)의 특성이다.그러나 모집단은 어떤 경우 대상이 너무 클 뿐 아니라 신약의 경우 모든 사람에게 테스트 할 수 없기 때문에 적절하게 표본집단을 선택하고 어떤 가정을 통해 추론하게 된다. | 모수적 방법어떤 대상의 표본을 뽑아서 실험을 하게 되면 중요한 지표가 나오게 되는데, 그것이 평균, 표준편차, 분산이다.그런데 중심 극한 정리에 의해서 일정 수 이상(보통 30개)의 표본은 모집단의 분포가 연속형이든, 이산형이든, 한쪽으로 치우졌든 표본평균의 분포는 정규본포에 근접하게 된다.따라서 두 표본이 정규분포를 띈다고 가정한다면 이를 바탕으로 평균, 표준편차 비교등을 통해 집단간 차이를 밝혀낼 수 있다.이렇듯 정규성을 갖는다는 모수적 특징을.. 2017. 9. 9. 통계용어 - 자유도(degrees of freedom) :: Data 쿡북 | 자유도(degrees of freedom) 자유도(degrees of freedom)는 통계적 추정을 할 때 표본자료 중 모집단에 대한 정보를 주는 독립적인 자료의 수를 말한다. 크기가 n인 표본의 관측값({\displaystyle x_{1},x_{2},\dots ,x_{n}})의 자유도는 n-1이다(출처 : 위키피디아) 다시 표현해보자 A + B = 10 이라고 할때 A가 값이 정해지면 B는 선택의 여지 없이 정해진다. 즉 A가 자유도를 가지면 B는 자유도가 없다.따라서 관측값이 n 개가 있다고 할때 여기서의 자유도는 n-1 이 된다. 위키피디아의 예시를 다시한번 보자어떤 실험에서 4개 집단에 피험자들이 각 30명씩 무선배치되었을 때, 는?전체 자유도 집단내 자유도 집단간 자유도 2017. 9. 8. 통계용어 - 독립변수(Independent variable), 종속변수(Dependent variable) :: Data 쿡북 | 독립변수 란함수 관계에서, 다른 변수의 변화와는 관계없이 독립적으로 변화할 수 있는 변수 (출처 : google)- 연구자가 의도적으로 변화시키는 변수- 다른 변수의 영향을 받지 않는 변수- 종속 변수에 영향을 주는 변수 - 입력값 - 원인변수(Explanatory variable), 예측변수(Predictor variable) 이라고도 함 예) y=f(x) 일때 x y=f(x,y) 일 때 y | 종속변수 란 ↔ (독립변수)두 변수 중 한 변수의 값이 결정되는 데 따라 그 값이 결정되는 다른 변수. 함수 y=f(x)에 있어서, 독립 변수 x가 변하는 데 따라 변하는 y를 이름 (출처 : google)- 연구자가 독립변수의 변화에 따라 어떻게 변하는지 알고 싶어 하는 변수- 반응변수(Response v.. 2017. 9. 8. 통계용어 - 확률변수(random variable) :: Data 쿡북 | 확률변수란? 일정한 확률을 갖고 발생하는 사건(event)[1]에 수치가 부여되는 변수. 일반적으로 대문자 XX로 나타낸다. 확률변수 XX의 구체적인 값에 대해서는 보통 소문자를 사용해서, 예를 들어 XX가 pp의 확률로 xx의 값을 가진다는 것은 P\left(X=x\right)=pP(X=x)=p 등의 확률함수로 표현할 수 있다. 보통 확률변수 XX가 가질 수 있는 값의 범위가 이산적인지/연속적인지(셀 수 있는지/없는지)에 따라 이산확률변수(離散確率變數, discrete random variable)와 연속확률변수(連續確率變數, continuous random variable)로 나뉜다. 출처 : 나무위키 다른 표현으로 보자표본공간의 각 원소에 하나의 실수값을 대응 시키는 함수 예를 들어 설명하면,동.. 2017. 9. 8. 통계용어 - 기대값(expected value) :: Data 쿡북 통계 용어를 정리해보자 | 기대값(expected value)이란 기대값 정의를 보면 다음과 같이 되어 있다.확률론에서, 확률 변수의 기댓값(期待값, 영어: expected value)은 각 사건이 벌어졌을 때의 이득과 그 사건이 벌어질 확률을 곱한 것을 전체 사건에 대해 합한 값이다. 이것은 어떤 확률적 사건에 대한 평균의 의미로 생각할 수 있다.(위키피디아) 예를 들어보자주사위 하나를 던졌을 때 각 누의 값이 나올 확률이 1/6이라고 한다면 주사위의 기대값은 각 눈의 값에 각 확률을 곱한 값의 합이다. 이것을 공식으로 보면 다음과 같다. 수식으로 풀어보면 다음과 같다. 결론적으로, 주사위의 기대값은 3.5다. | 왜 기대값을 구해야 하나?주사위를 한번 던진 결과를 가지고 그 결과를 주사위가 준 일반적.. 2017. 9. 8. Rstudio 들여쓰기, 주석달기 단축키 :: Data 쿡북 | RStudio 깜짝 팁 Rstudio는 R 코드 개발툴이다.몇몇 단축키들이 있는데 * 줄맞추기 기능은 줄맞출 영역 지정후 ctrl+i * 주석달기 기능은 주석달 영역 지정후 ctrl + shift + c 한번더 누르면 주석이 해제된다. 2017. 9. 7. 카이제곱 분포(chi-squared distribution) 이해하기 :: Data 쿡북 | 들어가며연속확률 분포중 카이제곱 분포에 대해 이해해보자 | 개념정리카이제곱 분포는 데이터의 분산이 퍼져있는 모습을 분포로 만든 것이다.데이터를 파악할때 중심 위치(평균)와 퍼짐 정도(분산)이 중요한데 카이제곱은 바로 분산의 제곱값에 대한 분포다.독립변수가 명목치인 어떤 표본이 모집단의 분포와 같은지 다른지 검정할때 활용된다.카이제곱 분포는 분산의 제곱된 값을 보여주기 때문에 마이너스(-) 값으로 나오지 않고 (+) 값만 존재하며 좌우 비대칭의 분포를 따른다. | 카이제곱 분포 그래프 library(ggplot2) ggplot(data.frame(x=c(0,10)), aes(x=x)) + stat_function(fun=dchisq, args=list(df=1), colour="black", size=.. 2017. 9. 7. [빅데이터 플랫폼 구축 #6] Sandbox를 이용한 하둡 실습환경 구축 :: Data 쿡북 | 들어가며빅데이터 처음 입문자들에게 가장 필요한 것은 일단 간단히라도 테스트 해볼 수 있는 환경이다.처음부터 하둡 클러스터를 분산 환경에서 설치하는 것은 너무 가혹하다.Hortonworks나 Cloudera 같은 빅데이터 유명 벤더사들은 자사의 하둡 패키지를 가상환경에서 테스트 할 수 있도록 Sandbox라는 이름으로 제공한다.때문에 우리는 Sandbox를 가지고 그냥 가상환경에 올려놓고 테스트 함으로써 쉽게 하둡을 경험해 볼 수 있다.이번 블로그에서는 hortonworks 사의 sandbox를 다운 받고 여기서 테스트 해보는 환경에 대해 얘기 하고자 한다. | Sandbox 설치전 고려사항Sandbox를 정상적으로 활용하려면 기본적으로 ram 8G 이상을 권장한다.그 아래로는 sandbox 가 시작될.. 2017. 9. 6. 정규분포(Nomal distribution) 이해하기 :: Data 쿡북 | 들어가며 통계를 처음 공부하다보면 분포가 어김없이 나온다.분포... 말은 좋은데 그래서 어디 써야할지 왜 배워야 하는지는 배워도 쉽게 설명하기 어렵다.특히 당장 분석하고 싶은 통계 입문자들에게는 요상한 분포 얘기부터 나오니 재미도 없고 미칠 지경이다.따라서 여러가지 분포에 대해서 비 통계학과 출신들을 위해 분포란 무엇이며 어디에 어떻게 쓸지 왜 배워야 하는지 얘기할까 한다.(잘못된 설명이나 부가 설명에 대해서는 언급해 주시면 감사드립니다.) 첫번째로 그 유명한 정규분포에 대한 이야기다 | 분포란 무엇인가? 좀 길지만 잠시 세상 이치에 대해 얘기 해보자.이 세상은 불확실하다. 때문에 생겨나는 데이터들을 찍어내듯이 똑같은 경우가 없고 제각각이 된다.이렇게 데이터가 제각각인 수치로 나타나는 것을 '데이터 .. 2017. 9. 5. [빅데이터 플랫폼 구축 #5] ambari-server setup간 오류 정정 :: Data 쿡북 | 들어가며오늘은 Ambari 설치 과정에서 ambari-server setup 이 정상적으로 설정 되지 않아 발생하는 부분에 대해 말할까 한다. | ambari.properties를 확인하자이전 포스팅인 빅데이터 플랫폼 구축 #3 과정을 보면 Ambari server setup관련 내용이 나온다. root@ubuntu-01:~# ambari-server setup 그런데 위 setup을 했더라도 정상적으로 ambari 의 설정값이 들어가지 않는 경우가 있다.가끔 설정이 의도치 않게 들어갔다고 해야할까? ambari-server setup 명령어를 통해 설정한 것은 다음 경로의 파일을 변경하게 된다./etc/ambari-server/conf/ambari.properties 해당 경로의 내용을 보면 우리가.. 2017. 9. 4. 통계기초 책소개 - 세상에서 가장 쉬운 통계학 입문 :: Data 쿡북 오늘은 통계학 서적중 완전 초보자가 읽기에 좋은 이론 바탕의 책을 한권 소개 할까 한다.사실 개념 관련 내용은 이상하게도 일본 사람이 쓴 책이 참 체계적이라는 생각이든다. 제목은 "세상에서 가장 쉬운 통계학 입문" 이다.초판은 2009년에 나온 책으로 번역도 괜찮다. 이 책은 정말 통계의 가장 앞 부분에 나오는 분산, 표준편차 부터 가설검정, 분포 등에 대한 이야기를 다룬다.중간 중간 손으로 풀이를 할 수 있도록 되어 있어. 다시 학교 학습지 풀어보는 느낌을 느낄 수도 있다. 사실 개념을 알고 있지만 누군가에게 설명하는 것은 쉽지 않다. 책을 읽으면서, 아는것 같은데 설명을 잘 못했던 것들을 스스로에게 반문해 볼 수 있는 시간을 가질 수 있을것 같다. 책의 끝까지 읽더라도 통계학의 맛만 보는 수준일 수 .. 2017. 8. 24. R에서 오류 예외처리 (try, trycatch) :: Data 쿡북 | 서론 R을 수행하다보면 프로그래밍에 숨겨진 버그나 Data 상의 오류로 언제든 장애가 날 수 있다.분석 환경이라면 고쳐서 수행하면 되겠지만, R을 기반으로 프로그래밍을 했다면 이는 큰 문제다.R을 수행하던 중에 중간에서 오류가 날 경우 이후 문장은 전혀 수행되지 않기 때문에 중요한 장애가 아니라면 때로는 이를 무시하고 넘어가야 할 때가 있다. 엔지니어링 하시는 분들에게는 너무도 당연한 기능이 try, catch, finally 기능이다. 그리고 R에도 당연히 있다. | try 이해try는 선언된 내부 코드중 Error가 있을 경우 이를 그냥 skip 하는 기능이 있다. 아래 상황은 print 후에 non이라는 선언되지 않은 객체를 불러오면서 Error가 발생하는 상황이다.> try({+ pri.. 2017. 8. 23. 작업중 R 객체를 저장하고 읽기 (save, load. save.image) :: Data 쿡북 | 서론R 프로그래밍을 하다보면 시시때때로 메모리 이슈나 연산량 이슈로 R Studio가 죽을 때가 있다.R에서의 모든 연산은 메모리에 올려놓고 연산을 하게 되는데 이때 R Studio가 강제 kill 될 경우 작업중이던 메모리의 데이터는 전부 소실된다.R이 메모리에 올려 놓고 연산하기 때문에 빠르기는 해도 메모리에 올릴 수 없으면 연산이 불가능 하다는 단점이 있다. R종료할 때 다음과 같이 ~/.RData를 저장할 것인지를 묻는데 이 내용이 현재까지 작업한 내역을 RData로 저장할지를 물어보는 것이다. 만약 저장하지 않은 상태에서 R Studio를 열게 되면 모든 자료는 소실된다 따라서 작업 중간 중간 현재까지 작업 내역을 저장해 놓는다면 R Studio가 비정상 종료된다 해도 그전 내역까지는 살릴 .. 2017. 8. 23. 이전 1 2 3 4 5 6 7 다음 반응형