Dr.부동산

4주차 - 통계/시험범위 본문

부동산금융투자/부동산계량분석론

4주차 - 통계/시험범위

anony mous 2018. 11. 26. 21:42

emh earthquake 2017
지진났을때 AI가 작용했던 그래프 봇이기 때문에 엄청 즉각적으로 대처했다. 
주식이나 파생쪽에서는 계량적 사고 없이는 경쟁 자체가 안되는 곳이다. 

LLN.CLT.PDF

표본분포 (Sampling distribution vs Sample distribution ) 

Distribution of a sampel of data drawn randomly from a population : Y1 ~Yn
무작위 추출을 한다. 

보통 집을 산 사람을 분석한다. 집을 사는 것은 의사결정이다. 
주사위를 던졌을 때 n의 값은 6이 된다. 



** independently : 주사위를 던질때, 이번에 1이 나왔다고 해서 다음에 1이 나오라는 법이 없다. 랜덤 확률은 서로 독립적이기 때문에 상관관계가 없다. 하나를 아는것이 다른 것을 예측하는데 아무 도움이 안된다. 
** identically : 똑같은 분포에서 나왔다는 말이다. 예를 들어, 사람이라고 하는 분포에서 나왔다고 할때, 10cm이상 3m 이내의 키를 가지고 있는 분포에 있다. 이것도 범위를 좁혀보면, 스웨덴에서 성인 남성이라고 가정했을때 한국인이 나오기가 굉장히 어렵다. 
분포는 평균과 분산이다. 분포는 여러가지 속성을 가지고 있는데, 아시아인이라는 평균과 분산 속에서 나왔다고 본다. 
**i.i.d  : 심플랜덤 성립하면, 나오는 것 의미. 

여기까지 성립하면 대수의 법칙이 나오게 된다. 
Estimation 
Y바 : 불편성, 일관성 등등 모든 성격중에서 평균이 가장 낫다는 뜻. 소득같은 경우 평균보다 median이 더 낫다고는 함. 기하평균과 산술평균 중에서 미래를 예측하는 데 있어서 불편성이 깨지는 일을 방지하기 위해서, 바이어스가 없는 추정치가 평균이기 때문에, Y바를 사용한다. 

(a) the sampling distribution of Y바
4000만명을 컴퓨터에 넣고, 이것들의 평균이 또 다른 분포가 나온다. 계속하면 다른 분산이 나오는데, 평균의 평균이 생긴다. 평균의 분산도 존재한다. 이를 샘플링 디스트리뷰션이라고 한다. 
Random Variable : 추정량과 추정치를 비교해야 한다. 추정량은 Estimator 이다. Y의 평균과 Y바의 평균은 다르고, Y의 기대값과 Y바의 기대값은 같다는 것을 증명하고, Y바의 분산은 0이라는 것을 증명할 것이다. 

참고 
추정(estimation)이란 통계학에서는 통계적 추정이라고 쓰입니다. 모집단으로부터 적절하게 표본을 추출하고 표본의 자료로부터 모수의 값을 추측하는 통계적 절차를 통계적 추정(statistical estimation)이라고 합니다.우리가 흔히 추정하고자 하는 모수는 모집단, 모분산, 모비율 등이 있죠. 모수의 참값과 그의 추정량이 제공하는 값은 일치하는 경우가 거의 없죠(점추정). 그래서 구간을 추정하는 구간추정(interval estimation)이 있습니다. 여기서 신뢰수준(신뢰계수), 신뢰구간이라는 용어가 나옵니다.
 
추정량(estimator)은 뭔가 앞글자 e를 대문자로 쓰면 어색합니다. Estimator...
모수를 추정하기 위한 관찰가능한 표본의 함수를 추정량이라고 합니다. 추정량이라는 함수에 실제 관찰치를 대입하여 계산한 추정량의 값을 추정값(estimate)이라고 합니다. 실제 우리가 공식을 사용해서 구하는 값들이 estimate 인것이죠.

Y바
베르누이 확률변수
이항분포도 그렇게 되니까 다른 분포도 그렇게 될 것이다. 
     <
<
      <
1,1,0  / 1,0,1 /  0,1,1
그림에서 설명하는 것은 동전을 계속 던지면, 나올 수 있는 것은 
이렇게 확률이 나온다. 



n = 5 다섯번했다, n = 100으로 하면 자리를 찾아간다. 100이 되면 스파이크가 일어난다. 
실험을 계속하면 Y바의 평균은 Y로 찾아간다. 여기까지가 계수 추정에 관한 것이다. 
우리가 추정한 절차는 Simple random sampling을 하였기 때문에 값을 찾아간다. 

Y바의 기대값이 정확하게 Y바의 어디로가나? 모집단에 평균이 0.78이라고 가정한다. 
불편성 (unbiased)은 무얼하든 다 적용이된다. 중요한 것은 일관성이다. 
n이 커지면 우리가 추정한 Y바는 ??
표준오차 허용오차 이런 게 있다. 
시그마로 나누었을때 정규분포로 간다.
u와 시그마를 모를때, Y의 표본 스탠다드 DB의 표준 편차를 여기에 쓰고 u는 우리가 집어 넣는다. 
회기에서 쓰는 u는 주로 0이다. 회기계수가 0인지 파악한다. 
집값을 추측할때 지하철로부터의 거리가 x변수라고 하면 음수가 나오는지 테스트해볼 수 있다. 

Y의 평균은 consistent하다는 것은 값을 정확하게 찾아 갔을때다. 정규 분포와 t분포는 차이가 거의 없다. 
 

the Mean
iid 아이덴티칼 하다는 것은, 
모든 y가 identical하게 
y바의 분산은 var(Y바)로 나오는데
복잡해져도 단순하게 만드는게 인디펜던트하기 때문이다. 
제곱을 했다는 것은 분산과 공분산을 구하는데, 
공분산 행렬이라는 것이 있다. 

행렬은 n개의 주택거래 사례, 열1은 지하철부터의 거리, 열2는 기타 등등 공간상의 축으로 나타낼 수 있다. xyz축을 각각 평수, 가격, 지하철부터의 거리라고 하면, 하나의 거래사례는 공간상에 나타난다. 




이것을 표준화 한것을 상관 계수라 한다. 그래서 identical 하다고 했기 때문에 항들이 시그마자승이다.
independent 라고 했기 때문에 , 코베리언스는 0이 되고 대각선으로는 시그마 자승이 된다. 그래서 n분의 시그마 자승으로 표현 할 수 있다. 
무작위 추출을 하면, 불편성, 일관성, 효율성이 보장이된다. 
심플랜덤 샘플링만하면, 회기계수가 정확히 u를 찾아간다는 것이다. 추정한 회기계수가 써도 된다는 것이다. 
하늘색 식 = 대수의 법칙 

그리고 남은 것인 테스트이다. 

CLT 
시그마로 나누어 주는 것, Y바의 시그마로 나누어주면, 표준 정규 분포로 간다. u도 모르고 시그마도 모르기 때문에 t분포로 간다. 이 정규 분포와 차이가 거의 없다. 차이가 날때는 n이 30보다 작을때다. n이 30보다 안되는 값을 다룰때는 거의없으나 서울시의 구별 데이타를 다룰때 (구가 30개가 안된다) student t중에서 손을 써야 하는데, 박사급에서는 별로 없다. 

내 생각과 다르게 변동성이 별로 없었는데, 서울같은 경우에도 강남과 강북이 많이 다를 것이다 생각해 볼 수 있는데, 여기에서 본 것처럼 정규 분포로 간다. 모든 책을 보면 맨 뒤에 t 분포가 있다. 
1.69  / 1.64 / 2.18 
90%를 만들어주는 값? 

https://blog.naver.com/mykepzzang/220853827288

시그마와 u를 알면 정규분포를 쓰고 모르면 t분포를 쓴다. 

회기계수의 분포는 대수의 법칙에 따라서 정확히 찾고 있는 곳으로 간다. 분산과 평균 분포를 안다면, 정규분포는 T분포로 간다. 

계수의 추정은 large number가  어디로 가는지 보면 된다. 
두가지가 통계학의 중요한 것이다. 기술적으로 저 두개만 있으면 통계학은 끝난다. 

계량에서 쓰는 것은 추정이다. 
경제학적 직관은 글로 쓰는 것이다. 


시험에 나오는 코쉬슈바르츠

블랙스톤 만든 사람이 슈바르츠다. 두사람이 비슷한시기에서 만든 이론. 
U와 V를 만들었다. 
U는 x를 표준화시킨것이다. 평균은 0이고 분산은 1이된다. 분포가 어떻게 되었든 이렇게 된다. 

the Cauchy-Schwarz inequality shows that for any two random variables X and Y
|ρ(X,Y)|≤1.
Proof
Let,
U=XEX/ σX,  V=YEY/ σY.
Then EU=EV=0, and Var(U)=Var(V)=1
Let Z = (U-V)2  
E(Z) >=0.
E (U2 -2(U,V)+ V2 )>= 0
E(U2) + E(V2) –2 ρ(X,Y) >= 0
2 >= 2 ρ(X,Y)
Do the same thing for Z= (U+V)2.
Thus, |ρ(X,Y)|≤1,

U와 V의 코베리언스가 1. 이부분을 파악해야 한다. 코베리언스가 코릴레이션이 되는데 베리언스가 1은 제곱근을 취해주었을때 1이므로, 1과 0으로 만들어 놓으면 편해진다. 젤 마음에 드는 것을 구글에서 찾아보기 바란다. 

증명방법 공부할 것, 여기에서 한줄이라도 빼면 틀리게 된다. 

랜덤, 확률변수, 무작위 추출, 코쉬슈바르츠 부등식, 통계에 대한 내용은 끝났다. 수학적인 이론은 여기까지이다. 시험범위는 0장, 1장이다. 지금 설명해 드렸던 것들을 활용할 것이다.