Dr.부동산

13주차 - 가설검정, 예측 본문

부동산금융투자/부동산계량분석론

13주차 - 가설검정, 예측

anony mous 2018. 11. 28. 20:44

3장 


3.2

가설 검정에는 다음과 같은 다섯가지 요소가 있다. 


가설의 검정요소 H0 

대립가설 H1
검정통계량 
기각역
결론 


**석사학위는 80페이지, 박사는 120페이지 이상. 

학위논문이나 등재지 논문에는 0가설에 대해서 c를 요구하지 않는다. 0이다 아니다만 확인해주면 된다. 


3.2.1 귀무가설 (영가설) 

3.2.2 대립가설

3.2.3 검정통계량 

양측검정 

기각한다 -> 효과가 있다 없다만 확인.

3.3 가설에 대해서는 조금 설명해주는 것이 좋다. 

ex. 어떤 선행연구는 -인 경우도 있다. 나는 +라 생각한다. 왜냐하면.. 등등 

3.4.1 우측검정 

데이타는 데이타 나름대로 생각이 있다. 

가설과 다른 이유를 찾아야한다. 추가데이터 또는 선행연구를 가지고 디펜스를 하면 된다. 

가설이 틀린것이 내가 틀린 것은 아니기 때문에 특별하게 반응할 필요는 없다. 

3.4.1b 경제가설의 단측검정 

ex.기각할 수 없었다. 체택할 수 없었다면 어떻게 해야 하는가? 경제이론이 잘못되었다고 할 수 있는가? 아니다. 데이타가 다른데서 샘플링이 되서 그런 것일 경우가 높다. 

소득이 늘었는데도 불구하고 식료품 지출이 일어나지 않을 수 있는 상황이 있을 수 있다. 주로 외식하고 들어오는 경우 또는 근처에 식료품가게가 없거나 등등 . 생각보다 계량이 괜찮기 때문에 이유에 대해 디펜스 하기 위해서는 실생활을 정확히 이해하고 있어야 한다. 

3.4.2 상대적으로 유의하면 0이라고 보여도 0.00000001일 경우도 있을 수 있는데 이를 무시하면 안된다. 경제적 유의성이 아니라 통계적 유의성이 중요하다. 


3.5 p값 


리뷰 / 여기까지가 3장내용.

기술적으로 t테스트를 하는 것보다, 내 생각과 내 가설을 어떻게 디펜스 하는가가 중요하고 내머리를 써서 디펜스하는 것이 아니라 선행연구를 통해서 디펜스를 해야 한다. 

ex. 경쟁적인 시장인지? 이것을 다시 연구할 것이 아니라 경쟁적인 시장이라고 우기는 논문을 찾아서 넣으면 된다. 



4장 예측, 적합도, 모형화 

F테스트와 R

예측 = 활용하겠다. y헷 시계열에서는 forecasting 예측, 회귀에서 말하는 예측은 prediction. 

적합도 = 모형을 테스트 하는 것, y헷

모형화 = 모형이 완전하다 그렇지 않다는 우리가 손댈 수 있는 부분이 아니다. 0인지 아닌지만 파악하면 된다. 


Goodness of Fit = 적합도, 설명력 - R2, F -> y바와 y헷을 비교한다. / y-y헷 :잔차 /  y-y바 : 총변동 

Prediction power = 타당도, 예측력 - RMSE


             *Y 

            /*Y헷        SSE

Y바-----------      SSR

          /    X


여러개의 베타를 만들어 내는 것이 

3. SST, SSR x가 개선 시킨 부분, SSE x가 들어갔음에도 불구하고 개선 못시킨 것. 

5. 상관분석과 R2 : 수학적인 상관계수를 인과관계라고 우기려면 경제적 분석이 필요.

6. *을 변수명에 붙이지 않는다. ***, **, * 신속하고 용이하게 파악 

7. 척도화. 아파트 평당가격에 로그. 헤도닉 모형, 로그노말과정 정규취하기 

8. 모수선형. 이분산성을 막기위해. 자승을 취하는 경우가 여러개 있다. 

ex. 노인층 연구할때 보면 75세 이후로 꺽이게 된다. 그래서 75세 이후로 비 선형영역을 매핑을 통해 넣어준다.

10. log-log 모델은 기울기가 탄력성을 가짐. 

11. 이분이 말한 기울기는 로그가 들어가면서 탄력성이 되는 부분 파악. 

ex. 평당가격인지 평당 로그가격인지를 파악하는 것은 컨설턴트가 되면할것

13. 대수-선형이라는 것은 종속변수에 로그를 취했다는 것. 


y헷을 써먹겠다는 것이 4장의 이야기다. 써 먹는데 에러가 있을 것이다. 예측오차는 시계열에서 매우 중요하다. 여기서는 중요치 않음. 프레딕션 파워테스트, rmse sse잔차의 평균. 잔차는 R2와 F. 함수형태가 맞는지 등은 빼지 말아야 할때가 있다. 함수의 형태가 적합한지는 해볼 필요가 있다. 


4.1 최소제곱예측. 

그림4.2 예측오차가 평균을 벗어나면 분명히 커진다. 비선형이 나타난다는 것이다. 

4.1.1 예측오차의 사이즈에 관한 식. y가 몰려 있을 수록 좋은 데이타는 아니지만(y변동이 거의 없기 때문에), 예측력은 커진다. 

x의 변동이 큰 것도 좋은 데이타인데, x의 변동이 큰 것은 예측력을 높이지만, y는 그렇지 않다. 

- 베타 헷의 시그마와 x의 시그마는 구분해야 한다.  

- RMSE는 4.11식에 루트를 씌우면 된다. 

ex. 그림 2.9에서 SSE, SSR이 나온다. RMSE 구하면 20인가 나온다. 에러가 20%정도 된다는 것이다. 선행연구보다 개선이 되면 잘 한 것이다. 숫자가 크냐 작으냐는 상대적인 것이다. 개선을 할 수 있도록 하면 된다. 

4.2.2 상관분석과 R2

베타에 x를 곱해주고 y로 나누어주면, 식 4.14가 나온다. 

134페이지 설명 : SST 에서 SSE 풀지 못하는 부분, R2는 풀지 못하는 부분의 비율이 .385 즉 38.5%라는 것이다. 변동이 클 경우에는 x 소득도 변동이 커야만 한다. R2가 괜찮은 수준인지는 선행 연구와 비교해서 하면 된다. 예를 들어 R2값이 0.1~0.4까지 나온다고 교과서에 나와 있다면 이것을 디펜스로 삼으면 된다. 

136페이지 : *10%, **5% ***1% 수준에서 유의하다 의미, 삼성법칙. 


4.3 모형화문제 

모형은 선행연구를 보고 하시면된다. 자기 표절에 걸릴 수 있는 부분은 조심해야 한다. 

심사자가 물어보면, 뒤에다 해봤다고 붙여주면 된다. 해봤니라고 할때, 해봤다고 할 수 있으면 디펜스가 가능하다. 

R2를 높이려고 노가다를 하는데, 이보다는 안해보는 부분이 잘 나오느냐 안나오느냐가 중요한 포인트 이다. 

1).대수-대수모형 

2).대수-선형모델 : Ln(y) = 정규로 만들어준다. 로그는 수익률이 된다. x가 변할때 y가 변하는 것이 기울기인데, 이 수식에서는 log(y)가 변하는 증가율을 보게 된다. 아파트 평당 단가가 2% 증가한다던지, 아파트 중에서 100m를 덜 가는 것이 아파트 가격의 2%를 증가시킨다는 것은 같다. 변화가 아니고 증가율이 된다. %. 헤도닉 모형  

3).선형-대수모형

로그가 들어가게 되면 1이다 아니다가 중요해진다. 해석에 주의해야 한다. 


4.3.4. 회귀오차

그림 4.6 Jarque-Bera 를 주는 것. 신경 안써도 된다.


4.3.5 다른 실증분석 

- 선행연구가 있고 선행연구의 변수를 넣고, 내가 관심있는 변수를 넣으면 된다. 없으면 없다고 하면 되고, 논문의 한계라 하고 주석의 한계를 쓰면 된다. 최대한 노력을 했다 라는 것을 보여주면 된다. 있는데 게을러서 못구하거나 데이터가 너무 비싸서 못구한 것은 안된다. 주택 수요조사 등은 2만원이면 풀 셋트를 살 수 있는데 이것도 안하면 안된다. 빼 먹은게 생기면 다음학기로 넘어가면 된다. 


4.4.2 교육에 관심있으신 분들은 관심있게 보면 됨. 

교육 내부수익률 , 내부수익률을 통한 교육 등 교육 측정에서 다룬다. 


4.4.3 대수-선형은 남성임금, 여성임금 차별등에서 많이 쓴다. 재무쪽으로 하는 분들은 알아야 함. 


선행연구 열심히 보시고 아이디어가 있으면 논문 하나가 나온다. 데이터가 있으면 일하는데서 활용하면 된다. 

우리나라 부동산학 데이터의 시초는 IMF부터이다. 약 20년. 

특별한 시장을 찾아낸다면, 특정 직업분류 별로 모형화 시킬 수 있으면 이부분도 선호하는 논문이 된다. 

졸업만 하려면 시계열을 하면된다. 박사같은 경우는 어쨌든간 관심에 맞는 주제와 데이터를 찾아야 한다. 

졸업률이 30-40%정도밖에 안된다. 직장다니면서 하는 경우는 1년에 1명 될까 말까한다.