Dr.부동산

[계량분석론] 0501 제9장 Omitted variable & 패널 분석 본문

부동산금융투자/부동산계량분석론

[계량분석론] 0501 제9장 Omitted variable & 패널 분석

anony mous 2019. 5. 1. 19:45

제9장_계량_Omitted variable and 패널 분석chow_이종원.pdf
5.13MB

영가설: omitted variable과 교란항이 uncorrelated. 모델이 컴플릿 하다.
테스트를 통과하면 random effect 패널 분석 가능. 그러나 지나친 가정

변수오차와 omitted variable bias는 수학적으로 동일한 문제. 변수 오차 있으면 FEM 사용, 상수 변수 탈락함.

Yi = a헷 + b헷 x + b헷헷x~ + e
하우스만 테스트 
Yi = a헷 + b헷 xi + b헷헷헷r헷zi + dw + vi

2.1 일반적 수단변수 활용법 
- 수단변수를 찾는게 매우 어렵다. 수학적으로 존재할때 Z를 찾아야 하는데 어렵다. 
- 논리적인 Z가 아니라 수학적인 Z를 찾아야 한다. 식(9.30)을 0을 만들어주는 값.

항상소득 
- 소비는 오염이 되지 않았고 소득이 오염이 되었다고 할때, 대형 변수로써 4분기 이동 평균을 수단변수로 만들때(과거를 바꿀 수 없기 때문에), 문제를 해결하면서 하우스만 테스트까지 하도록 한 것이 식(9.43)이다. 

Ct소비  = a헷 + b헷헷(r헷Yma) + dw + vi
 - 1단계에서 추정된 것이 감마헷과 오메가헷이다. 추정한 것(감마)과 계산된 것(잔차), 2번을 해야 하므로, 2단계 추정을 하면 a의 더블헷, b의 더블헷은 나온다. 오메가더블헷의 t테스트를 해줘야 한다. 이는 소위 에러 커렉트를 해야 한다고 한다. 테스트용으로, 인벌스 윌스 레이쇼. 에러 커렉션 모델도 이런 식이다. 
 

6절. 자료가 그룹화 되어 있는 경우 
- 그룹이 동별로 독립의 수가 각각 다를때, 동별 평균 소득이라고 할때, 화양동과 능동은 분산이 다르다.
- 실제 문제가 많이 되는 것은 사거리를 마주보고 있는 4개의 동(화양,능,군자,자양)이 있을때, 유동인구가 한쪽의 동으로 몰릴 수도 있다는 것이다. 

7절. 결측 - 일부측정치가 빠져있는 경우 
- 만들어 써야 할때 평균을 넣는다. 
- 시간 변수 활용이란, 있는 데이타에 대해 시간 변수를 추정한다. 에러가 상당히 크다. 
- 시간적으로 어떤 프로세스가 트렌드를 가지고 있으면 문제가 없는데, 결측지가 있는 경우가 많다. 
- 관심있는 독립변수가 종속변수가 되고, 종속변수를 뿌리는 t값을 만들어 낼 수 있는데 독립변수가 타임트렌드를 가지고 있는 경우는 거의 없다. 

최우법의 활용
- 추정, 계수를 이용해서 역으로 계산해 낸다. 식(9.68)
- 빅데이터 시대에 이렇게 까지 할 필요는 없다.
- 리그레션 후 역으로 X를 계산, out-of-sample : single X only: one unknown, one eqn.

8절. 횡단면과 시계열을 폴링하는 경우 
- 이분산형상만 있는 경우 : 이분산을 없앰. 
- 계열상관현상만 있는 경우 : 계열상관을 없앤다 
- 두현상이 혼재할 경우 

Polling
Independently pooled cross section: 통 상 두 세트 (before and after)
주택금융 수요조사, 계열 상관 없음(independent entity)
차우 test: 두 샘플이 서로 다르다고(불안정한 베타) 하면 풀링 못함. 독립변수와 종속 변수와의 관계 (즉 베타가 안정적) 이어야 함.
풀링 안되면 따로 돌려서 계수를 비교하거나, 풀링하되 나중 연도의 모든 변수에 연도 더미를 곱해서 모델링 하면 됨.
Y = a + b*X +c*yr + d*yr*X + e

강남임대료 오피스데이터와 판교 임대료 오피스데이터를 분석할때 
시간적으로 다른 경우, 장소적으로 다른 경우, 
e는 정규 분포이고 a,b와 c,d의 시스템이 결합 가능하면 Polled OLS를 할 수 있다. 

1. 결함된 자료 활용시 추정모형 (식 9.73)
- 더미가 N * T - 2개 
- 초기에는 사후테스트를 해서 

9절. 패널자료 활용
- 데이터는 많지 않은데 추정해야할 범위가 많으므로 오버핏이 되었고 이런 문제를 푸는 것이 패널 문제다. 

1.패널: 동일한 엔터티
FEM vs REM: Hauseman test ( 하우스만 테스트 -> 결과 모델이 complete하다는 것이 나와야 한다) 
영가설: 에러와 unobserved so omitted no correlation.

If yes, REM: 엔터티 상수 사용 가능

그 외는 FEM

음주운전에 교통 사고 사망에 미치는 영향, 엔터티 50개 주

Entity Fixed Effect: 주별 음주 운전에 대한 관대한 정도(unobserved), 음주에 대한 태도는 문화(culture)이므로 단기적으로 불변, 엔터티간 차이가 있으나, 시간에 대하여 불변

타임 fixed effect: 자동차 품질 향상, immeasurable, 엔터티(주별)간 차이는 없으나 시간적으로 가변

Example of a panel data set: Traffic deaths and alcohol taxes
Observational unit: a year in a U.S. state

  •  48 U.S. states, so n = # of entities = 48 ( 48개의 주, 패널형태 )

  • 7 years (1982,..., 1988), so T = # of time periods = 7

  • Balanced panel, so total # observations = 7x48 = 336

    Variables:

  •  Y: Traffic fatality rate (# traffic deaths in that state in that year, per 10,000 state residents)

  •  X: Tax on a case of beer

  •  Other (legal driving age, drunk driving laws, etc.)

횡단면 분석을 하면 일콜 세금이 높을 수록 사망률이 높다는 분석이 나온다.
FR1988년 - FR1982년- 사망사고 증가율로 만들어서 해볼 수 있다.
주세(알콜에대한세금)을 올리면 사망률은 줄어든다. 

엔터티 fixed event model 

The regression lines for each state in a picture


1. 고정효과 모형

실제 FEM 은 상수항의 계수를 보고 하지 않는다.

즉 펨을 사용하면 omitted variable이 초래하는 바이어스가 Difference regression 방식을 통해 사라지게 되어 기존의 베타가 잘 나온다는 의 미임. 즉 상수항을 보고 하지 않음. 따라서 거시 경제 변수와 같이 모 든 엔터티에 대하여 상수인 변수는 모델에 들어 가지 못함.

그리고 모든 패널은 계열 상관의 문제 있음 상수 넣고 싶으면 REM으로 가야한다.

2.확률효과모형 - 랜덤이펙트 모델 효과 

Yit = b0 + b1*X1it + Vit

Composite error term: 


따라서 b0 즉 상수항의 계수가 추정됨. ε은 본래 에러텀.

V가 알파i 로 인해, i 엔터티 입장에선 계열상관,

3. Sur 모형 
- 횡단면간 상관관계가 존재한다. (식 9.98) 상관관계를 만드는 조건이 생겼을 때 쓸 수 있다.

5. 확률적 계수모형 (random coefficient model)
- (식9.101)시간이 다를때 계열 상관은 없다. 
- Varience Vit 
Ui를 이용하여 베타 시뮬레이션 가능.
베타i and std 베타i 보고, 파라메트릭은 본인이 지정 (주로 정규) Random coefficient model.
Train p.141,
베타=개인의 taste, unobservable
- 하우스만테스트를 중심으로 할것. 

6. The Chow test
- 두데이타가 같은 모집단에서 나왔는지 아닌지를 테스트한다. 

F = [R2 / k ] / {(1-R2)/(n-k-1) }
F = [SSR/k] / {SSE/(n-k-1)} (
분모의 -1은 상수변수를 의미) SSE = (Y-Y hat)2

R squared = SSR / SST =( Y hat Y bar)2 / (Y Y bar)2 Sum of squared total, sum of squared regression

- 시간적으로 브레이크가 있는 경우 둘을 합치게 되면 잘못된 선이 나오고 맞지 않는 평균이 나오게 된다. 


식에서는 K만 잘 구하면 된다. 
- 콤보모델이 좋아졌는지 파악해야 한다. 
S1 = 441, S2= 4196, Sc(combo)는 5316이 나왔다. 커졌다 = 나빠졌다. 

Sc - (S1+S2)
---------------------
             k
----------------------
     S1 + S2
---------------
N_1 + N_2 - 2*k