Dr.부동산
[계량분석론] 0410 이분산, 계량더미와 로짓 본문
이분산
동분산 : 행렬에서 주대각이 같다. 계열상관이 없고 종분산
이분산 요인, 유형 -> 해결방안
이분산과 동분산 -> 권리금이 있는 시장과 없는 시장은 따로 분리해서 분석해야 한다. 동분산 가정을 했는데, 현실적으로는 그렇지 않을 경우가 발생한다.
예를들어 xi가 증가함에 따라 E(yi) = b1 + b2xi 로부터 멀리 벗어나게 될때, 모든 관찰값에 대해 분산이 동일하지 않는 경우 이분산이 존재한다고 본다. 즉, 확률변수 yi와 무작위오차 ei가 이분산적이라고 한다.
이분산이 존재할 경우 최소제곱에 관한 과정 중 하나가 위배된다.
그림 6-1 에서 이분산과 동분산의 차이를 확인할 수 있다. 그림 6-2에서 이분산의 유형의 경우 1. X가 커질수록 늘어나는 경우, 2. X가 커질수록 작아지는 것(ex.급매물, 탐색이 충분히 이루어질 경우 기대값이 올라가는 경우 변동성이 줄어든다.), 3. 중간으로 갈수록 변동성이 작은 경우, 4. 중간으로 갈수록 변동성이 큰 경우(ex.시간에 따른 매출의 사이클)의 4가지가 있다.
어떤 x인지 찾아내서, 변동성 자체는 표준편차 형태로 계산해 낼 수 있지만, 설명하려는 노력은 위험하다. 자체가 변동성이 아니라고 하는 경우도 있다. 변동성 자체를 논문으로 하는 것은 디펜스가 어렵다.
OLS 적용시 예상되는 문제점
- T테스트 표준편차 이용시 과소 추정되는 경우가 있다. 과소 추정되는 이유는 전체를 시그마 자승으로 뽑아내는 것이 이분산, 1보다 작은 경우 제곱할 수록 줄어들고, 1보다 크면 더 커진다. 평균을 집어 넣은거에 비해서 큰 값이 나온다. 제곱의 평균이 평균의 제곱보다 크다. 그래서 과소 추정된다.
이분산이 있다는 것이 밝혀졌을때 어떻게 풀 것인가?
WL -> 6.1식에서 푼다.
어떤 요인을 빼주는 직교회귀방식이 있었고, 로그를 빼는 계열상관도 있었다. 나누는 경우 없어지기는 하지만 y가 변동이 발생할 수 있다.
3절 판정방안
식6-5는 알츠갈츠에서 이야기하는 분산방정식과 비슷하다. 식6-6은 다중공선성과 똑 같은 경우다. X에 대한 판단, 알파처럼 추정이 되어야 한다. 평균 방정식의 잔차. 공분산이라고 가정을 한다음 잔차가 나오면 다시 푼다.
2.2 Glejser
식6-9. 동분산인지 이분산인지는 x와 전혀 상관 없다. 모두 0이 나오면 풀 수 없다.
식6-11. LM, R을 넣으면 x는 나온다.
HRSE를 활용. R을 쓰는 경우 명령을 따로 입력해야한다. SAS보다 손이 많이 간다.
Y헷= , Y 수학적으로 하나의 숫자지만, 그안에 x가 들어 있다는 것을 이해 해야 한다. e^-2 = 식
그 후에 F나 LM을 실시한다.
식6.23 결국 나누어주면 되는데, b나 y가 연구하는 것과 다른 경우가 문제다.
이분산성이 약할때, log를 쓰면 이분산성이 줄어든다.
Log 함수를 쓰려면 음수가 있으면 안된다. 클수록 변동폭이 줄어드는데, 헤도닉 모델에서 가격관련해서 많이 쓴다. 다만 베타가 로그가 있을 때와 없을때 성질이 달라진다. ex.가격 변화에 대한 주택 수요의 소득탄력성
346.
OLS보다 T가 더 커졌다. 표준편차는 0.069로 커야 하는데 줄어들었고, HRSE를 활용하게 되면 OLS 추정결과를 파악할 수 있다.
8절 요약
이분산이 있는데 없다고 가정한 이유는 손으로 계산해야 했기 때문. 표준편차가 줄어들어서 고려해서 추정하거나 제거해야 한다. 계수 추정에는 문제가 없고, BLUE 특성을 파악해야 한다. 화이트 검정을 많이 하고, 평균보다는 중위수를 많이 제공을 한다.
알츠갈츠는 리그레이션한다.
MLE 3대 테스트
- LR test : 최우추정법과 관련
- Wald test : ML추정량, Walt를 제공하라고 할때 로짓 쓸때, 요구하는 사람이 가끔있다.
- LM은 이분산이나 알츠갈츠에서 제공한다.
회귀모형의 제유형
- 계량모형은 크게 회귀와 시계열로 되어 있고, 합친 풀링도 있다.
- 토빗, 가산이외에, 제한 조건부(버냉키,노벨상 수상자 정도 쓴다)등도 있다.
- 시차 분포모형은 시계열이 발달하기 전에 사용
- 가변계수나 시변계수는 시계열로 간다. 계수가 변하려면 패널 이상의 구조가 있어야 한다. 기술, 시뮬레이션
- intervention analysis
더미변수트랩
- 더미는 2개만 만든다, 3개 만들면 다중공선성에 걸린다.
더미변수는 그림 10-4에서 잔차를 더하면 0이된다. 교사 임금의 변동성을 추정해 낼 수 있다.
리그레션 후 남은 잔차를 이용해서 추정한다. 그림 10-5
연속변수와 더미변수를 섞어서 사용할때 : 식10.14
불평등을 모델로 잡아 내기가 어렵다. 은행에서는 컴플라이언스만 하는 팀이 있다.
불평등하다고 규정한 것들과 아닌 것들 샘플이 30개가 나오면 분석이 가능하다.
그림10-7 차이, 차별. 절편과 기울기를 확인한다.
2절. 종속변수가 제한된 값만 취하는 경우
- 변량과 항을 구분해야 한다.
1. 초이스가 2가지가 있는 바니미널로짓, 이항로짓
2. 일변량인 프로빗. 에러텀이 하나.
3. 항이 여러항, 멀티노미날로짓, 3항이상인 경우.
4. 2항이면서 2변량인 경우 Probit w/ 샘플 셀력션 바이어스
5. 중첩에 대해서는 네스티드 로짓
프로빗과 토빗은 다르다. 토빗은 숫자, 기술추정을 할때 쓴다. 정규 분포를 쓰는 보통의 리그레이션인데 제한이 있다. 센서를 주로 시간에 쓴다. 토빗은 대부분 비율에 쓴다. LTV같은 경우 정부가 40%라고 제한을 하는 순간 제한을 넘을 수 없다. 트럼케이션이 발생하는데 정책에 의해서 수요가 보이지 않는다. 예를 들어 야구장 정원 2만명이 넘어서면 관측이 어렵다.
범주를 이야기할때, 범주는 3가지로 나뉜다. 1. 고정금리vs변동금리 등 결정을 하거나, 2. 소형, 중형, 대형 평형을 결정하거나, 3. 가산분포 아파트가 2년동안 몇번 팔렸는지 등 포아송을 쓴다. 자주팔리거나 안팔릴때 포아송 분포로 분석한다.
LPM 선형확률 모형
그림 10-9 선형을 하게 되면 확률이 0보다 작은쪽, 큰쪽으로 나뉘는데 제한이 없거나, 제한을 두는 경우가 있다. 토빗을 쓰게되면 0~1사이에 존재한다.
로짓을 쓰게 되면 0보다 크게 존재한다.
그림 10-12. 로짓과 프로빗. 프로빗은 작다. 프로빗은 독립변수가 5개 이상 못들어간다. 현대 아파트를 사는 사람과 안 사는 사람 둘만 보이는 경우이다. 1과 0밖에 없는데 그 사이 값이 뿌려진다. 현대 아파트에 산다와 살지 않는다(0과 1)를 선택할때 사람에 따라 50%이상 마음이 들때 살거나 70% 이상일때 살거나 각각 다르며, 선택이 되는(1) 때의 경가가 되는 값은 다르다.
식10.31, 32 확률이 있고, 세개의 Y를 잘 구분해야 한다. 모델링을 할때, 1보다 작은지 큰지 확인한다. 1이 들어가는 이유는 표준화이다.
식10.33~35 승산비, A라는 대안에 대해 B라는 대안을 얼만큼 되어야 선택을 할 것인지. 선형회귀로 설명을 해놨지만 풀기 애매해서 현실적으로는 MLE를 이용한다. Pi가 나온게 아니고 전체가 나온 것이고 Pi는 다시 계산한다. 승산비를 찾아내고 그것을 설명할 수 있으면 된다.
Discrete Choice
나중에 음수가 왜 나오는지 설명을 하기 위해. 식4.1
중요한 것은 어떤 A라는 대안이 B보다 좋은지 안좋은지 식 4.4 분배2에서 1을 빼면 로짓 분포. 두 분포의 차이이다. 뺀 것이 로짓이거나 프로빗이 된다. 성격에 따라 다르다. U1대안 > U2대안, 대안중에 하나만 추정한다.
교란항인 입실론1,2가 타입1극단치 분포를 가진다고 할때 (3)의 경우이다.
정규화 시켜서 대안이 0 exp의 0승은 1이 되므로 단순화 시켜준다. (5)
로지스틱은 대안이 3개, 일변량 비선형이기 때문에 마지널 이펙트. 계수만으로는 y를 설명하기 어렵다.
-> 도시의 주택자금 대출 상환방식에 선택에 따른 실증 연구 논문 (정의철) 표 1. 참고
음수의 경우 잘 못 사용할 가능성이 높다. 배수의 경우 쉽다. 0보다는 크게 만든 상태에서 1.2배, 0.8배 이런식으로 쓴다.
마지널 이펙트
X = 0.4 DTI 대출이 거절 될 확률. 공식에 집어 넣으면 0.0998.
프로빗을 굳이 써야할 이유는 없다. 시뮬레이션에서는 프로빗이 좋다. 계산하기 조금 어렵다.
Pr ( 흑인이라서 DTI 거절 당하는 확률 )
- 차이만큼, 실질적으로 15%만큼 차이가 있다.
이변량 프로빗. 초기에 어떤 선택을 하느냐 시간조건의 상태에 있는 경우. 이변량이고 2가지 선택.
확률까지 계산할 필요는 없고 계수만 선택. 계수가 의미가 없어지는가?
아까 방금 논문에서 -> 표2. 이원 프로빗 모형 = 바이노미널
어떤 지역과 연도가 다를때 그사이 상승률 확인. 원하는 것은 가구주 연령에 따른 만기일시 상환여부를 보려는 것인데 계수만으로는 불가능.
중첩로짓
- 네스티드로짓모형 그림 3. 모델을 추정하면, 레벨별로 무엇을 선택하는지 추정을 한다. 선형회귀 3쌍이 나온다. 세가지 회귀식을 다 고려해줘야 하는데 계수만으로는 불가능하고, 마지널 이펙트 까지 보여야 한다. 요즘 많이 하는 것이 중첩인데, 중첩이 할 수 있는 조건이 있다.
IIA가 중요한 문제, 대안이 많이 달라야 한다.(독립성). 다르다는 것이 검증이 되면, 로짓이나 프로빗을 쓰는데, 중첩은 독립성이 없는 경우도 있다. 카, 카풀 - 동질적인 경우가 있다. 이것이 깨지면 네스티드 로짓을 쓸 수 있다.
그림1. 선택, 소유, 전월세, 주택유형을 선택하는 부분은 중첩이 아니라 6가지 선택중 하나를 선택하는 멀티노미널이라고 본다. 모델링 자체가 선택을 타고 올라가는 경우가 아니기 때문이다. 다변량으로 할 수 없기 때문에..
- 중첩으로 하기 위해서는 동일한 항목에 대해 값을 가지고 있어야 한다. 주택에서 아파트와 단독 주택을 중첩으로 할까 했을때, 교통 수단은 비용이나 시간이 나오는데, 주택은 아파트는 둘 사이의 효용을 파악 할 수가 없다. (ex 20층 단독 주택)
- 표12. 한 사람에 대해 데이터가 3줄 들어가는것이 차이가 있다.
마지널 이펙트
- 계수보다 중요하다. 기계 학습 같은 경우에 반드시 해줘야 한다. 설명이 안되기 때문.
센서링과 트렁케이션
- 센서링은 모기지가 설정이 되어 t4로 가거나 t3로 갈때, 어떤 시점에 끊어야 하는데 (점선), 새로 들어온 것들은 안들어 온다. 관측을 끊어야 한다. 이 점선이 센서링이다. 트렁케이션은 규모나 정책제안 때문에 생긴 것이다. 섞어 쓰기 때문에 조심해야 한다. 규모제한인지 시간제한인지 정확하게 본인이 구분해줘야 디펜스가 가능하다. 파업기간은 센서링이 적당하고, 극장 관객수는 트렁케이션이 적당하다. 트렁케이션 관련해서는 토빗 모델.
기하시차분포모형
- 지금은 잘 쓰지 않는다. 식10.82 과거에 시계열에 영향을 받는다. 추정해야 할 계수b1가 무한대가 될 때 wi로 변화시킨다. 식10.84의 경우 모델 아이디어를 디케이를 시킨다. 람다로 변환한다.
- 식10.87에서 등비급수 식을 풀어서 리커버리.
전환회귀모형
- t*를 알수도 모를 수도 있다. 오일쇼크에서 관측 흐름이 완전히 달라졌을때, 관측 순간에 따라 10.101~103으로 다르게 나올 수 있다. 패널인데 구분을 해준 것이다. 이것을 모를 때는 하나씩 넣어가면서 추정을 해서 R제곱을 비교한다. 3부터 n-3까지 바꿔가면서 극대화 시키는 t*를 찾아내는 것이다.
- 인디케이션 펑션, 모델이 달라진다. 스위치가 필요. 레짐 스위치 모형
Intervention (개입분석) & TAR
- 개입분석 : 주택가격을 규제 수준을 추정
- TAR : 모델이 레짐별로 다르다. R(1,2) x [ D1f1 + D2f2 ]
'부동산금융투자 > 부동산계량분석론' 카테고리의 다른 글
[계량분석론] 0501 제9장 Omitted variable & 패널 분석 (0) | 2019.05.01 |
---|---|
[계량분석론] 0417 설정오류, 자료의 제유형 (0) | 2019.04.17 |
[계량분석론] 0324 예습복습 - 계량경제학이란? (0) | 2019.03.24 |
[ UTSA 학과장 강의 ] 서브프라임 모기지 (0) | 2019.01.25 |
13주차 - 가설검정, 예측 (0) | 2018.11.28 |