선형 회귀분석 구현(Sklearn,Numpy) (2)
요구사항
(1) 전처리와 시각화”의 데이터로 선형회귀에 필요한 EDA 및 전처리 및 인코딩
범주형 변수 인코딩 3개 이상, EDA 3개 이상
1주차 과제 적극적으로 활용 가능 및 자신이 만든 Feature 역시 사용 가능
(2) 그 데이터를 다양한 방식으로 선형회귀분석 하기
(3) 데이터의 행렬을 통해 구하여 위의 값과 비교
Sklearn 없이 행렬 연산으로만 구하시오
우수과제 선정 이유
다양한 insight을 통해 인코딩을 진행하셨다는 점과 3주차에 배울(배운) clustering을 통해 인코딩을 하는 작업 역시 창의적이라는 점과 강의시간에 다루지 않은 PC Regression을 통해 다중공선성을 해결하셨다는 점과 같이 다양한 시도를 하였다는 점에서 선정하게 되었습니다.
Auction_key : 경매 아파트 고유 키값
Auction_class : 강제경매, 임의경매
강제경매 : 법원에 소송을 제기하여 판결을 얻은 후 집행권원에 따라 경매진행
임의경매 : 등기부등본 담보권(저당권, 가압류 등)으로 경매 진행
Bid_class : 입찰구분(일반, 개별, 일괄)
Claim_price : 경매 신청인의 청구 금액
Appraisal_company : 감정사
Appraisal_date : 감정일자
Auction_count : 총경매횟수
Auction_miscarriage_count : 총유찰횟수
Total_land_gross_area : 총토지전체면적
Total_land_real_area : 총토지실면적
Total_land_auction_area : 총토지경매면적
Total_building_area : 총건물면적
Total_building_auction_area : 총건물경매면적
Minimum_appraisal_price : 총감정가
Minimum_sales_price : 입찰 시 입찰인이 최저로 제시해야만 하는 금액
First_auction_date : 최초경매일
Final_auction_date : 최종경매일
Final_result : 최종결과
Creditor : 채권자, 경매 신청인
addr_do : 주소_시도
addr_si : 주소_시군구
addr_dong : 주소_읍면동
addr_li : 주소_리
addr_san : 주소_산번지 여부
addr_bunji1 : 도로명주소_번지1
addr_bunji2 : 도로명주소_번지2
addr_etc : 주소_기타주소
Apartment_usage : 건물(토지)의 대표 용도
Completion_date : 준공일
Preserve_regist_date : 보존등기일, 건물을 신축하고 처음으로 등기
Total_floor : 총층수
Current_floor : 현재층수
Specific : 기타_특이사항
Share_auction_YorN : 지분경매 여부
하나의 부동산이 전체가 아닌 일부만 경매가 진행 (하나의 부동산의 공유자가 지분으로 소유권을 가지고 있을 때 그중 일부 지분만 경매가 진행)
road_name : 도로명주소_도로명
road_bunji1 : 도로명주소_번지1
road_bunji2 : 도로명주소_번지2
Close_date : 종국일자
Close_result : 종국결과
낙찰과 배당의 차이 : 경매 진행은 ①경매진행(낙찰) ▷ ②낙찰허가결정 ▷ ③대금납부 ▷ ④배당 후 종결 로 이뤄집니다. 낙찰자가 최고가로 입찰(①)해서 낙찰허가(②)를 받으면 대금납부기한 낙찰금을 입금(③)합니다. 법원은 납부된 낙찰금을 가지고 채권자에게 순위에 의한 배당(④)을 해주고 경매는 종결됩니다.
point.y : 위도
point.x : 경도
Hammer_price : 낙찰가
Load Data¶
Auction_key
Auction_class
Bid_class
Claim_price
Appraisal_company
Appraisal_date
Auction_count
Auction_miscarriage_count
Total_land_gross_area
Total_land_real_area
...
Specific
Share_auction_YorN
road_name
road_bunji1
road_bunji2
Close_date
Close_result
point.y
point.x
Hammer_price
0
2687
임의
개별
1766037301
정명감정
2017-07-26 00:00:00
2
1
12592.0
37.35
...
NaN
N
해운대해변로
30.0
NaN
2018-06-14 00:00:00
배당
35.162717
129.137048
760000000
1
2577
임의
일반
152946867
희감정
2016-09-12 00:00:00
2
1
42478.1
18.76
...
NaN
N
마린시티2로
33.0
NaN
2017-03-30 00:00:00
배당
35.156633
129.145068
971889999
2
2197
임의
개별
11326510
혜림감정
2016-11-22 00:00:00
3
2
149683.1
71.00
...
NaN
N
모라로110번길
88.0
NaN
2017-12-13 00:00:00
배당
35.184601
128.996765
93399999
3
2642
임의
일반
183581724
신라감정
2016-12-13 00:00:00
2
1
24405.0
32.98
...
NaN
N
황령대로319번가길
110.0
NaN
2017-12-27 00:00:00
배당
35.154180
129.089081
256899000
4
1958
강제
일반
45887671
나라감정
2016-03-07 00:00:00
2
1
774.0
45.18
...
NaN
N
오작로
51.0
NaN
2016-10-04 00:00:00
배당
35.099630
128.998874
158660000
Auction_key
Claim_price
Auction_count
Auction_miscarriage_count
Total_land_gross_area
Total_land_real_area
Total_land_auction_area
Total_building_area
Total_building_auction_area
Total_appraisal_price
Minimum_sales_price
addr_bunji1
addr_bunji2
Total_floor
Current_floor
road_bunji1
road_bunji2
point.y
point.x
Hammer_price
count
1933.000000
1.933000e+03
1933.000000
1933.000000
1.933000e+03
1933.000000
1933.000000
1933.000000
1933.000000
1.933000e+03
1.933000e+03
1929.000000
889.000000
1933.000000
1933.000000
1909.000000
155.000000
1933.000000
1933.000000
1.933000e+03
mean
1380.271081
3.703908e+08
1.836006
0.788412
3.458714e+04
42.333802
41.310776
96.417693
94.148810
4.973592e+08
4.155955e+08
601.952307
22.742407
16.980859
8.817900
127.441069
12.748387
36.698018
127.731667
4.726901e+08
std
801.670470
1.337869e+09
0.938319
0.831715
9.442101e+04
65.274404
65.385900
106.323240
106.845985
7.873851e+08
5.030312e+08
554.119824
67.000807
9.509021
8.044644
188.394217
10.735663
1.150269
0.993055
5.574493e+08
min
1.000000
0.000000e+00
1.000000
0.000000
0.000000e+00
0.000000
0.000000
9.390000
1.500000
4.285000e+06
4.285000e+06
1.000000
1.000000
3.000000
0.000000
1.000000
1.000000
35.051385
126.809393
6.303000e+06
25%
691.000000
7.746112e+07
1.000000
0.000000
2.997000e+03
25.870000
24.570000
61.520000
59.970000
2.090000e+08
1.750000e+08
189.000000
1.000000
12.000000
3.000000
24.000000
5.000000
35.188590
126.959167
1.975550e+08
50%
1395.000000
1.728143e+08
2.000000
1.000000
1.424140e+04
37.510000
36.790000
84.900000
84.860000
3.600000e+08
3.120000e+08
482.000000
5.000000
15.000000
7.000000
57.000000
9.000000
37.500862
127.065003
3.544500e+08
75%
2062.000000
3.565089e+08
2.000000
1.000000
4.140310e+04
51.790000
51.320000
114.940000
114.850000
5.720000e+08
4.864000e+08
834.000000
18.000000
21.000000
12.000000
145.000000
17.500000
37.566116
129.018054
5.599000e+08
max
2762.000000
2.286481e+10
13.000000
9.000000
3.511936e+06
2665.840000
2665.840000
4255.070000
4255.070000
2.777500e+10
1.422080e+10
4937.000000
1414.000000
80.000000
65.000000
1716.000000
55.000000
37.685575
129.255872
1.515100e+10
Encoding¶
1. 날짜와 관련된 데이터 처리
2. 나머지 object 타입의 변수 encoding¶
Train Test Split
3. Creditor (경매신청인) 정보 활용하기 -> DTM matrix, Tfidf matrix¶
Creditor
Label
1925
히어로비케이대부
0
944
비엔케이캐피탈
0
993
베리타스에프앤아이
0
232
신괴정새
0
839
주선진
0
1852
지비자산관리
0
1148
대백저축은행
0
1485
오에스비저축은행
0
369
대경철강
0
1931
기타
1
1456
기타
1
872
기타
1
1706
기타
1
282
기타
1
1698
기타
1
642
기타
1
1145
기타
1
1512
기타
1
1633
기타
1
824
기타
1
909
기타
1
1202
기타
1
1420
기타
1
1782
기타
1
809
기타
1
265
국민은행
2
1494
국민은행
2
898
국민은행
2
937
국민은행
2
833
국민은행
2
1494
국민은행
2
1716
국민은행
2
972
국민은행
2
1380
국민은행
2
1692
남동농협
3
1790
농협양곡
3
447
의령농협
3
1090
영등포농협
3
104
우리은행
4
1540
우리은행
4
1338
서울보증보험
5
996
신한은행
6
856
신한은행
6
1845
하나은행
7
218
하나은행
7
1866
중소기업은행
8
1646
중소기업은행
8
1318
중소기업은행
8
1513
한국주택금융공사
9
203
부산은행
10
4. Highly Correlated Features -> PCA¶
Feature Selection (VIF)¶
Auction_class
Claim_price
Auction_count
Auction_miscarriage_count
Total_land_gross_area
addr_li
addr_san
Apartment_usage
Total_floor
Current_floor
...
Creditor_1
Creditor_2
Creditor_3
Creditor_4
Creditor_5
Creditor_6
Creditor_7
Creditor_8
Creditor_9
Area_pca
178
1
1001178995
2
1
29642.8
0
0
0
47
40
...
0
0
1
0
0
0
0
0
0
5.030592e+07
764
1
705760169
1
0
163197.4
0
0
1
5
4
...
0
0
0
1
0
0
0
0
0
6.803967e+08
651
1
179060610
1
0
28347.0
0
0
1
21
11
...
0
0
0
0
0
0
0
0
0
-3.085755e+08
1183
1
0
2
1
27318.1
0
0
1
15
9
...
1
0
0
0
0
0
0
0
0
-2.197963e+06
513
1
60479094
1
0
3071.7
0
0
1
15
14
...
0
0
0
0
0
0
0
0
0
-3.859489e+08
71
1
650000000
1
0
9951.0
0
0
0
33
27
...
1
0
0
0
0
0
0
0
0
-8.911654e+07
581
1
142723400
1
0
5169.9
0
0
1
16
7
...
0
0
0
0
0
0
0
0
0
-3.972032e+08
704
1
242593966
1
0
50993.7
0
0
1
15
7
...
1
0
0
0
0
0
0
0
0
-4.888787e+05
1047
1
246892870
2
1
905.5
0
0
1
6
3
...
0
0
0
0
0
0
0
0
0
6.713884e+08
483
1
98612480
2
1
139.4
0
0
1
6
6
...
0
0
0
0
0
0
0
0
0
-4.696106e+08
759
1
138448450
1
0
4903.0
0
0
1
5
3
...
0
0
0
0
0
0
0
0
0
-3.381181e+08
1031
1
87117325
2
1
6648.4
0
0
1
18
7
...
0
1
0
0
0
0
0
0
0
-2.012612e+07
456
1
90000000
1
0
10257.0
1
0
1
20
4
...
0
0
0
0
0
0
0
0
0
-4.830173e+08
68
0
97854794
1
0
1141.1
0
0
0
20
7
...
1
0
0
0
0
0
0
0
0
-3.395249e+08
773
1
33117698
1
0
4974.1
0
0
1
20
11
...
1
0
0
0
0
0
0
0
0
-1.270998e+08
1688
0
51065753
1
0
81133.2
0
0
1
15
2
...
1
0
0
0
0
0
0
0
0
-3.029484e+08
231
1
71618685
1
0
55124.6
0
0
1
15
2
...
0
0
0
0
0
0
1
0
0
1.556646e+08
1442
0
102700000
2
1
14283.4
0
0
1
14
8
...
0
0
0
0
0
0
0
0
0
1.350097e+09
1498
1
369414746
1
0
66508.5
0
0
1
25
23
...
1
0
0
0
0
0
0
0
0
1.401900e+08
432
0
64746526
1
0
48890.0
0
0
1
15
6
...
0
0
0
0
0
0
0
0
0
-3.901692e+08
667
1
128600645
1
0
26780.0
0
0
1
25
8
...
0
0
0
0
0
0
0
0
0
-3.803217e+08
731
0
36500000
4
3
0.0
0
0
1
7
3
...
1
0
0
0
0
0
0
0
0
-3.783943e+08
1340
1
845000000
1
0
37361.7
0
0
1
10
3
...
1
0
0
0
0
0
0
0
0
5.200228e+08
1687
1
201912410
1
0
20088.4
0
0
1
15
3
...
0
0
0
0
0
0
0
0
0
-2.115071e+08
688
0
46032191
1
0
29642.8
0
0
1
48
41
...
1
0
0
0
0
0
0
0
0
9.939309e+07
354
1
80289349
2
1
46920.1
0
0
1
15
12
...
0
0
0
0
0
0
0
0
0
-4.990639e+08
567
0
15772930
2
1
8057.0
0
0
1
23
14
...
0
0
0
0
0
0
0
0
0
-4.299125e+08
1049
0
35280821
1
0
102425.2
0
0
1
15
10
...
1
0
0
0
0
0
0
0
0
-4.337797e+08
896
1
25637292
5
3
588.1
0
0
1
7
1
...
0
0
1
0
0
0
0
0
0
-5.025638e+08
1302
0
700000000
2
1
41426.2
0
0
1
21
6
...
0
0
0
0
0
0
0
1
0
3.192282e+08
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
72
0
100000000
1
0
57269.5
1
0
1
20
17
...
1
0
0
0
0
0
0
0
0
-1.875917e+08
845
1
35639302
2
1
536.0
0
0
0
7
3
...
0
1
0
0
0
0
0
0
0
-2.634368e+08
537
0
29981811
2
1
500.2
0
0
0
11
10
...
0
0
0
0
1
0
0
0
0
-3.556387e+08
1702
1
261165566
1
0
22076.7
0
0
1
12
5
...
0
0
0
0
0
1
0
0
0
1.160111e+09
849
0
3178437438
2
1
4847.0
0
0
0
49
15
...
0
0
0
0
0
0
0
0
0
4.793010e+08
1625
1
1900000000
2
1
7525.5
0
0
1
25
18
...
0
0
0
0
0
0
0
1
0
3.168524e+09
174
1
216000000
2
1
72380.5
0
0
1
20
3
...
0
0
0
0
0
0
0
0
0
-3.492358e+08
87
1
109694909
2
1
4960.5
0
0
0
19
19
...
0
0
1
0
0
0
0
0
0
-4.491212e+08
551
0
42013900
2
1
21631.5
0
0
1
13
10
...
1
0
0
0
0
0
0
0
0
-3.914950e+08
1510
1
282533495
2
1
928.3
0
0
1
7
2
...
0
0
0
0
0
0
0
0
0
-1.379397e+08
705
1
486362278
2
1
8235.0
0
0
1
18
14
...
0
0
0
0
0
0
0
0
0
2.085252e+07
314
1
127024674
1
0
37233.6
0
0
1
21
21
...
0
0
0
1
0
0
0
0
0
-1.735238e+08
1420
1
83500000
2
1
7175.1
0
0
1
15
1
...
1
0
0
0
0
0
0
0
0
-2.506310e+08
600
1
65000000
2
1
800.0
0
0
0
7
2
...
1
0
0
0
0
0
0
0
0
-4.401572e+08
1496
1
3020000000
1
0
119545.3
0
0
1
14
2
...
0
0
0
0
0
0
0
0
0
3.305464e+09
1094
1
262844594
2
1
8763.3
0
0
1
12
1
...
0
0
1
0
0
0
0
0
0
-1.994077e+08
599
1
265003365
2
1
14241.4
0
0
0
47
40
...
0
0
1
0
0
0
0
0
0
-6.494650e+07
1829
1
689064158
2
1
23235.7
0
0
1
36
14
...
0
0
0
1
0
0
0
0
0
1.529379e+09
1779
1
115000000
2
1
5745.7
0
0
0
24
11
...
0
0
0
0
0
0
0
0
0
2.103787e+08
277
1
99943873
2
1
4946.0
0
0
1
12
4
...
0
0
1
0
0
0
0
0
0
-4.580853e+08
1748
1
700000000
3
2
1235.1
0
0
1
6
3
...
0
0
0
0
0
1
0
0
0
6.971527e+08
1033
1
300000000
2
1
68661.3
0
0
1
24
4
...
0
0
0
0
0
0
0
1
0
3.768544e+08
1383
1
700000000
2
1
6382.2
0
0
1
16
0
...
1
0
0
0
0
0
0
0
0
1.286068e+09
1732
1
426000000
10
6
193417.3
0
0
1
18
5
...
1
0
0
0
0
0
0
0
0
3.003790e+07
763
1
309619417
1
0
21030.0
0
0
1
15
13
...
0
1
0
0
0
0
0
0
0
4.215476e+08
835
1
300000000
1
0
144012.4
0
0
1
9
8
...
0
0
0
0
0
0
0
0
0
1.378164e+09
1216
1
249802599
1
0
675.0
0
0
1
7
3
...
0
0
0
0
0
0
0
0
0
-2.159070e+07
1654
1
27713779
1
0
3176.2
0
0
1
15
8
...
0
0
0
1
0
0
0
0
0
-1.341338e+08
559
1
49601851
2
1
21093.2
0
0
1
15
9
...
0
0
0
0
0
0
0
0
0
-5.328713e+08
684
1
45896927
1
0
2628.1
0
0
1
4
2
...
0
0
0
0
0
0
0
0
0
-5.463228e+08
VIF Factor
features
21
992.723922
addr_do_서울
13
552.528540
point.y
14
164.366983
point.x
3
19.264761
Auction_miscarriage_count
2
19.209300
Auction_count
23
9.465712
Creditor_0
24
8.077139
Creditor_1
25
3.061078
Creditor_2
31
2.985472
Creditor_8
27
2.803663
Creditor_4
Estimate¶
1. 행렬 통해 회귀계수 추정¶
2. sklearn 이용¶
3. 1번, 2번 비교¶
Out[52]:
Last updated