선형 회귀분석 구현(Sklearn,Numpy) (2)
요구사항
(1) 전처리와 시각화”의 데이터로 선형회귀에 필요한 EDA 및 전처리 및 인코딩
범주형 변수 인코딩 3개 이상, EDA 3개 이상
1주차 과제 적극적으로 활용 가능 및 자신이 만든 Feature 역시 사용 가능
(2) 그 데이터를 다양한 방식으로 선형회귀분석 하기
(3) 데이터의 행렬을 통해 구하여 위의 값과 비교
Sklearn 없이 행렬 연산으로만 구하시오
Auction_key : 경매 아파트 고유 키값
Auction_class : 강제경매, 임의경매
강제경매 : 법원에 소송을 제기하여 판결을 얻은 후 집행권원에 따라 경매진행
임의경매 : 등기부등본 담보권(저당권, 가압류 등)으로 경매 진행
Bid_class : 입찰구분(일반, 개별, 일괄)
Claim_price : 경매 신청인의 청구 금액
Appraisal_company : 감정사
Appraisal_date : 감정일자
Auction_count : 총경매횟수
Auction_miscarriage_count : 총유찰횟수
Total_land_gross_area : 총토지전체면적
Total_land_real_area : 총토지실면적
Total_land_auction_area : 총토지경매면적
Total_building_area : 총건물면적
Total_building_auction_area : 총건물경매면적
Minimum_appraisal_price : 총감정가
Minimum_sales_price : 입찰 시 입찰인이 최저로 제시해야만 하는 금액
First_auction_date : 최초경매일
Final_auction_date : 최종경매일
Final_result : 최종결과
Creditor : 채권자, 경매 신청인
addr_do : 주소_시도
addr_si : 주소_시군구
addr_dong : 주소_읍면동
addr_li : 주소_리
addr_san : 주소_산번지 여부
addr_bunji1 : 도로명주소_번지1
addr_bunji2 : 도로명주소_번지2
addr_etc : 주소_기타주소
Apartment_usage : 건물(토지)의 대표 용도
Completion_date : 준공일
Preserve_regist_date : 보존등기일, 건물을 신축하고 처음으로 등기
Total_floor : 총층수
Current_floor : 현재층수
Specific : 기타_특이사항
Share_auction_YorN : 지분경매 여부
하나의 부동산이 전체가 아닌 일부만 경매가 진행 (하나의 부동산의 공유자가 지분으로 소유권을 가지고 있을 때 그중 일부 지분만 경매가 진행)
road_name : 도로명주소_도로명
road_bunji1 : 도로명주소_번지1
road_bunji2 : 도로명주소_번지2
Close_date : 종국일자
Close_result : 종국결과
낙찰과 배당의 차이 : 경매 진행은 ①경매진행(낙찰) ▷ ②낙찰허가결정 ▷ ③대금납부 ▷ ④배당 후 종결 로 이뤄집니다. 낙찰자가 최고가로 입찰(①)해서 낙찰허가(②)를 받으면 대금납부기한 낙찰금을 입금(③)합니다. 법원은 납부된 낙찰금을 가지고 채권자에게 순위에 의한 배당(④)을 해주고 경매는 종결됩니다.
point.y : 위도
point.x : 경도
Hammer_price : 낙찰가
Load Data¶
Auction_key
Auction_class
Bid_class
Claim_price
Appraisal_company
Appraisal_date
Auction_count
Auction_miscarriage_count
Total_land_gross_area
Total_land_real_area
...
Specific
Share_auction_YorN
road_name
road_bunji1
road_bunji2
Close_date
Close_result
point.y
point.x
Hammer_price
0
2687
임의
개별
1766037301
정명감정
2017-07-26 00:00:00
2
1
12592.0
37.35
...
NaN
N
해운대해변로
30.0
NaN
2018-06-14 00:00:00
배당
35.162717
129.137048
760000000
1
2577
임의
일반
152946867
희감정
2016-09-12 00:00:00
2
1
42478.1
18.76
...
NaN
N
마린시티2로
33.0
NaN
2017-03-30 00:00:00
배당
35.156633
129.145068
971889999
2
2197
임의
개별
11326510
혜림감정
2016-11-22 00:00:00
3
2
149683.1
71.00
...
NaN
N
모라로110번길
88.0
NaN
2017-12-13 00:00:00
배당
35.184601
128.996765
93399999
3
2642
임의
일반
183581724
신라감정
2016-12-13 00:00:00
2
1
24405.0
32.98
...
NaN
N
황령대로319번가길
110.0
NaN
2017-12-27 00:00:00
배당
35.154180
129.089081
256899000
4
1958
강제
일반
45887671
나라감정
2016-03-07 00:00:00
2
1
774.0
45.18
...
NaN
N
오작로
51.0
NaN
2016-10-04 00:00:00
배당
35.099630
128.998874
158660000
Auction_key
Claim_price
Auction_count
Auction_miscarriage_count
Total_land_gross_area
Total_land_real_area
Total_land_auction_area
Total_building_area
Total_building_auction_area
Total_appraisal_price
Minimum_sales_price
addr_bunji1
addr_bunji2
Total_floor
Current_floor
road_bunji1
road_bunji2
point.y
point.x
Hammer_price
count
1933.000000
1.933000e+03
1933.000000
1933.000000
1.933000e+03
1933.000000
1933.000000
1933.000000
1933.000000
1.933000e+03
1.933000e+03
1929.000000
889.000000
1933.000000
1933.000000
1909.000000
155.000000
1933.000000
1933.000000
1.933000e+03
mean
1380.271081
3.703908e+08
1.836006
0.788412
3.458714e+04
42.333802
41.310776
96.417693
94.148810
4.973592e+08
4.155955e+08
601.952307
22.742407
16.980859
8.817900
127.441069
12.748387
36.698018
127.731667
4.726901e+08
std
801.670470
1.337869e+09
0.938319
0.831715
9.442101e+04
65.274404
65.385900
106.323240
106.845985
7.873851e+08
5.030312e+08
554.119824
67.000807
9.509021
8.044644
188.394217
10.735663
1.150269
0.993055
5.574493e+08
min
1.000000
0.000000e+00
1.000000
0.000000
0.000000e+00
0.000000
0.000000
9.390000
1.500000
4.285000e+06
4.285000e+06
1.000000
1.000000
3.000000
0.000000
1.000000
1.000000
35.051385
126.809393
6.303000e+06
25%
691.000000
7.746112e+07
1.000000
0.000000
2.997000e+03
25.870000
24.570000
61.520000
59.970000
2.090000e+08
1.750000e+08
189.000000
1.000000
12.000000
3.000000
24.000000
5.000000
35.188590
126.959167
1.975550e+08
50%
1395.000000
1.728143e+08
2.000000
1.000000
1.424140e+04
37.510000
36.790000
84.900000
84.860000
3.600000e+08
3.120000e+08
482.000000
5.000000
15.000000
7.000000
57.000000
9.000000
37.500862
127.065003
3.544500e+08
75%
2062.000000
3.565089e+08
2.000000
1.000000
4.140310e+04
51.790000
51.320000
114.940000
114.850000
5.720000e+08
4.864000e+08
834.000000
18.000000
21.000000
12.000000
145.000000
17.500000
37.566116
129.018054
5.599000e+08
max
2762.000000
2.286481e+10
13.000000
9.000000
3.511936e+06
2665.840000
2665.840000
4255.070000
4255.070000
2.777500e+10
1.422080e+10
4937.000000
1414.000000
80.000000
65.000000
1716.000000
55.000000
37.685575
129.255872
1.515100e+10
Encoding¶
1. 날짜와 관련된 데이터 처리
2. 나머지 object 타입의 변수 encoding¶
Train Test Split
3. Creditor (경매신청인) 정보 활용하기 -> DTM matrix, Tfidf matrix¶
Creditor
Label
1925
히어로비케이대부
0
944
비엔케이캐피탈
0
993
베리타스에프앤아이
0
232
신괴정새
0
839
주선진
0
1852
지비자산관리
0
1148
대백저축은행
0
1485
오에스비저축은행
0
369
대경철강
0
1931
기타
1
1456
기타
1
872
기타
1
1706
기타
1
282
기타
1
1698
기타
1
642
기타
1
1145
기타
1
1512
기타
1
1633
기타
1
824
기타
1
909
기타
1
1202
기타
1
1420
기타
1
1782
기타
1
809
기타
1
265
국민은행
2
1494
국민은행
2
898
국민은행
2
937
국민은행
2
833
국민은행
2
1494
국민은행
2
1716
국민은행
2
972
국민은행
2
1380
국민은행
2
1692
남동농협
3
1790
농협양곡
3
447
의령농협
3
1090
영등포농협
3
104
우리은행
4
1540
우리은행
4
1338
서울보증보험
5
996
신한은행
6
856
신한은행
6
1845
하나은행
7
218
하나은행
7
1866
중소기업은행
8
1646
중소기업은행
8
1318
중소기업은행
8
1513
한국주택금융공사
9
203
부산은행
10
4. Highly Correlated Features -> PCA¶
Feature Selection (VIF)¶
Auction_class
Claim_price
Auction_count
Auction_miscarriage_count
Total_land_gross_area
addr_li
addr_san
Apartment_usage
Total_floor
Current_floor
...
Creditor_1
Creditor_2
Creditor_3
Creditor_4
Creditor_5
Creditor_6
Creditor_7
Creditor_8
Creditor_9
Area_pca
178
1
1001178995
2
1
29642.8
0
0
0
47
40
...
0
0
1
0
0
0
0
0
0
5.030592e+07
764
1
705760169
1
0
163197.4
0
0
1
5
4
...
0
0
0
1
0
0
0
0
0
6.803967e+08
651
1
179060610
1
0
28347.0
0
0
1
21
11
...
0
0
0
0
0
0
0
0
0
-3.085755e+08
1183
1
0
2
1
27318.1
0
0
1
15
9
...
1
0
0
0
0
0
0
0
0
-2.197963e+06
513
1
60479094
1
0
3071.7
0
0
1
15
14
...
0
0
0
0
0
0
0
0
0
-3.859489e+08
71
1
650000000
1
0
9951.0
0
0
0
33
27
...
1
0
0
0
0
0
0
0
0
-8.911654e+07
581
1
142723400
1
0
5169.9
0
0
1
16
7
...
0
0
0
0
0
0
0
0
0
-3.972032e+08
704
1
242593966
1
0
50993.7
0
0
1
15
7
...
1
0
0
0
0
0
0
0
0
-4.888787e+05
1047
1
246892870
2
1
905.5
0
0
1
6
3
...
0
0
0
0
0
0
0
0
0
6.713884e+08
483
1
98612480
2
1
139.4
0
0
1
6
6
...
0
0
0
0
0
0
0
0
0
-4.696106e+08
759
1
138448450
1
0
4903.0
0
0
1
5
3
...
0
0
0
0
0
0
0
0
0
-3.381181e+08
1031
1
87117325
2
1
6648.4
0
0
1
18
7
...
0
1
0
0
0
0
0
0
0
-2.012612e+07
456
1
90000000
1
0
10257.0
1
0
1
20
4
...
0
0
0
0
0
0
0
0
0
-4.830173e+08
68
0
97854794
1
0
1141.1
0
0
0
20
7
...
1
0
0
0
0
0
0
0
0
-3.395249e+08
773
1
33117698
1
0
4974.1
0
0
1
20
11
...
1
0
0
0
0
0
0
0
0
-1.270998e+08
1688
0
51065753
1
0
81133.2
0
0
1
15
2
...
1
0
0
0
0
0
0
0
0
-3.029484e+08
231
1
71618685
1
0
55124.6
0
0
1
15
2
...
0
0
0
0
0
0
1
0
0
1.556646e+08
1442
0
102700000
2
1
14283.4
0
0
1
14
8
...
0
0
0
0
0
0
0
0
0
1.350097e+09
1498
1
369414746
1
0
66508.5
0
0
1
25
23
...
1
0
0
0
0
0
0
0
0
1.401900e+08
432
0
64746526
1
0
48890.0
0
0
1
15
6
...
0
0
0
0
0
0
0
0
0
-3.901692e+08
667
1
128600645
1
0
26780.0
0
0
1
25
8
...
0
0
0
0
0
0
0
0
0
-3.803217e+08
731
0
36500000
4
3
0.0
0
0
1
7
3
...
1
0
0
0
0
0
0
0
0
-3.783943e+08
1340
1
845000000
1
0
37361.7
0
0
1
10
3
...
1
0
0
0
0
0
0
0
0
5.200228e+08
1687
1
201912410
1
0
20088.4
0
0
1
15
3
...
0
0
0
0
0
0
0
0
0
-2.115071e+08
688
0
46032191
1
0
29642.8
0
0
1
48
41
...
1
0
0
0
0
0
0
0
0
9.939309e+07
354
1
80289349
2
1
46920.1
0
0
1
15
12
...
0
0
0
0
0
0
0
0
0
-4.990639e+08
567
0
15772930
2
1
8057.0
0
0
1
23
14
...
0
0
0
0
0
0
0
0
0
-4.299125e+08
1049
0
35280821
1
0
102425.2
0
0
1
15
10
...
1
0
0
0
0
0
0
0
0
-4.337797e+08
896
1
25637292
5
3
588.1
0
0
1
7
1
...
0
0
1
0
0
0
0
0
0
-5.025638e+08
1302
0
700000000
2
1
41426.2
0
0
1
21
6
...
0
0
0
0
0
0
0
1
0
3.192282e+08
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
72
0
100000000
1
0
57269.5
1
0
1
20
17
...
1
0
0
0
0
0
0
0
0
-1.875917e+08
845
1
35639302
2
1
536.0
0
0
0
7
3
...
0
1
0
0
0
0
0
0
0
-2.634368e+08
537
0
29981811
2
1
500.2
0
0
0
11
10
...
0
0
0
0
1
0
0
0
0
-3.556387e+08
1702
1
261165566
1
0
22076.7
0
0
1
12
5
...
0
0
0
0
0
1
0
0
0
1.160111e+09
849
0
3178437438
2
1
4847.0
0
0
0
49
15
...
0
0
0
0
0
0
0
0
0
4.793010e+08
1625
1
1900000000
2
1
7525.5
0
0
1
25
18
...
0
0
0
0
0
0
0
1
0
3.168524e+09
174
1
216000000
2
1
72380.5
0
0
1
20
3
...
0
0
0
0
0
0
0
0
0
-3.492358e+08
87
1
109694909
2
1
4960.5
0
0
0
19
19
...
0
0
1
0
0
0
0
0
0
-4.491212e+08
551
0
42013900
2
1
21631.5
0
0
1
13
10
...
1
0
0
0
0
0
0
0
0
-3.914950e+08
1510
1
282533495
2
1
928.3
0
0
1
7
2
...
0
0
0
0
0
0
0
0
0
-1.379397e+08
705
1
486362278
2
1
8235.0
0
0
1
18
14
...
0
0
0
0
0
0
0
0
0
2.085252e+07
314
1
127024674
1
0
37233.6
0
0
1
21
21
...
0
0
0
1
0
0
0
0
0
-1.735238e+08
1420
1
83500000
2
1
7175.1
0
0
1
15
1
...
1
0
0
0
0
0
0
0
0
-2.506310e+08
600
1
65000000
2
1
800.0
0
0
0
7
2
...
1
0
0
0
0
0
0
0
0
-4.401572e+08
1496
1
3020000000
1
0
119545.3
0
0
1
14
2
...
0
0
0
0
0
0
0
0
0
3.305464e+09
1094
1
262844594
2
1
8763.3
0
0
1
12
1
...
0
0
1
0
0
0
0
0
0
-1.994077e+08
599
1
265003365
2
1
14241.4
0
0
0
47
40
...
0
0
1
0
0
0
0
0
0
-6.494650e+07
1829
1
689064158
2
1
23235.7
0
0
1
36
14
...
0
0
0
1
0
0
0
0
0
1.529379e+09
1779
1
115000000
2
1
5745.7
0
0
0
24
11
...
0
0
0
0
0
0
0
0
0
2.103787e+08
277
1
99943873
2
1
4946.0
0
0
1
12
4
...
0
0
1
0
0
0
0
0
0
-4.580853e+08
1748
1
700000000
3
2
1235.1
0
0
1
6
3
...
0
0
0
0
0
1
0
0
0
6.971527e+08
1033
1
300000000
2
1
68661.3
0
0
1
24
4
...
0
0
0
0
0
0
0
1
0
3.768544e+08
1383
1
700000000
2
1
6382.2
0
0
1
16
0
...
1
0
0
0
0
0
0
0
0
1.286068e+09
1732
1
426000000
10
6
193417.3
0
0
1
18
5
...
1
0
0
0
0
0
0
0
0
3.003790e+07
763
1
309619417
1
0
21030.0
0
0
1
15
13
...
0
1
0
0
0
0
0
0
0
4.215476e+08
835
1
300000000
1
0
144012.4
0
0
1
9
8
...
0
0
0
0
0
0
0
0
0
1.378164e+09
1216
1
249802599
1
0
675.0
0
0
1
7
3
...
0
0
0
0
0
0
0
0
0
-2.159070e+07
1654
1
27713779
1
0
3176.2
0
0
1
15
8
...
0
0
0
1
0
0
0
0
0
-1.341338e+08
559
1
49601851
2
1
21093.2
0
0
1
15
9
...
0
0
0
0
0
0
0
0
0
-5.328713e+08
684
1
45896927
1
0
2628.1
0
0
1
4
2
...
0
0
0
0
0
0
0
0
0
-5.463228e+08
VIF Factor
features
21
992.723922
addr_do_서울
13
552.528540
point.y
14
164.366983
point.x
3
19.264761
Auction_miscarriage_count
2
19.209300
Auction_count
23
9.465712
Creditor_0
24
8.077139
Creditor_1
25
3.061078
Creditor_2
31
2.985472
Creditor_8
27
2.803663
Creditor_4
Estimate¶
1. 행렬 통해 회귀계수 추정¶
2. sklearn 이용¶
3. 1번, 2번 비교¶
Out[52]:
Last updated
Was this helpful?