선형 회귀분석 구현(Sklearn,Numpy) (2)

요구사항

(1) 전처리와 시각화”의 데이터로 선형회귀에 필요한 EDA 및 전처리 및 인코딩

  • 범주형 변수 인코딩 3개 이상, EDA 3개 이상

  • 1주차 과제 적극적으로 활용 가능 및 자신이 만든 Feature 역시 사용 가능

(2) 그 데이터를 다양한 방식으로 선형회귀분석 하기

(3) 데이터의 행렬을 통해 구하여 위의 값과 비교

  • Sklearn 없이 행렬 연산으로만 구하시오

우수과제 선정 이유

다양한 insight을 통해 인코딩을 진행하셨다는 점과 3주차에 배울(배운) clustering을 통해 인코딩을 하는 작업 역시 창의적이라는 점과 강의시간에 다루지 않은 PC Regression을 통해 다중공선성을 해결하셨다는 점과 같이 다양한 시도를 하였다는 점에서 선정하게 되었습니다.

  • Auction_key : 경매 아파트 고유 키값

  • Auction_class : 강제경매, 임의경매

    • 강제경매 : 법원에 소송을 제기하여 판결을 얻은 후 집행권원에 따라 경매진행

    • 임의경매 : 등기부등본 담보권(저당권, 가압류 등)으로 경매 진행

  • Bid_class : 입찰구분(일반, 개별, 일괄)

  • Claim_price : 경매 신청인의 청구 금액

  • Appraisal_company : 감정사

  • Appraisal_date : 감정일자

  • Auction_count : 총경매횟수

  • Auction_miscarriage_count : 총유찰횟수

  • Total_land_gross_area : 총토지전체면적

  • Total_land_real_area : 총토지실면적

  • Total_land_auction_area : 총토지경매면적

  • Total_building_area : 총건물면적

  • Total_building_auction_area : 총건물경매면적

  • Minimum_appraisal_price : 총감정가

  • Minimum_sales_price : 입찰 시 입찰인이 최저로 제시해야만 하는 금액

  • First_auction_date : 최초경매일

  • Final_auction_date : 최종경매일

  • Final_result : 최종결과

  • Creditor : 채권자, 경매 신청인

  • addr_do : 주소_시도

  • addr_si : 주소_시군구

  • addr_dong : 주소_읍면동

  • addr_li : 주소_리

  • addr_san : 주소_산번지 여부

  • addr_bunji1 : 도로명주소_번지1

  • addr_bunji2 : 도로명주소_번지2

  • addr_etc : 주소_기타주소

  • Apartment_usage : 건물(토지)의 대표 용도

  • Completion_date : 준공일

  • Preserve_regist_date : 보존등기일, 건물을 신축하고 처음으로 등기

  • Total_floor : 총층수

  • Current_floor : 현재층수

  • Specific : 기타_특이사항

  • Share_auction_YorN : 지분경매 여부

    • 하나의 부동산이 전체가 아닌 일부만 경매가 진행 (하나의 부동산의 공유자가 지분으로 소유권을 가지고 있을 때 그중 일부 지분만 경매가 진행)

  • road_name : 도로명주소_도로명

  • road_bunji1 : 도로명주소_번지1

  • road_bunji2 : 도로명주소_번지2

  • Close_date : 종국일자

  • Close_result : 종국결과

    • 낙찰과 배당의 차이 : 경매 진행은 ①경매진행(낙찰) ▷ ②낙찰허가결정 ▷ ③대금납부 ▷ ④배당 후 종결 로 이뤄집니다. 낙찰자가 최고가로 입찰(①)해서 낙찰허가(②)를 받으면 대금납부기한 낙찰금을 입금(③)합니다. 법원은 납부된 낙찰금을 가지고 채권자에게 순위에 의한 배당(④)을 해주고 경매는 종결됩니다.

  • point.y : 위도

  • point.x : 경도

  • Hammer_price : 낙찰가

Load Data¶

Auction_key

Auction_class

Bid_class

Claim_price

Appraisal_company

Appraisal_date

Auction_count

Auction_miscarriage_count

Total_land_gross_area

Total_land_real_area

...

Specific

Share_auction_YorN

road_name

road_bunji1

road_bunji2

Close_date

Close_result

point.y

point.x

Hammer_price

0

2687

임의

개별

1766037301

정명감정

2017-07-26 00:00:00

2

1

12592.0

37.35

...

NaN

N

해운대해변로

30.0

NaN

2018-06-14 00:00:00

배당

35.162717

129.137048

760000000

1

2577

임의

일반

152946867

희감정

2016-09-12 00:00:00

2

1

42478.1

18.76

...

NaN

N

마린시티2로

33.0

NaN

2017-03-30 00:00:00

배당

35.156633

129.145068

971889999

2

2197

임의

개별

11326510

혜림감정

2016-11-22 00:00:00

3

2

149683.1

71.00

...

NaN

N

모라로110번길

88.0

NaN

2017-12-13 00:00:00

배당

35.184601

128.996765

93399999

3

2642

임의

일반

183581724

신라감정

2016-12-13 00:00:00

2

1

24405.0

32.98

...

NaN

N

황령대로319번가길

110.0

NaN

2017-12-27 00:00:00

배당

35.154180

129.089081

256899000

4

1958

강제

일반

45887671

나라감정

2016-03-07 00:00:00

2

1

774.0

45.18

...

NaN

N

오작로

51.0

NaN

2016-10-04 00:00:00

배당

35.099630

128.998874

158660000

Auction_key

Claim_price

Auction_count

Auction_miscarriage_count

Total_land_gross_area

Total_land_real_area

Total_land_auction_area

Total_building_area

Total_building_auction_area

Total_appraisal_price

Minimum_sales_price

addr_bunji1

addr_bunji2

Total_floor

Current_floor

road_bunji1

road_bunji2

point.y

point.x

Hammer_price

count

1933.000000

1.933000e+03

1933.000000

1933.000000

1.933000e+03

1933.000000

1933.000000

1933.000000

1933.000000

1.933000e+03

1.933000e+03

1929.000000

889.000000

1933.000000

1933.000000

1909.000000

155.000000

1933.000000

1933.000000

1.933000e+03

mean

1380.271081

3.703908e+08

1.836006

0.788412

3.458714e+04

42.333802

41.310776

96.417693

94.148810

4.973592e+08

4.155955e+08

601.952307

22.742407

16.980859

8.817900

127.441069

12.748387

36.698018

127.731667

4.726901e+08

std

801.670470

1.337869e+09

0.938319

0.831715

9.442101e+04

65.274404

65.385900

106.323240

106.845985

7.873851e+08

5.030312e+08

554.119824

67.000807

9.509021

8.044644

188.394217

10.735663

1.150269

0.993055

5.574493e+08

min

1.000000

0.000000e+00

1.000000

0.000000

0.000000e+00

0.000000

0.000000

9.390000

1.500000

4.285000e+06

4.285000e+06

1.000000

1.000000

3.000000

0.000000

1.000000

1.000000

35.051385

126.809393

6.303000e+06

25%

691.000000

7.746112e+07

1.000000

0.000000

2.997000e+03

25.870000

24.570000

61.520000

59.970000

2.090000e+08

1.750000e+08

189.000000

1.000000

12.000000

3.000000

24.000000

5.000000

35.188590

126.959167

1.975550e+08

50%

1395.000000

1.728143e+08

2.000000

1.000000

1.424140e+04

37.510000

36.790000

84.900000

84.860000

3.600000e+08

3.120000e+08

482.000000

5.000000

15.000000

7.000000

57.000000

9.000000

37.500862

127.065003

3.544500e+08

75%

2062.000000

3.565089e+08

2.000000

1.000000

4.140310e+04

51.790000

51.320000

114.940000

114.850000

5.720000e+08

4.864000e+08

834.000000

18.000000

21.000000

12.000000

145.000000

17.500000

37.566116

129.018054

5.599000e+08

max

2762.000000

2.286481e+10

13.000000

9.000000

3.511936e+06

2665.840000

2665.840000

4255.070000

4255.070000

2.777500e+10

1.422080e+10

4937.000000

1414.000000

80.000000

65.000000

1716.000000

55.000000

37.685575

129.255872

1.515100e+10

Encoding¶

1. 날짜와 관련된 데이터 처리

2. 나머지 object 타입의 변수 encoding¶

Train Test Split

3. Creditor (경매신청인) 정보 활용하기 -> DTM matrix, Tfidf matrix¶

Creditor

Label

1925

히어로비케이대부

0

944

비엔케이캐피탈

0

993

베리타스에프앤아이

0

232

신괴정새

0

839

주선진

0

1852

지비자산관리

0

1148

대백저축은행

0

1485

오에스비저축은행

0

369

대경철강

0

1931

기타

1

1456

기타

1

872

기타

1

1706

기타

1

282

기타

1

1698

기타

1

642

기타

1

1145

기타

1

1512

기타

1

1633

기타

1

824

기타

1

909

기타

1

1202

기타

1

1420

기타

1

1782

기타

1

809

기타

1

265

국민은행

2

1494

국민은행

2

898

국민은행

2

937

국민은행

2

833

국민은행

2

1494

국민은행

2

1716

국민은행

2

972

국민은행

2

1380

국민은행

2

1692

남동농협

3

1790

농협양곡

3

447

의령농협

3

1090

영등포농협

3

104

우리은행

4

1540

우리은행

4

1338

서울보증보험

5

996

신한은행

6

856

신한은행

6

1845

하나은행

7

218

하나은행

7

1866

중소기업은행

8

1646

중소기업은행

8

1318

중소기업은행

8

1513

한국주택금융공사

9

203

부산은행

10

4. Highly Correlated Features -> PCA¶

Feature Selection (VIF)¶

Auction_class

Claim_price

Auction_count

Auction_miscarriage_count

Total_land_gross_area

addr_li

addr_san

Apartment_usage

Total_floor

Current_floor

...

Creditor_1

Creditor_2

Creditor_3

Creditor_4

Creditor_5

Creditor_6

Creditor_7

Creditor_8

Creditor_9

Area_pca

178

1

1001178995

2

1

29642.8

0

0

0

47

40

...

0

0

1

0

0

0

0

0

0

5.030592e+07

764

1

705760169

1

0

163197.4

0

0

1

5

4

...

0

0

0

1

0

0

0

0

0

6.803967e+08

651

1

179060610

1

0

28347.0

0

0

1

21

11

...

0

0

0

0

0

0

0

0

0

-3.085755e+08

1183

1

0

2

1

27318.1

0

0

1

15

9

...

1

0

0

0

0

0

0

0

0

-2.197963e+06

513

1

60479094

1

0

3071.7

0

0

1

15

14

...

0

0

0

0

0

0

0

0

0

-3.859489e+08

71

1

650000000

1

0

9951.0

0

0

0

33

27

...

1

0

0

0

0

0

0

0

0

-8.911654e+07

581

1

142723400

1

0

5169.9

0

0

1

16

7

...

0

0

0

0

0

0

0

0

0

-3.972032e+08

704

1

242593966

1

0

50993.7

0

0

1

15

7

...

1

0

0

0

0

0

0

0

0

-4.888787e+05

1047

1

246892870

2

1

905.5

0

0

1

6

3

...

0

0

0

0

0

0

0

0

0

6.713884e+08

483

1

98612480

2

1

139.4

0

0

1

6

6

...

0

0

0

0

0

0

0

0

0

-4.696106e+08

759

1

138448450

1

0

4903.0

0

0

1

5

3

...

0

0

0

0

0

0

0

0

0

-3.381181e+08

1031

1

87117325

2

1

6648.4

0

0

1

18

7

...

0

1

0

0

0

0

0

0

0

-2.012612e+07

456

1

90000000

1

0

10257.0

1

0

1

20

4

...

0

0

0

0

0

0

0

0

0

-4.830173e+08

68

0

97854794

1

0

1141.1

0

0

0

20

7

...

1

0

0

0

0

0

0

0

0

-3.395249e+08

773

1

33117698

1

0

4974.1

0

0

1

20

11

...

1

0

0

0

0

0

0

0

0

-1.270998e+08

1688

0

51065753

1

0

81133.2

0

0

1

15

2

...

1

0

0

0

0

0

0

0

0

-3.029484e+08

231

1

71618685

1

0

55124.6

0

0

1

15

2

...

0

0

0

0

0

0

1

0

0

1.556646e+08

1442

0

102700000

2

1

14283.4

0

0

1

14

8

...

0

0

0

0

0

0

0

0

0

1.350097e+09

1498

1

369414746

1

0

66508.5

0

0

1

25

23

...

1

0

0

0

0

0

0

0

0

1.401900e+08

432

0

64746526

1

0

48890.0

0

0

1

15

6

...

0

0

0

0

0

0

0

0

0

-3.901692e+08

667

1

128600645

1

0

26780.0

0

0

1

25

8

...

0

0

0

0

0

0

0

0

0

-3.803217e+08

731

0

36500000

4

3

0.0

0

0

1

7

3

...

1

0

0

0

0

0

0

0

0

-3.783943e+08

1340

1

845000000

1

0

37361.7

0

0

1

10

3

...

1

0

0

0

0

0

0

0

0

5.200228e+08

1687

1

201912410

1

0

20088.4

0

0

1

15

3

...

0

0

0

0

0

0

0

0

0

-2.115071e+08

688

0

46032191

1

0

29642.8

0

0

1

48

41

...

1

0

0

0

0

0

0

0

0

9.939309e+07

354

1

80289349

2

1

46920.1

0

0

1

15

12

...

0

0

0

0

0

0

0

0

0

-4.990639e+08

567

0

15772930

2

1

8057.0

0

0

1

23

14

...

0

0

0

0

0

0

0

0

0

-4.299125e+08

1049

0

35280821

1

0

102425.2

0

0

1

15

10

...

1

0

0

0

0

0

0

0

0

-4.337797e+08

896

1

25637292

5

3

588.1

0

0

1

7

1

...

0

0

1

0

0

0

0

0

0

-5.025638e+08

1302

0

700000000

2

1

41426.2

0

0

1

21

6

...

0

0

0

0

0

0

0

1

0

3.192282e+08

...

...

...

...

...

...

...

...

...

...

...

...

...

...

...

...

...

...

...

...

...

...

72

0

100000000

1

0

57269.5

1

0

1

20

17

...

1

0

0

0

0

0

0

0

0

-1.875917e+08

845

1

35639302

2

1

536.0

0

0

0

7

3

...

0

1

0

0

0

0

0

0

0

-2.634368e+08

537

0

29981811

2

1

500.2

0

0

0

11

10

...

0

0

0

0

1

0

0

0

0

-3.556387e+08

1702

1

261165566

1

0

22076.7

0

0

1

12

5

...

0

0

0

0

0

1

0

0

0

1.160111e+09

849

0

3178437438

2

1

4847.0

0

0

0

49

15

...

0

0

0

0

0

0

0

0

0

4.793010e+08

1625

1

1900000000

2

1

7525.5

0

0

1

25

18

...

0

0

0

0

0

0

0

1

0

3.168524e+09

174

1

216000000

2

1

72380.5

0

0

1

20

3

...

0

0

0

0

0

0

0

0

0

-3.492358e+08

87

1

109694909

2

1

4960.5

0

0

0

19

19

...

0

0

1

0

0

0

0

0

0

-4.491212e+08

551

0

42013900

2

1

21631.5

0

0

1

13

10

...

1

0

0

0

0

0

0

0

0

-3.914950e+08

1510

1

282533495

2

1

928.3

0

0

1

7

2

...

0

0

0

0

0

0

0

0

0

-1.379397e+08

705

1

486362278

2

1

8235.0

0

0

1

18

14

...

0

0

0

0

0

0

0

0

0

2.085252e+07

314

1

127024674

1

0

37233.6

0

0

1

21

21

...

0

0

0

1

0

0

0

0

0

-1.735238e+08

1420

1

83500000

2

1

7175.1

0

0

1

15

1

...

1

0

0

0

0

0

0

0

0

-2.506310e+08

600

1

65000000

2

1

800.0

0

0

0

7

2

...

1

0

0

0

0

0

0

0

0

-4.401572e+08

1496

1

3020000000

1

0

119545.3

0

0

1

14

2

...

0

0

0

0

0

0

0

0

0

3.305464e+09

1094

1

262844594

2

1

8763.3

0

0

1

12

1

...

0

0

1

0

0

0

0

0

0

-1.994077e+08

599

1

265003365

2

1

14241.4

0

0

0

47

40

...

0

0

1

0

0

0

0

0

0

-6.494650e+07

1829

1

689064158

2

1

23235.7

0

0

1

36

14

...

0

0

0

1

0

0

0

0

0

1.529379e+09

1779

1

115000000

2

1

5745.7

0

0

0

24

11

...

0

0

0

0

0

0

0

0

0

2.103787e+08

277

1

99943873

2

1

4946.0

0

0

1

12

4

...

0

0

1

0

0

0

0

0

0

-4.580853e+08

1748

1

700000000

3

2

1235.1

0

0

1

6

3

...

0

0

0

0

0

1

0

0

0

6.971527e+08

1033

1

300000000

2

1

68661.3

0

0

1

24

4

...

0

0

0

0

0

0

0

1

0

3.768544e+08

1383

1

700000000

2

1

6382.2

0

0

1

16

0

...

1

0

0

0

0

0

0

0

0

1.286068e+09

1732

1

426000000

10

6

193417.3

0

0

1

18

5

...

1

0

0

0

0

0

0

0

0

3.003790e+07

763

1

309619417

1

0

21030.0

0

0

1

15

13

...

0

1

0

0

0

0

0

0

0

4.215476e+08

835

1

300000000

1

0

144012.4

0

0

1

9

8

...

0

0

0

0

0

0

0

0

0

1.378164e+09

1216

1

249802599

1

0

675.0

0

0

1

7

3

...

0

0

0

0

0

0

0

0

0

-2.159070e+07

1654

1

27713779

1

0

3176.2

0

0

1

15

8

...

0

0

0

1

0

0

0

0

0

-1.341338e+08

559

1

49601851

2

1

21093.2

0

0

1

15

9

...

0

0

0

0

0

0

0

0

0

-5.328713e+08

684

1

45896927

1

0

2628.1

0

0

1

4

2

...

0

0

0

0

0

0

0

0

0

-5.463228e+08

VIF Factor

features

21

992.723922

addr_do_서울

13

552.528540

point.y

14

164.366983

point.x

3

19.264761

Auction_miscarriage_count

2

19.209300

Auction_count

23

9.465712

Creditor_0

24

8.077139

Creditor_1

25

3.061078

Creditor_2

31

2.985472

Creditor_8

27

2.803663

Creditor_4

Estimate¶

1. 행렬 통해 회귀계수 추정¶

2. sklearn 이용¶

3. 1번, 2번 비교¶

Out[52]:

Last updated

Was this helpful?