Memahami Regresi Ridge Untuk Mengatasi Multikolinearitas

Posted on
5
(1)

Regresi Ridge – Hubungan antara variabel bebas (X) dan variabel tak bebas (Y) dalam suatu kasus yang kompleks tidak dapat diselesaikan dengan persamaan regresi linier sederhana.

Dalam situasi demikian, terkadang variabel tak bebas (Y) atau variabel respon dapat dipengaruhi oleh beberapa variabel bebas (X).

Jika persamaan regresi memuat banyak variabel bebas, model regresinya disebut model regresi ganda.

Seperti halnya metode statistika lainnya, model regresi linier berganda mempunyai beberapa asumsi, di antaranya galat \varepsilon_i saling bebas dan berdistribusi normal N(0,\sigma^2) serta tidak terjadi multikolinear (Supranto, 1986).

Multikoliearitas adalah sebuah kondisi yang menunjukkan adanya korelasi atau hubungan antara beberapa variabel bebas dalam model.

Regresi linier yang dimaksud mencakup regresi logistik, regresi data panel, regresi linier dan cox regression.

Dengan adanya multikolinearitas, akan sulit memisahkan pengaruh masing-masing variabel bebas terhadap variabel respon.

Terdapat beberapa cara untuk mengatasi multikolinearitas yaitu dengan melakukan transformasi variabel, transformasi data atau melakukan penambahan variabel.

Tetapi, ketika cara-cara yang disebutkan diatas tidak dapat mengatasi multikolinearitas maka dapat menggunakan Regresi Ridge.

Apa itu Regresi Ridge?

Menurut Hoerl dan Kennard, 1970, metode regresi Ridge (Ridge regression) dapat digunakan untuk mengatasi korelasi yang tinggi antara beberapa variabel bebas dalam model.

Regresi Ridge merupakan metode pendugaan koefisien regresi yang didapatkan dengan cara menambah konstanta bias c pada diagonal X’X.

Meskipun metode ini menghasilkan penduga koefisien regresi yang berbias, penduga ini bisa mendekati nilai parameter yang sebenarnya.

Hal ini dapat diketahui dari perbandingan mean square error (MSE) antara penduga Ridge dengan penduga kuadrat terkecil (least square), dimana MSE penduga Ridge lebih kecil daripada MSE penduga kuadrat terkecil.

Menurut Neter (1989), regresi ridge atau ridge regression merupakan salah satu metode untuk mengatasi multikolinearitas. Metode ini memodifikasi metode kuadrat terkecil (OLS) dengan memasukkan estimator bias pada koefisien regresi.

Prinsip dalam penggunaan Regresi Ridge ini adalah untuk meminimumkan nilai varians.

Untuk OLS, penduga/estimator b dihitung dengan rumus, sebagai berikut :

(X^TX)b=X^TY

Sehingga persamaan regresi linier berganda (RLB) yang terbentuk ialah :

\widehat{Y}_i=b_0+b_1X_{i1}+b_2X_{i2}+...+b_{(p-1)}X_{i(p-1)}

Tahapan melakukan Regresi Ridge

Transformasi Variabel X dan Y

Variabel X dan Y ditransformasi menggunakan transformasi korelasi, dimana nilai variabel X_{ik} menjadi X_{ik}^' , sedangkan nilai variabel Y_i menjadi Y_{i}^' .

Dimana :

Y_i^{'}=\frac{1}{\sqrt{n-1}}(\frac{X_{ik}-\overline{X_k}}{S_Y})

dan

X_{ik}^{'}=\frac{1}{\sqrt{n-1}}(\frac{Y_i-\overline{Y}}{S_k})  ; untuk k=1,2, … , (p-1)

Sedangkan,

S_Y=\sqrt{\frac{\Sigma_{i}(Y_i-\overline{Y})^2}{n-1}}

dan

S_k=\sqrt{\frac{\Sigma_{i}(X_{ik}-\overline{X_k})^2}{n-1}}  ; untuk k=1,2, … , (p-1)

Keterangan :

Y_i^'  : nilai variabel tak bebas ke-i hasil transformasi korelasi

Y_i  : nilai variabel tak bebas ke-i

\overline{X}  : rata-rata variabel tak bebas

S_k  :  standar deviasi untuk Y

S_k  : standar deviasi untuk X

X_{ik}^'  : nilai variabel  bebas ke-i (dengan sejumlah k variabel bebas) hasil transformasi korelasi

X_{ik}  :  nilai variabel bebas ke-i (dengan sejumlah k variabel bebas)

\overline{X_k}  :  rata-rata variabel  bebas (dengan sejumlah k variabel bebas)

n      : banyaknya observasi

k      : banyaknya variabel bebas

p      : banyaknya parameter

Menentukan rxx dan ryx

Setelah mendapatkan variabel X dan Y yang sudah ditransformasi, selanjutnya menentukan r_{XX} dan r_{YX}. Matriks sederhana antara variabel Y dengan setiap variabel X.X^TX dari variabel yang sudah ditransformasi akan menghasilkan r_{XX}.

r_{XX} ini merupakan matriks korelasi dari variabel X.

Sementara itu, matriks X^TY dari variabel yang sudah ditransformasi akan menghasilkan r_{YX}, dimana r_{YX} ini merupakan koefisien korelasi.

regresi ridge

Sehingga  :

r_{XX}b=r_{YX}

atau

b=(r_{XX})^{-1}r_{YX}

Dimana b merupakan koefisien regresi yang sudah distandarisasi.

Menentukan Model Regresi Ridge

Selanjutnya ialah menentukan model Regresi Ridge. Awalnya, tentukan estimator Regresi Ridge, dimana pada persamaan r_{XX}b=r_{YX} ini, dimasukkan nilai konstanta bias k (0 < k <1, dapat diperoleh dengan menggunakan aplikasi NCSS), sehingga :

(r_{XX}+kI)b^R=r_{YX}

Dimana I merupakan matriks identitas (p-1)  (p-1) dan  bR merupakan vektor dari estimator regresi ridge (ridge regression) yang sudah distandarisasi (bRp-1 ) :

b_{(p-1)\times 1}^R=\begin{pmatrix}b_1^R\\b_2^R\\\vdots\\b_{P-1}^R\end{pmatrix}

Sehingga solusi dari persamaan (r_{XX}+kI)b^R=r_{YX}, menghasilkan koefisien ridge regression yang terstandarisasi, sebagai berikut :

b^R=(r_{XX}+kI)^{-1}r_{YX}

Dengan demikian, dibentuklah persamaan ridge regression :

\widehat{Y}_i^R=b_1^RX_1+b_2^RX_2+...+b_{p-1}^RX_{p-1}

Estimator ridge regression ini lebih stabil dibanding estimator dari ordinary least squares (OLS). Semakin besar nilai k yang dimasukkan, maka komponen bias dari total MSE akan meningkat pula dan pada saat yang sama, komponen varians menjadi lebih kecil.

Hal ini berarti, pada nilai k tertentu, total MSE dari estimator ridge regression (bR) akan lebih kecil dari total MSE estimator OLS (b).

Kesulitannya adalah nilai optimum dari k bervariasi dari satu aplikasi dengan aplikasi lainnya  dan tidak diketahui.

Metode yang umum digunakan untuk menentukan konstanta bias k ialah ridge trace dan variance inflation factors (VIF)kRidge trace adalah plot dari estimator ridge regression yang terstandarisasi dengan berbagai kemungkinan nilai k, dimana biasanya nilai k antara 0 sampai 1.

Nilai VIF adalah elemen diagonal dari matriks (p-1)x(p-1), yang dihitung dengan formula sebagai berikut :

(r_{XX}+kI)^{-1}r_{XX}(r_{XX}+kI)^{-1}

Sementara itu, koefisien determinasi  (RR2) dan koefisien determinasi yang disesuaikan (RR2adj) dari ridge regression diperoleh dari perhitungan sebagai berikut :

  • R_R^2=1-SSER
  • R_{Radj}^2=1-\frac{SSE_R}{SST_R}(\frac{n-1}{n-p})

Dimana :

  • SSE_R=\Sigma(Y_i^{'}-\widehat{Y}_i^{'})^2
  • SST_R=\Sigma(Y_i^{'}-\overline{Y}_i^{'})^2

Kemudian selanjutnya ialah mentransformasi kembali model ridge regression yang diperoleh menjadi model regresi semula, sebagai berikut :

\widehat{Y}_i=b_0+b_1^X_{i1}+b_2^X_{i2}+...+b_{p-1}^X_{i(p-1)}

Dimana, nilai estimator dihitung dari formula, sebagai berikut :

  • b_i=(\frac{S_Y}{S_k})b_i^R
  • b_0=\overline{Y}-b1\overline{X}_1-...-b_{(p-1)}\overline{X}_{(p-1)}

Keterangan :

b_i   : estimator regresi linier berganda

b_0   : konstanta regresi linier berganda

b_i^R  : estimator ridge regression

S_k  : standar deviasi variabel  bebas (X)

S_Y    :  standar deviasi variabel tak bebas (Y)

Kesimpulan

Regresi ridge atau ridge regression merupakan salah satu metode untuk mengatasi multikolinearitas. Metode ini memodifikasi metode kuadrat terkecil (OLS) dengan memasukkan estimator bias pada koefisien regresi. Regresi ridge digunakan jika sudah melakukan transformasi variabel dan transformasi data atau melakukan penambahan variabel sudah dilakukan dan tetap tidak bisa mengatasi multikolinearitas.

Referensi

  • Margaretha Ohyver : Journal Metode Regresi Ridge Untuk Mengatasi Kasus Multikolinear
  • J. Supranto (1986): Pengantar Probabilita dan Statistika Induktif (edisi pertama)
  • T. P. Ryan (1997) : Modern Regression Method

Apa artikel bermanfaat?

Klik bintang untuk memberi rating!

Average rating 5 / 5. Vote count: 1

No votes so far! Be the first to rate this post.

Leave a Reply

Your email address will not be published. Required fields are marked *