Lagi

Menafsirkan Hasil GWR - Masalah

Menafsirkan Hasil GWR - Masalah


Saya menggunakan Geographically Weighted Regression (GWR) untuk mencari tahu variabel independen mana yang mengarah pada kejahatan dan bagaimana variabel tersebut bervariasi di ruang angkasa.

Setelah melakukan tinjauan literatur, saya menjalankan model Ordinary Least Squares (OLS) global untuk menemukan kumpulan variabel independen yang paling cocok, kemudian menggunakan metode GWR lokal. Untuk kedua model OLS dan GWR I kemudian melakukan Moran's I untuk residu standar, untuk memastikan bahwa mereka tidak autokorelasi spasial. Saya menggunakan ArcGIS untuk analisis.

Ketika saya menyelidiki nilai koefisien di berbagai daerah di wilayah studi, saya sampai pada masalah yang tidak jelas bagi saya: Misalnya saya telah memasukkan faktor risiko halte bus, diberikan sebagai kepadatan per kilometer persegi, untuk menjelaskan perampokan (diberikan sebagai tingkat kejahatan per 100.000 penduduk).

Nilai C1_BusDen (Koefisien 1 untuk kepadatan halte) berkisar antara 21 hingga 39. Satu wilayah memiliki nilai yang sangat rendah dengan tingkat kejahatan 1100 dan kepadatan halte 4,5. Wilayah lain memiliki nilai yang sangat tinggi dengan tingkat kejahatan 1250 dan kepadatan halte 5,07.

Jika kepadatan halte tinggi di kedua wilayah dan juga terdapat tingkat kriminalitas yang sama, bukankah seharusnya hubungan (nilainya) juga sama – atau setidaknya serupa, tetapi tidak pada kelas terendah dan tertinggi? Selain itu, wilayah dengan kepadatan halte tertinggi pada saat yang sama memiliki tingkat kejahatan tertinggi - nilai koefisien GWR hanya 26 - bukankah seharusnya yang tertinggi?

Apakah saya menginterpretasikan hasil dengan cara yang benar, karena akan masuk akal bahwa nilai yang lebih tinggi pada variabel independen dan nilai yang lebih tinggi pada variabel dependen mengarah pada hubungan yang lebih kuat.


Yah, ini adalah regresi berbobot lokal dan tidak memperhitungkan efek orde pertama dengan sangat baik, jadi, ini tidak terlalu mengejutkan dan secara inheren merupakan salah satu keterbatasan metode ini. Mungkin jika Anda mengubah ukuran fungsi kernel objektif (bandwidth) ini akan dikurangi sampai tingkat tertentu tetapi, saya tidak akan menahan napas. Saya akan menunjukkan bahwa distribusi dan bandwidth yang ditentukan dapat memiliki efek penting pada model. Jika Anda menggunakan implementasi ESRI, jangan. Tidak ada fleksibilitas dalam menentukan asumsi distribusi (misalnya, Gaussian, Poisson, binomial, multinomial) dan Anda terjebak dengan diagnostik regresi kalengan tanpa akses ke objek yang terdiri dari model.

Kecuali Anda memiliki nonstasioneritas terukur, GWR adalah metode yang meragukan dan Anda akan lebih cocok hanya dengan menggunakan OLS atau GLM. Mohon luangkan waktu untuk meninjau beberapa literatur yang berkaitan dengan GWR. Makalah Wheeler dan Tiefelsdorf (2005) menunjukkan bias yang serius dalam koefisien karena kolinearitas lokal yang tidak sistematis. Páez et al., (2011) menunjukkan, melalui simulasi, bahwa GWR tidak secara andal membedakan proses yang bervariasi secara spasial dan terkadang menunjukkan korelasi palsu dalam kesesuaian lokal. Saya tidak mengatakan jangan gunakan GWR tetapi, di luar analisis eksplorasi, itu harus digunakan dengan sangat hati-hati dan diuji secara ekstensif untuk validitas dan bias.

Jika autokorelasi spasial orde pertama sebenarnya, masalah yang mempengaruhi residual dan iid, autoregresif spasial atau model efek campuran akan dilakukan. Anda dapat menggunakan diagnostik Lagrange (Anselin et al., 1996) untuk menguji ketergantungan spasial dalam model linier. Ini akan menunjukkan apakah autokorelasi mempengaruhi kesalahan residual. Jika Anda ingin memformalkan model spasial, di mana nonstasioneritas (autokorelasi orde ke-2) mungkin menjadi masalah, dua metode yang saya sarankan untuk diselidiki adalah analisis koordinat utama matriks tetangga (Dray et al., 2006) atau penyaringan spasial berbasis vektor Eigen (Griffith 2000).

Untuk model inferensial, saya menyukai pendekatan pemfilteran spasial. De Jong et al., (1984) menunjukkan hubungan empiris antara vektor Eigen dan Moran's-I. Membangun konsep ini, seseorang dapat menggunakan vektor Eigen, dalam pendekatan semi-parametrik, untuk menghilangkan sebagian efek proses spasial pada estimasi regresi. Konsep PCNM adalah untuk mengukur proses spasial multiskala, sehingga secara langsung mewakili struktur autokorelasi, menggunakan matriks vektor Eigen skala. Alasan saya mengutip Dray et al., (2006), untuk PCNM, adalah karena ekstensinya memungkinkan struktur autokorelasi negatif. Untuk menerapkan pendekatan pemfilteran spasial untuk model regresi, fungsi SpatialFiltering di perpustakaan R spdep memformalkan metode brute force yang membuat spesifikasi model cukup mudah. Untuk secara formal mengeksplorasi struktur spasial data, perpustakaan R pcnm menyediakan metode untuk menentukan dan memvisualisasikan matriks tetangga koordinat utama.

Referensi

Anselin, L., A.K. Bera, R. Florax, & M.J. Yoon (1996) Tes diagnostik sederhana untuk ketergantungan spasial. Ilmu Regional dan Ekonomi Perkotaan (26)77-104.

De Jong, P., C. Sprenger, F. van Veen, (1984) Tentang nilai ekstrim Moran's I dan Geary's c. Analisis Geografis. 16:17-24.

Dray, S., P. Legendre, & P.R. Peres-Neto, (2006) Pemodelan spasial: kerangka komprehensif untuk analisis koordinat utama matriks tetangga (PCNM). Pemodelan Ekologis, 196:483-493.

Griffith, D. A., (2000) Sebuah solusi regresi linier untuk masalah autokorelasi spasial. Jurnal Sistem Geografis, 2:141-156.

Páez, A., S. Farber, & D. Wheeler (2011). Sebuah studi berbasis simulasi regresi berbobot geografis sebagai metode untuk menyelidiki hubungan spasial bervariasi. Lingkungan dan Perencanaan 43(12):2992-3010.

Wheeler, D. & M. Tiefelsdorf, (2005). Multikolinearitas dan korelasi antar koefisien regresi lokal pada regresi berbobot geografis. Jurnal Sistem Geografis, 7:161-187.


Tonton videonya: Menafsirkan Sajian Data