Mimar Sinan Güzel Sanatlar Üniversitesi Açık Bilim, Sanat Arşivi
Açık Bilim, Sanat Arşivi, Mimar Sinan Güzel Sanatlar Üniversitesi tarafından doğrudan ve dolaylı olarak yayınlanan; kitap, makale, tez, bildiri, rapor gibi tüm akademik kaynakları uluslararası standartlarda dijital ortamda depolar, Üniversitenin akademik performansını izlemeye aracılık eder, kaynakları uzun süreli saklar ve yayınların etkisini artırmak için telif haklarına uygun olarak Açık Erişime sunar.MSGSÜ'de Ara
Kayıp gözlem içeren dengesiz veri setlerinin topluluk öğrenme algoritmaları ile sınıflandırılması
| dc.contributor.advisor | Pehlivanlı, Ayça Çakmak | |
| dc.contributor.author | Gümüştaş, Enis | |
| dc.date.accessioned | 2022-06-20T20:16:33Z | |
| dc.date.available | 2022-06-20T20:16:33Z | |
| dc.date.issued | 2019 | |
| dc.identifier.uri | https://hdl.handle.net/20.500.14124/1147 | |
| dc.identifier.uri | ||
| dc.description | Tez (Yüksek Lisans) -- Mimar Sinan Güzel Sanatlar Üniversitesi Fen Bilimleri Enstitüsü, 2019. | en_US |
| dc.description.abstract | Son yıllarda gelişen teknoloji ile üretilen veri miktarı artmış ve veri türleri farklılaşmaya başlamıştır. Farklılaşan veri yapısı farklı veri kaynaklarının da ortaya çıkmasına neden olmuştur. Farklılaşan veri kaynakları ve veri tipleri nedeniyle geleneksel yöntemler yetersiz kalmıştır. Bu nedenle makine öğrenmesi yöntemleri daha da önem kazanmıştır. Verideki örüntülerin keşfedilmesi, var olan ilişkinin ortaya çıkarılması için veri setinin analize uygun olması gerekmektedir. Bu nedenle veri ön işleme aşaması büyük öneme sahiptir. Veri ön işleme aşamasında karşılaşılan sorunlardan biri kayıp veri sorunudur. Kayıp veri sorunu farklı veri kaynaklarından elde edilen verilerin toplanması sırasında meydana gelen sistematik ya da yazılım kaynaklı sorunlar nedeniyle sıklıkla ortaya çıkan bir durumdur. Makine öğrenmesi yöntemlerin çoğu kayıp veri ile çalışamamaktadır. Bu nedenle modelleme aşamasından önce kayıp gözlemlerin doldurulması büyük bir öneme sahiptir. Makine öğrenmesi yöntemlerinde model başarımı algoritma, parametre ya da performans kriterlerinin belirlenmesinin yanı sıra verinin yapısına da bağlı olmaktadır. Sıklıkla kullanılan algoritmaların pek çoğu veri setinde dengeli sınıf dağılımının olduğunu varsayar fakat hedef değişkenin sınıf dağılımının her zaman birbirine yakın olması beklenemez. Gerçek yaşam verilerinde sınıflandırma problemlerinde sıkça karşılaşılan dengesiz veri seti problemi sınıflar arasında görülen çarpık veri dağılımıdır. Bu çarpıklık nedeniyle model eğitim aşamasında baskın olan sınıfa doğru bir eğilim göstermektedir ve bu nedenle de yanlı sonuçlar elde edilmektedir. Bu çalışmada kayıp gözlem içeren ve sınıf dengesizliğine sahip olan veri setinde farklı kayıp gözlem doldurma yöntemleri kullanılarak topluluk öğrenme yöntemlerinin performanslarının karşılaştırılması amaçlanmıştır. Çalışmada farklı kayıp gözlem doldurma yöntemlerine göre model performanslarında ortaya çıkan farklılık ve farklı yöntemler ile doldurulmuş veri setlerinde kullanılan algoritmaların çeşitliliğine göre sonuçlarda ortaya çıkan farklılıkların belirlenmesi hedeflenmiştir. Bu amaçla çalışmada kayıp gözlem ataması için sıcak deste ataması, ortalama ile doldurma, medyan ile doldurma, mod ile doldurma, çoklu atama, beklenti en büyükleme ve k en yakın komşu yöntemleri ile sınıflandırma için Extra Trees, Random Forest, Gradient Boosting, LightGBM ve XGBoost algoritmaları kullanılmıştır. Sonuç olarak yerine koyma metodu ile atama yapılan veriler ile boosting yöntemlerinin iyi sonuç verdiği görülmüştür. | en_US |
| dc.format.medium | viii, 48 sayfa ; 30 cm. | en_US |
| dc.language.iso | tur | en_US |
| dc.publisher | Mimar Sinan Güzel Sanatlar Üniversitesi | en_US |
| dc.rights | info:eu-repo/semantics/openAccess | en_US |
| dc.subject | Veri madenciliği | en_US |
| dc.subject | Kayıp veri | en_US |
| dc.subject | Veri toplama | en_US |
| dc.subject | Bagging ve Boosting yöntemleri | en_US |
| dc.title | Kayıp gözlem içeren dengesiz veri setlerinin topluluk öğrenme algoritmaları ile sınıflandırılması | en_US |
| dc.type | masterThesis | en_US |
| dc.department | Enstitüler, Mimar Sinan Güzel Sanatlar Üniversitesi, Fen Bilimleri Enstitüsü, İstatistik Anabilim Dalı, İstatistik Programı | en_US |
| dc.institutionauthor | Gümüştaş, Enis | en_US |
| dc.relation.publicationcategory | Tez | en_US |
| dc.identifier.demirbas | 0075022 | en_US |
| dc.identifier.yrd | 8D1BED05-03D6-5444-B525-622626F1927E | en_US |
Bu öğenin dosyaları:
Bu öğe aşağıdaki koleksiyon(lar)da görünmektedir.
-
Yüksek Lisans Tezleri [4245]
Master's Theses















