Mimar Sinan Fine Arts University Institutional Repository

DSpace@MSGSÜ digitally stores academic resources such as books, articles, dissertations, bulletins, reports, research data published directly or indirectly by Mimar Sinan Fine Arts University in international standarts, helps track the academic performance of the university, provides long term preservation for resources and makes publications available to Open Access in accordance with their copyright to increase the effect of publications.

Search MSGSÜ

Show simple item record

dc.contributor.advisorPehlivanlı, Ayça Çakmak
dc.contributor.authorGümüştaş, Enis
dc.date.accessioned2022-06-20T20:16:33Z
dc.date.available2022-06-20T20:16:33Z
dc.date.issued2019
dc.identifier.urihttps://hdl.handle.net/20.500.14124/1147
dc.identifier.uri
dc.descriptionTez (Yüksek Lisans) -- Mimar Sinan Güzel Sanatlar Üniversitesi Fen Bilimleri Enstitüsü, 2019.en_US
dc.description.abstractSon yıllarda gelişen teknoloji ile üretilen veri miktarı artmış ve veri türleri farklılaşmaya başlamıştır. Farklılaşan veri yapısı farklı veri kaynaklarının da ortaya çıkmasına neden olmuştur. Farklılaşan veri kaynakları ve veri tipleri nedeniyle geleneksel yöntemler yetersiz kalmıştır. Bu nedenle makine öğrenmesi yöntemleri daha da önem kazanmıştır. Verideki örüntülerin keşfedilmesi, var olan ilişkinin ortaya çıkarılması için veri setinin analize uygun olması gerekmektedir. Bu nedenle veri ön işleme aşaması büyük öneme sahiptir. Veri ön işleme aşamasında karşılaşılan sorunlardan biri kayıp veri sorunudur. Kayıp veri sorunu farklı veri kaynaklarından elde edilen verilerin toplanması sırasında meydana gelen sistematik ya da yazılım kaynaklı sorunlar nedeniyle sıklıkla ortaya çıkan bir durumdur. Makine öğrenmesi yöntemlerin çoğu kayıp veri ile çalışamamaktadır. Bu nedenle modelleme aşamasından önce kayıp gözlemlerin doldurulması büyük bir öneme sahiptir. Makine öğrenmesi yöntemlerinde model başarımı algoritma, parametre ya da performans kriterlerinin belirlenmesinin yanı sıra verinin yapısına da bağlı olmaktadır. Sıklıkla kullanılan algoritmaların pek çoğu veri setinde dengeli sınıf dağılımının olduğunu varsayar fakat hedef değişkenin sınıf dağılımının her zaman birbirine yakın olması beklenemez. Gerçek yaşam verilerinde sınıflandırma problemlerinde sıkça karşılaşılan dengesiz veri seti problemi sınıflar arasında görülen çarpık veri dağılımıdır. Bu çarpıklık nedeniyle model eğitim aşamasında baskın olan sınıfa doğru bir eğilim göstermektedir ve bu nedenle de yanlı sonuçlar elde edilmektedir. Bu çalışmada kayıp gözlem içeren ve sınıf dengesizliğine sahip olan veri setinde farklı kayıp gözlem doldurma yöntemleri kullanılarak topluluk öğrenme yöntemlerinin performanslarının karşılaştırılması amaçlanmıştır. Çalışmada farklı kayıp gözlem doldurma yöntemlerine göre model performanslarında ortaya çıkan farklılık ve farklı yöntemler ile doldurulmuş veri setlerinde kullanılan algoritmaların çeşitliliğine göre sonuçlarda ortaya çıkan farklılıkların belirlenmesi hedeflenmiştir. Bu amaçla çalışmada kayıp gözlem ataması için sıcak deste ataması, ortalama ile doldurma, medyan ile doldurma, mod ile doldurma, çoklu atama, beklenti en büyükleme ve k en yakın komşu yöntemleri ile sınıflandırma için Extra Trees, Random Forest, Gradient Boosting, LightGBM ve XGBoost algoritmaları kullanılmıştır. Sonuç olarak yerine koyma metodu ile atama yapılan veriler ile boosting yöntemlerinin iyi sonuç verdiği görülmüştür.en_US
dc.format.mediumviii, 48 sayfa ; 30 cm.en_US
dc.language.isoturen_US
dc.publisherMimar Sinan Güzel Sanatlar Üniversitesien_US
dc.rightsinfo:eu-repo/semantics/openAccessen_US
dc.subjectVeri madenciliğien_US
dc.subjectKayıp verien_US
dc.subjectVeri toplamaen_US
dc.subjectBagging ve Boosting yöntemlerien_US
dc.titleKayıp gözlem içeren dengesiz veri setlerinin topluluk öğrenme algoritmaları ile sınıflandırılmasıen_US
dc.typemasterThesisen_US
dc.departmentEnstitüler, Mimar Sinan Güzel Sanatlar Üniversitesi, Fen Bilimleri Enstitüsü, İstatistik Anabilim Dalı, İstatistik Programıen_US
dc.institutionauthorGümüştaş, Enisen_US
dc.relation.publicationcategoryTezen_US
dc.identifier.demirbas0075022en_US
dc.identifier.yrd8D1BED05-03D6-5444-B525-622626F1927Een_US


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record