Makine öğreniminde normalleştirme ile standart ölçeklendirme arasındaki fark nedir?

Özellik mühendisliği ve veri görselleştirme, makine öğrenimi ve veri analitiği ile ilgili işleri gerçekleştirmenin önemli bir parçasıdır. Çünkü geliştiricilerin verilerini analiz etmelerine ve farklı olanları bulmalarına olanak tanır. aykırı değerler ve negatif ilişkili özellikler hedef fonksiyonu ile. Buradaki fikir, sağlam bir makine öğrenimi modelinin başkaları tarafından oluşturulabilmesi ve çoğaltılabilmesi için veri kümesini olabildiğince temiz hale getirmektir. Null değerlere sahip sütunları kaldırmak, sütunlardaki belirli değerleri ilgili bilgilerle değiştirmek, veri kümesindeki aykırı değerleri kaldırmak, sütunların veri türünü değiştirmek ve çok daha fazlası gibi özellik mühendisliği ile ilgili etkinlikleri gerçekleştirmenin birçok yolu vardır.

Mühendislikte böyle bir iş veri kümemizdeki sütunların meta verilerini ölçeklendirme. Genellikle veri bilimcileri tarafından gerçekleştirilen başlıca iki tür ölçeklendirme tekniği vardır ve bunlar standart ölçeklendirme ve normalleşme. Her iki ölçekleme tekniği de aynı prensipte, yani fonksiyonları azaltmakla çalışsa da, farklı çalışma mekanizmalarına sahiptirler ve farklı türde sonuçlar üretirler. Neyi ne zaman kullanacağımızı daha iyi anlayabilmemiz için bu iki ölçeklendirme tekniği arasındaki farkları tartışalım:

Ölçeklendirmeyi neden ve hangi algoritmalarda kullanıyorsunuz?

Her şeyden önce, veri setimizde uygulanacak ölçekleme tekniklerine neden ihtiyacımız olduğunu anlamamız gerekiyor, değil mi? Bunun cevabı aşağıdadır:

Fonksiyonumuzun ağırlığı güncellemek ve hatayı ya da maliyet fonksiyonunu azaltmak için global minimum noktasına ulaşmaya çalıştığı parabolik bir eğri olan gradyan inişine dayanan makine öğrenimi algoritmaları. Doğrusal, lojistik regresyon ve derin öğrenme algoritmaları gibi makine öğrenimi algoritmaları, gradyan iniş kavramına dayanır, bu nedenle verilerimizi ölçeklendirmemiz gereken yer burasıdır. Ölçeklendirme tekniklerini seçmenin mantığı, geri yayılım yoluyla ağırlıkları güncelleyerek global minimum noktasına ulaşmaya çalıştığımızda, bağımsız özniteliklerin değerlerinin doğrusal olarak ayrılabilir olması ve dağılmaması gerektiğidir, çünkü bu fazla uydurma ve yetersiz uydurmaya yol açabilir. Bu fonksiyonların doğrusal olarak ayrılmasını sağlamak için ölçekleme tekniklerini kullanmamız gerekir.

  SEO'da Yapay Zeka – Arama Motoru Optimizasyonu

Ağaç tabanlı algoritmalarda ise durum tamamen farklıdır, çünkü burada en uygun çizgiyi oluşturup sonra elemanların en uygun çizgiden uzaklıklarını hesaplayıp ağırlıkları buna göre güncellemenin bir anlamı yoktur. Bu nedenle, ağaç tabanlı algoritmalar özellik ölçeklendirme gerektirmez ve burada ölçekleme tekniklerini uygularsak modelin verimliliğini olumsuz etkiler.

normalleşme

Burada Normalleşmenin anlamının tam olarak ne olduğundan bahsedeceğiz.

Kullanıcıların verilerini 0 ile 1 arasında ölçeklendirmelerine olanak tanıyan bir ölçeklendirme tekniğidir. Bu ölçeklendirme tekniği, özellik meta verilerinin merkezi noktanın bulunduğu çan şeklindeki eğriye uymayan bir Gauss dağılımını takip etmediği durumlarda kullanılmalıdır. s, 0’a eşittir ve standart sapma 1’e eşittir. Yani veri setinin grafiği Bell eğrisini takip etmiyorsa, normalleştirme tekniğini kullanmak zorundayız. Min-Max Scaling tekniği olarak da adlandırılan, genellikle görüntü tabanlı bir analiz olan Evrişimli Sinir Ağlarında kullanılır.

Normalleştirme formülü şu şekilde verilir;

X’ = ​​X – Xmin / Xmax – Xmin, burada X bağımsız özelliktir, Xmin özelliğin minimum değeridir ve Xmax özelliğin maksimum değeridir.

Standardizasyon

Z Puanı= X – µ / σ, burada X bağımsız özelliktir, µ özellik meta verilerinin ortalamasıdır ve σ standart sapmadır.

Veri seti grafik ve gliflerle görselleştirildiğinde çan şeklindeki bir eğriye benzediğinde kullanılan bir tekniktir. Bu aynı zamanda denir Gauss normal dağılımın tüm özelliklerin ortalamanın 0 olduğu ve standart sapmanın 1 olduğu yerde. Standardizasyon tekniği, kullanıcıların veri kümesindeki aykırı değerleri bulmasına yardımcı olur. Aykırı değerleri bulma ve verileri standart ölçeğe dönüştürme yöntemi Z-skoru yöntemi olarak adlandırılır ve Z-skorunu bulma formülü aşağıda verilmiştir:

Varsayılan ölçeklendirme, Lojistik Regresyon, Destek Vektör Makinesi, Doğrusal Regresyon ve çok daha fazlası gibi birçok Makine Öğrenimi algoritmasında uygulama bulur.

Normalizasyon ve Standardizasyon

Gerçek dünyadaki durumlarda hem standardizasyon hem de normalizasyon arasındaki farktan bahsetmiş olsak da, bu tekniği burada kullanmamız ve diğerlerine saygısızlık etmemiz gerektiği gibi kesin ve hızlı bir kural olmadığından, kullanıcıların neyi ne zaman kullanacağı kullanıcılara bağlıdır. Seçim tamamen tarafsızdır ve kullanıcılar teknikleri kullanabilir, modellerini geliştirebilir ve veri kümesinin puanında elde ettikleri farkı görebilir.

  SSD Yaşam Döngüsü Beklentisi ile Yazılan Toplam Bayt (TBW) arasındaki ilişki

Python’da normalleştirme nasıl kullanılır?

from Sklearn.preprocessing import MinMaxScaler

Norm= MinMaxScaler()

X_new= Norm.fit_transform(X)

print(X_new)

Python’da standardizasyon nasıl kullanılır?

from Sklearn.preprocessing import StandardScaler

Scaler= StandardScaler()

X_new= Scaler.fit_transform(X)

print(X_new)