Veri bilimi için gereken temel istatistik bilgisi

Makine Öğrenimi, Derin Öğrenme ile Veri Bilimi ile ilgili herhangi bir işi gerçekleştirmek için bunların nasıl çalıştığına ve tek bir algoritmanın bu kadar büyük bir işlemi nasıl gerçekleştirebileceğine dair derinlemesine kavramları bilmemiz gerekir. Bu algoritmalar, yıllarca süren araştırma ve analizlerle oluşturulur ve daha sonra kullanıcıların kodlarında kullanmaları için sunulur.

Artık bir veri bilimcisi olarak, kodlamayla ilgili sağlam teknik bilgiye ve ayrıca istatistik ve olasılık bilgisine sahip olmak çok önemlidir çünkü işlemleri gerçekleştirmek için kullandığımız her algoritma, istatistik ve olasılık kavramları kullanılarak oluşturulur. Ayrıca istatistik konusunda uzman olduğumuz için Veri Biliminin bizim için çok kolay bir iş olduğunu söyleyebiliriz. Karar ağacı, rastgele orman, doğrusal regresyon vb. gibi her makine öğrenimi algoritması, okulda ve kolejlerde incelediğimiz bazı istatistiksel formüller kullanılarak oluşturulur.

Başarılı olması için veri bilimcisi bu nedenle bu istatistikleri ve olasılık kavramlarını öğrenmek bir zorunluluktur. Burada, adımlar alemine geldiğimizde bilmemiz gereken temel istatistikleri tartışacağız. Veri Bilimi ve Veri Görselleştirme ve Veri Önişleme ile ilgili faaliyetlerle çok ilgileniyorlar:

  • Nüfus ve Örnek: Bunlar bilinmesi gereken en temel terminolojilerdir. Popülasyon, toplam veri miktarı olarak tanımlanırken, toplam verilerden belirli veri noktalarını seçtiğimizde, örnek popülasyonun bir alt kümesi olarak tanımlanır. Örnek “n” olarak etiketlenirken popülasyon “N” olarak etiketlenir.
  • Frekans dağılımı: Bu, veri sınıflandırmasıyla uğraştığımızda herhangi bir istatistiksel sorunun temelidir. Sınıflandırma hakkında konuştuğumuzda, veri türüne (ölçülebilir veriler veya nitelikler) dayanır. Nitelik tipi veriler için, öğeleri benzer özelliklere göre gruplandırır ve ardından bunları uygun kategorilere yerleştiririz, ölçülebilir veriler söz konusu olduğunda ise sınıflara göre sınıflandırılır. Verilerin sınıflara göre bu şekilde sıralanması ve ayrılması, frekans dağılımlarının oluşmasına yol açar. Bir sınıfın verilerde kaç kez göründüğünü belirlememize yardımcı olur. “f” harfi ile ve sınıf “x” ile gösterilir. Bir frekans dağılım tablosu oluşturmak için genellikle Yule’nin 2,5 X n olan formülü1/4. Burada n toplam gözlem sayısıdır ve sınıfları bulduktan sonra genellikle verilerimizi almak istediğimiz sınıf aralığını buluruz. Bu formül tarafından verilir C= Maksimum değer – Minimum değer / Sınıf sayısı. Belirli bir sınıfa kadar olan ve bu sınıf dahil olmak üzere toplam frekansı da gösteren kümülatif frekans dağılımı gibi başka tip frekans dağılımları da mevcuttur.
  • Grafikleri çiz: Bu, iyi bir veri bilimcisi olmayı öğrenmesi gereken bir başka istatistiksel gerekliliktir çünkü verilerimizi doğru bir şekilde görselleştirmek ve onlardaki dalgalanmaları görmek ve ondan gerekli çıkarımları yapmak çok gereklidir. Veri bilimcileri tarafından kullanılan farklı grafik türleri arasında çubuk grafikler, dağılım grafikleri, çizgi grafikler, histogramlar, kutu grafikleri, pasta grafikleri ve güneş patlaması grafikleri vb.
  Herkes için eşit fırsat: Edtech, tutarlı ve kaliteli eğitim sunmaya nasıl yardımcı olabilir?
RNAarchitecture hiyerarşisi - RNA ailelerinin bir veritabanı ve sınıflandırma sistemi
RNArchitecture: Yapısal Bilgi Odaklı RNA Ailelerinin Veritabanı ve Sınıflandırma Sistemi – ResearchGate’te Bilimsel Derece. Şu adreste mevcuttur: https://www.researchgate.net/figure/A-sunburst-plot-illustrating-the-hierarchy-of-RNArchitecture-and-the-content-of-the-10_fig1_320566670 [accessed 19 Aug 2020]
  • Merkezi Trend Ölçüleri: Bu, verilerin ortalamasının, medyanının ve modunun hesaplanmasını içerir. Ortalama bize ortalamayı, modu belirli bir veri noktasının en yüksek oluşum sayısını ve ortanca verinin orta değerini söyler. Bu merkezi eğilim ölçülerinin formülü şöyledir:

Ortalama => x= ∑fx/n ve, bir + [∑fd/n X c]burada f= frekans, A= varsayılan ortalama, d= (x-A_/c, x= ara sınıf değeri, c= sınıf aralığı, n= toplam gözlem sayısı.

Mod => l + (vs/fp + fs xc), burada l= mod sınıfının alt sınırı, fp= önceki modal sınıfın frekans değeri, fs= sonraki modal sınıfın frekans değeri ve c= sınıf aralığı.

Medyan => (n+1/2) ve ben + [(n/2)-cf/f  X C], burada l= medyan sınıfların alt sınırı, n= toplam gözlem sayısı, cf= kümülatif frekans, f= medyan sınıfın sıklığı, C= sınıf aralığı.

  • dağılım: Bu, verilerin ortalama etrafındaki dağılımının ölçüsüdür ve ortalama sapma, standart sapma, varyasyon katsayısı ve varyans gibi farklı türlerdedir.
MAD- Ortalama mutlak sapma formülü
MAD- Ortalama mutlak sapma formülü
  • çarpıklık: Bu, verilerin ortalama etrafındaki dağılımını görmenin bir ölçüsüdür, yani çizilen frekans dağılımına dayalı olarak verilerimizin ne kadar simetrik olduğunu bize söyler. Simetrik dağılımın ortalama=mod=ortanca değeri vardır ve dolayısıyla çarpıklığı yoktur.

Basıklık, Gauss Dağılımı, Standart Normal Dağılım, Binom Dağılımı vb. çevrimiçi dersler olarak ve kavramlarınızı netleştirin. Bu, iyi bir Veri Bilimcisi olmanıza yardımcı olacaktır.

Çözüm

Veri bilimi ve analitik alanına dalmadan önce, temel konularda uzmanlaştığınızdan ve gerçek dünyadaki vakaları kendi başınıza çözebildiğinizden emin olun. O halde yolculuğunuza bir Veri Bilimcisi olarak başlayın ve bilginizi dünyayla paylaşın.