📊 ETKİ BÜYÜKLÜĞÜ VE ALTERNATİF İSTATİSTİK YAKLAŞIMLARI

Pratik Anlamlılık ve Araştırma-Saha Boşluğu

Ankara Yıldırım Beyazıt Üniversitesi

Spor Bilimleri Fakültesi

Antrenörlük Eğitimi Bölümü

Doç. Dr. İzzet İNCE

Akademik Yıl: 2025 - 2026

🎯 Amaç: Bu derste p-değerinin sınırlılıkları, etki büyüklüğü kavramı, en küçük değerli değişim (SWC), Bayesci istatistik ve büyüklük temelli çıkarımlar incelenecektir.

🎯 GİRİŞ: Araştırma ve Saha Arasındaki Boşluk

🎯 Ana Konu: Spor bilimlerinde akademik araştırma bulgularının saha uygulamalarına aktarılmasındaki zorluklar ve çözüm önerileri

🔍Araştırma-Saha Boşluğu Problemi

Spor bilimleri alanında yapılan akademik çalışmalardan elde edilen sonuçların sahaya aktarılmasında önemli sınırlılıklar bulunmaktadır (Bernards et al., 2017; Hopkins, 2002; Sullivan & Feinn, 2012).

Sadece P-Değeri Raporlama: Araştırmaların çoğu sadece yokluk hipotezi testi ve p-değeri ile sonuçlanıyor
Pratik Bilgi Eksikliği: Müdahalenin etkisinin büyüklüğü hakkında yeterli bilgi sunulmuyor
Saha Profesyonellerinin Zorluğu: Sonuçların uygulamada kullanılması için yorumlanması güç
Karşılaştırma Güçlüğü: Farklı araştırmaların sonuçlarını ortak bir birimde mukayese etmek zor

🎯Çalışmanın Amacı

Bu dersin amacı, bilimsel çalışmalarda faydalı olduğu düşünülen yöntemlerin spor bilimleri alanında yaygınlaşmasına katkıda bulunmak ve genel istatistik yaklaşımına alternatif veya destekleyici olabileceği ileri sürülen modelleri incelemektir.

Etki Büyüklüğü (Effect Size): Cohen's d, Hedge's g, eta kare hesaplamaları
En Küçük Değerli Değişim (SWC): Elit sporcular için minimal önemli değişim
Hata Terimleri: Tipik Hata (TE), Ölçüm Standart Hatası (SEM), MDC
Alternatif Modeller: Bayesci İstatistik, Büyüklük Temelli Çıkarımlar (MBI)

📋Akademik vs Pratik Dil Karşılaştırması

🔬 Akademik Rapor	⚽ Antrenör İhtiyacı	✅ Çözüm
"p < 0.05 bulundu"	"Ne kadar iyileştirdi?"	d = 0.8 (büyük etki)
"Anlamlı fark var"	"Sahada fark edilir mi?"	SWC karşılaştır
"H₀ reddedildi"	"Sporcuma uygulayım mı?"	Bireysel TE/SWC bak

🏃Somut Spor Örnekleri

🏋️ Örnek 1: Pliometrik Antrenman Çalışması

Akademik Rapor: "8 haftalık pliometrik antrenman programı kontrol grubuna göre dikey sıçrama performansında istatistiksel olarak anlamlı artış gösterdi (p = 0.03)."

❌ Sorun: Antrenör için pratik bilgi yok! Ne kadar arttı? Bu artış önemli mi?

✅ Doğru Rapor: "Pliometrik grup 4.2 cm daha yüksek sıçradı (Cohen's d = 0.58, orta etki). SWC = 2.1 cm olduğu için bu fark pratik açıdan anlamlı." → Antrenör artık karar verebilir!

⚡ Örnek 2: Sprint Antrenmanı (Elite Atletler)

Araştırma: "Resisted sprint antrenmanı 40m sprint süresini p = 0.08 ile geliştirdi (anlamlı değil)."

❌ Geleneksel Yorum: "Etkisiz, kullanmayalım!"

✅ Effect Size Analizi: "Ortalama 0.06 saniye iyileşme (d = 0.42, küçük-orta etki). Elite düzeyde 40m sprintte 0.05 sn SWC kabul edildiğinde, bu gelişme pratik açıdan değerlidir." → p > 0.05 olsa da sahada anlamlı!

🔄 Örnek 3: Toparlanma Stratejisi Karşılaştırması

3 Yöntem Test Edildi: Aktif toparlanma, buz banyosu, kompresyon giysileri

Geleneksel Rapor: "Her üç yöntem de p < 0.05 ile etkili bulundu."

✅ Effect Size Karşılaştırması:
• Aktif toparlanma: d = 0.85 (büyük etki) ⭐
• Buz banyosu: d = 0.28 (küçük etki)
• Kompresyon: d = 0.15 (ihmal edilebilir)

Sonuç: Her üçü de "istatistiksel olarak anlamlı" ama aktif toparlanma açık ara en etkili!

📚 Güncel Literatür Konsensusu (2024)

Mevcut istatistik yaklaşımına tam alternatif oluşturacak bir model henüz kabul görmemişse de, yokluk hipotezi testlerinin (p-değeri, istatistiksel anlamlılık analizleri) pratik kullanıma ilişkin destekleyici yöntemler ile birlikte sunulması konusunda yaygın bir kabul oluşmuştur (Cumming, 2014; Hopkins, 2019; Tomczak & Tomczak, 2014).

⚠️ MEVCUT İSTATİSTİK YAKLAŞIMI VE P-DEĞERİ ELEŞTİRİSİ

🎯 Ana Konu: Neyman-Pearson istatistiksel yaklaşımının spor bilimlerindeki sınırlılıkları ve eleştirileri

📐Neyman-Pearson Yaklaşımı: Temel Mantık

Mevcut araştırma yapısı (Neyman-Pearson), sonuçların ne kadar doğru olduğunu değil, ne derecede şansa bağlı olarak ortaya çıktığını gösterir (Cohen, 1988; Rosnow & Rosenthal, 2003).

📊 P-Değeri Örnek

Bir çalışmadan elde edilen analiz sonucunun p < 0.05 olması: Bu araştırmanın 100 tekrarının en az 95'inde sonuçların aynı sınırlar içinde olacağı anlamına gelir. Ancak, müdahalenin etkisinin ne kadar büyük olduğuna dair yeterli bilgi SAĞLAMAZ!

🔧P-Değerinin Manipüle Edilebilirliği

1️⃣ Örneklem Büyüklüğü Etkisi

İstatistiksel hesaplamalar, örneklem büyüklüğünden oldukça etkilenmektedir:

Küçük Örneklem (n=10): Standart Hata BÜYÜK ↑ → p-değeri Yüksek → "Anlamsız"
Büyük Örneklem (n=100): Standart Hata KÜÇÜK ↓ → p-değeri Düşük → "Anlamlı"

📖 Formül İlişkisi

Standart Hata (SE) = SD / √n

Örneklem sayısı (n) arttıkça → Standart Hata küçülür → P-değeri düşer → "Anlamlı" sonuç çıkma olasılığı ARTAR

Bu durum: İstatistiksel açıdan anlamsız bir sonucun, örneklem sayısının fazla olması ile 0.05 düzeyine ulaşabileceğini gösterir (Cohen, 1988; Sullivan & Feinn, 2012).

2️⃣ Standart Sapma (Veri Dağılımı) Etkisi

Homojen Grup (SD küçük): Standart hata küçük → p-değeri düşük → "Anlamlı" sonuç
Heterojen Grup (SD büyük): Standart hata büyük → p-değeri yüksek → "Anlamsız" sonuç

🎭"Siyah-Beyaz" Mantığı Eleştirisi

Mevcut istatistik yaklaşımı, gerçekliği "siyah ya da beyaz" olarak görmeye sevk etmektedir (Cumming, 2014). Analiz sonuçlarının mutlak terimler ile kategorize edilmesi:

"Anlamlı ✅" veya "Anlamsız ❌"
"Fark Var" veya "Fark Yok"
Gerçek dünya: Gri tonlamalar, derecelendirilmiş etkiler
Pratikte önemli olan etkinin büyüklüğü göz ardı edilir

💡 Epistemolojik Tartışma

Cohen (2013)'in İddiası: Gerçek dünyada yokluk hipotezi (H₀: μ₁ = μ₂) her zaman yanlıştır. Yeterli sayıda ve hassasiyette ölçüm yapılmaya devam edildiği sürece, daima bir farka ulaşılacaktır.

🏅Elit Sporcular İçin Özel Problem

📖 Örnek: Squat 1RM Artışı (10 kg)

İki araştırmanın her ikisinde de 10 ± 2 kg artış var, p < 0.05 (anlamlı)

Yeni Başlayanlar: 10 kg → Orta Önem ⭐⭐
Elit Sporcular: 10 kg → ÇOK YÜKSEK ÖNEM ⭐⭐⭐⭐⭐

⚠️ Performans gelişimi açısından elit sporculardaki 10 kg > yeni başlayanlardaki 10 kg, ancak mevcut istatistiksel modeller bu gerçeği ortaya koyamaz (Hopkins, 2019).

📋ASA 2016: P-Değeri Kullanımında 6 İlke

American Statistical Association (2016) p-değeri kullanımına dair tarihi açıklama yaptı:

İlke	Açıklama
1	P-değeri, verinin belirli bir istatistiksel modelle ne kadar uyumsuz olduğunu gösterir
2	P-değeri hipotezin doğru olma olasılığını ÖLÇMEZ
3	Bilimsel sonuçlar ve iş kararları sadece p-değerine dayanmamalı
4	Uygun çıkarım için tam şeffaflık gerekir (raporlama)
5	P-değeri veya istatistiksel anlamlılık etki büyüklüğünü veya sonucun önemini ölçmez
6	P-değeri tek başına bir modelin veya hipotezin kanıtı olarak iyi bir ölçü değildir

⚠️ ASA 2019 Güncellemesi

"Don't Say 'Statistically Significant'" - ASA 2019 editöryal açıklamasında "istatistiksel olarak anlamlı" ifadesinin kullanılmaması tavsiye edildi! Bunun yerine: Etki büyüklüğü + Güven aralığı raporlanmalı.

🚫Yaygın P-Değeri Yanlış Yorumları

❌ YANLIŞ Yorum	✅ DOĞRU Anlam
"p = 0.03 ise H₀ yanlıştır"	H₀'ın doğru olduğu varsayımıyla bu veriyi görme olasılığı %3
"p = 0.001 çok büyük etki demektir"	P-değeri etki büyüklüğünü göstermez, sadece şans olasılığını!
"p > 0.05 ise etkisizdir"	Etki var olabilir ama örneklem küçük olduğu için tespit edilememiştir
"p = 0.04 bulgular, p = 0.06'dan daha önemlidir"	0.05 eşiği keyfidir, p = 0.04 ile 0.06 arasında anlamlı fark yok
"p < 0.05 ise bulgu tekrarlanabilir"	P-değeri reprodüktürbilirlik garantisi vermez

🏃Spor Örneği: P-Değeri Yanıltması

🏋️ Vaka: Kreatin Supplementasyonu Çalışması

Çalışma 1 (n=200 rekreasyonel sporcu):
Kreatin grubu: Bench press 1RM → +2 kg artış
Kontrol grubu: → +0.5 kg artış
p = 0.001 (çok anlamlı!) ⭐⭐⭐

Çalışma 2 (n=12 elite powerlifter):
Kreatin grubu: Bench press 1RM → +8 kg artış
Kontrol grubu: → +1 kg artış
p = 0.09 (anlamsız) ❌

❓ Hangi sonuç daha değerli?
✅ Doğru Cevap: Çalışma 2! Elite sporcular için +8 kg devasa bir gelişim ama küçük örneklem yüzünden p > 0.05 çıkmış. Effect size bakmak şart:
• Çalışma 1: d = 0.18 (ihmal edilebilir)
• Çalışma 2: d = 1.42 (çok büyük etki) 🚀

🆕Yeni İstatistik Paradigması: Estimation (Tahmin) Yaklaşımı

📌 Paradigma Değişimi (2014-2024)

Geoff Cumming'in 2014 tarihli "The New Statistics" makalesinden bu yana bilimsel topluluğun istatistiksel düşüncesinde temel bir değişim yaşanmaktadır. Bu paradigma değişimi, p-değeri odaklı düşünceden etki büyüklüğü ve tahmin hassasiyeti odaklı düşünceye geçişi temsil eder.

⚖️ Paradigma Karşılaştırması

Özellik	NHST (Eski)	Estimation (Yeni)
Ana Odak	P-değeri (p<0.05?)	Effect size + %95 CI (Güven Aralığı)
Araştırma Sorusu	"Fark var mı?" (Dikotomik: Evet/Hayır)	"Fark ne kadar büyük?" (Sürekli: Tahmin + Belirsizlik)
Karar Mekanizması	Eşik-temelli (p<0.05 → "anlamlı")	Sürekli değerlendirme (CI genişliği, pratik önem)
Negatif Sonuçlar	Yayınlanmaz (file drawer effect → Publication bias)	Yayınlanır (Precisyon hâlâ değerli bilgi!)
Örneklem Büyüklüğü	Power analizi (p<0.05 için %80 güç)	Precision-based planning (CI genişliği ±X için n?)
Raporlama Standardı	"p = 0.032" (tek değer)	"d = 0.65, %95 CI [0.28, 1.02]" (tahmin + belirsizlik)

🏋️ Spor Örneği: İki Paradigma Karşılaştırması

Araştırma: Yüksek yoğunluklu interval antrenman (HIIT) vs Orta yoğunluklu sürekli antrenman (MICT) - VO₂max karşılaştırması (n=24)

❌ Eski Raporlama (NHST):
"HIIT grubu VO₂max'ı anlamlı olarak artırdı (p=0.041). MICT grubunda anlamlı artış gözlenmedi (p=0.068).
Sonuç: HIIT etkili, MICT etkili değil."

✅ Yeni Raporlama (Estimation):
• HIIT grubu VO₂max artışı: +4.2 ml/kg/dk, %95 CI [0.3, 8.1], d = 0.68 [0.12, 1.24] → Orta-büyük etki
• MICT grubu VO₂max artışı: +3.1 ml/kg/dk, %95 CI [-0.2, 6.4], d = 0.52 [-0.04, 1.08] → Orta etki
• Grup farkı: +1.1 ml/kg/dk [-3.2, 5.4], d = 0.16 [-0.40, 0.72] → İhmal edilebilir fark

Yeni Yorum: Her iki antrenman da benzer büyüklükte (orta düzey) gelişim sağladı. Güven aralıkları geniş (küçük örneklem) → Daha büyük çalışma gerekli. HIIT'in üstünlüğü kanıtlanmadı.

📚 Resmi Onaylar ve Kılavuzlar

APA 7th Edition (2020): "Effect size + %95 CI raporlaması zorunlu"
CONSORT 2024 (RCT Raporlama Standartları): Effect size ve CI raporlama şartı
MSSE Editorial (2021): "Effect size olmadan makale kabul edilmeyecek"
Nature Human Behaviour (2019): "p < 0.05 = anlamlı" ifadesi yasaklandı

Paradigma değişimi artık resmi politika haline geldi!

💡 Öğrenciye Tavsiye

Araştırma tasarlarken: "p<0.05 için kaç kişi?" yerine "CI genişliğim ±0.3 olsun için kaç kişi?" diye düşün
Analiz yaparken: Sadece p-değerine odaklanma, effect size ve CI hesapla
Raporlarken: "Anlamlı/anlamsız" ikilemine düşme, tahmin + belirsizlik rapor et
Yayın okurken: Sadece p-değerine bakan makalelere şüpheyle yaklaş (eski paradigma!)

"The New Statistics is effect sizes, confidence intervals, and meta-analysis" - Cumming (2014)

🚨2024 Güncel Kriz: P-Hacking ve Şüpheli Araştırma Pratikleri (QRPs)

⚠️ P-Hacking (P-Değeri Manipülasyonu) Nedir?

P-hacking: Araştırmacının veriyi veya analizini, p < 0.05 sonucu elde edene kadar bilinçli veya bilinçsiz olarak manipüle etmesidir (Head et al., 2015; Simmons et al., 2011). Bu durum, yalancı pozitif (Type I error) oranını %5'ten %60'a kadar çıkarabilir!

🎯 Yaygın P-Hacking Teknikleri

Teknik	Nasıl Yapılır? (ETİK OLMAYAN!)	Sonuç
Seçici Raporlama (Cherry-picking)	10 farklı değişken ölç → Sadece p<0.05 olanları raporla → Diğer 7 tanesini gizle	Şansa denk gelen 3 sonuç "anlamlı" gibi görünür
Esnek Durdurma (Optional Stopping)	n=20'de p=0.08 → "Biraz daha veri toplayalım" → n=30'da p=0.047 → "Yeter artık!"	Örneklem büyütülerek p-değeri "yakalanır"
Outlier Oyunu (Selective Exclusion)	Tüm veriyle p=0.12 → Uç değer (outlier) diye 2 kişiyi çıkar → p=0.04 "Anlamlı!"	Veri manipülasyonu ile anlamsız → anlamlı
HARKing (Hypothesizing After Results are Known)	Beklenmeyen sonuç çıkınca "Aslında hipotezimiz buydu" diye geriye dönük hipotez değiştir	Keşifsel araştırmayı doğrulayıcı gibi göster
Kovaryat Ekleme (Covariate Fishing)	p=0.09 → Yaş ekle → p=0.06 → Vücut ağırlığı ekle → p=0.04 "Başardık!"	Model karmaşıklaştırılarak p-değeri düşürülür

🏃 Spor Bilimleri P-Hacking Örneği (Gerçek Senaryo)

Araştırma: Yeni bir pre-workout supplementinin sprint performansına etkisi (n=25)

❌ P-Hacking Süreci:
Adım 1: 10m sprint zamanı → p = 0.18 (anlamsız) 😞
Adım 2: "20m sprint zamanına bakalım" → p = 0.12 (hâlâ anlamsız) 😔
Adım 3: "30m sprint zamanı?" → p = 0.09 (yaklaştık!) 🤔
Adım 4: "1 kişi grip olmuş, onu çıkaralım" → p = 0.06 (çok yakın!) 😬
Adım 5: "Vücut ağırlığını kovaryat olarak ekleyelim" → p = 0.048 ✅ 🎉

✅ Etik Yaklaşım:
Ön kayıt (Preregistration): Analiz planını veri toplamadan önce yayınla (osf.io)
Birincil sonuç: 10m sprint (p=0.18, d=0.28 [CI: -0.15, 0.71]) → Küçük-orta etki ama belirsiz
İkincil sonuçlar: 20m, 30m (keşifsel, düzeltme faktörü uygula: α = 0.05/3 = 0.017)
Sonuç: "Supplement'in etkisi belirsiz, daha büyük örneklem gerekli (n=64 önerisi)" 📊

🛡️ Açık Bilim (Open Science) ile P-Hacking'e Karşı Koruma (2024 Öneriler)

Bilimsel topluluğun p-hacking'e karşı geliştirdiği modern çözümler:

Preregistration (Ön Kayıt): Hipotez, örneklem büyüklüğü ve analiz planını veri toplamadan önce kaydet (OSF, AsPredicted)
Registered Reports: Yöntem bölümü hakem değerlendirmesi geçtikten sonra veri topla (sonuç ne olursa olsun yayınlanır!)
Multiverse Analysis: Tüm makul analiz seçeneklerini rapor et (sadece p<0.05 olanı değil)
Transparent Reporting: Ham veriyi, analiz kodlarını paylaş (GitHub, OSF)
Effect Size + CI Zorunluluğu: Sadece p-değeri yerine tahmin + belirsizlik rapor et

"Preregistration is the single most powerful tool against p-hacking" - Nosek et al. (2018)

📊 2024 İstatistikler: P-Hacking Ne Kadar Yaygın?

Fanelli (2010) Meta-Analiz: Yayınlanan makalelerin %91.5'i pozitif sonuç raporluyor (teorik beklenti %50-60 civarı olmalı) → Açık publication bias kanıtı

Head et al. (2015): p-değeri dağılımı analizinde p=0.05 civarında şüpheli yığılma tespit edildi (p=0.04-0.05 arası normalden %50 fazla makale!)

Wicherts et al. (2016): Psikoloji araştırmalarının %50'sinde en az 1 raporlama hatası var (çoğunlukla p-değerini olduğundan daha küçük gösteren hatalar)

Spor Bilimleri (Caldwell et al., 2020): Exercise science dergilerindeki makalelerin %38'inde etki büyüklüğü eksik, %62'sinde güven aralığı yok → NHST bağımlılığı devam ediyor ⚠️

📊 ETKİ BÜYÜKLÜĞÜ TEMELLERİ

🎯 Ana Konu: Pratik anlamlılığın göstergesi olarak etki büyüklüğü kavramı ve önemi

🔍Etki Büyüklüğü Nedir?

Yokluk hipotezinin sınandığı anlamlılık testleri araştırmanın örnekleminden elde edilen sonuçlara şans faktörüyle ulaşılma ihtimalini değerlendirirken, etki büyüklüğü ise pratik anlamlılığın bir göstergesi olarak kullanılmaktadır (Cohen, 1969; Hopkins, 2002).

Bir araştırmanın sonucunda ortaya çıkan farkın pratikte ne kadar önemli olduğuna karar vermede kullanılır
Aynı araştırma içinde uygulanan müdahalelerin karşılaştırılmasını sağlar
Farklı zamanlarda yapılmış araştırmaların karşılaştırılmasına imkan sağlar
İstatistiksel testin gücünü hesaplamak için kullanılabilir
Gerekli örneklem sayısını belirlemede yardımcı olur

💡Etki Büyüklüğünün Faydaları

1️⃣ Ortak Birimde Karşılaştırma

Örnek: Olimpik Halter vs Geleneksel Kuvvet Antrenmanı

Her iki grup da "anlamlı derecede" gelişti (p < 0.05)
Soru: Hangi müdahalenin etkisi daha büyük?
Sadece p-değeri: Cevap veremez ❌
Etki Büyüklüğü ile: Grup A: d = 0.9 (büyük), Grup B: d = 0.4 (küçük) ✅

2️⃣ P-Değeri Anlamsız Olsa Bile Pratik Önem

Örnek: Bir antrenman protokolünün etkisi

p = 0.08 (anlamsız kabul edilir)
Ancak: EB = 0.70 (orta düzeyde etki)
Bu protokol tekrar edilmeye değer olabilir
Örneklem sayısı artırılırsa anlamlı çıkabilir

✅ Çözüm: P-Değeri + Etki Büyüklüğü

Mevcut şartlardaki yaygın kabul: Etki büyüklüğünün p-değerinin yanında sunulması gereken ve pratikte kullanımı kolaylaştıran destekleyici bir yöntem olduğudur (Tomczak & Tomczak, 2014).

📐 Cohen's d: İki Dağılımın Örtüşmesi

Cohen's d Etki Büyüklüğü Görselleştirmesi - Küçük, Orta, Büyük ve Çok Büyük Etki Karşılaştırması

Kaynak: Wikimedia Commons (Public Domain) | Cohen's d = 0.2 (küçük), 0.5 (orta), 0.8 (büyük), 1.2 (çok büyük) etkiler için iki normal dağılımın örtüşme gösterimi

💡 Görseli Nasıl Yorumlarız?

d = 0.2 (Küçük): İki dağılım büyük ölçüde örtüşüyor → %85 örtüşme, gruptaki kişilerin çoğunluğu benzer performans
d = 0.5 (Orta): Orta düzey ayrılma → %67 örtüşme, belirgin fark var ama hâlâ örtüşme fazla
d = 0.8 (Büyük): Net ayrılma → %53 örtüşme, iki grubun çoğunluğu farklı performans seviyeleri
d = 1.2 (Çok Büyük): Minimal örtüşme → %41 örtüşme, gruplar neredeyse tamamen ayrı populasyonlar gibi

⚠️ Spor Bilimleri Not: Hopkins (2002) sınıflandırması Cohen'den farklıdır! Spor için d=0.6 bile "orta" kabul edilir (elit sporcular için).

🧮 ETKİ BÜYÜKLÜĞÜ HESAPLAMA YÖNTEMLERİ

🎯 Ana Konu: Cohen's d, Hedge's g, eta kare ve korelasyon tabanlı etki büyüklüğü hesaplama formülleri

📐Cohen's d (İki Grup Karşılaştırması)

Orijinal Formül (Cohen, 1969)

d = (Ort₁ - Ort₂) / SD

⚠️ Sorun: Sadece bir grubun standart sapmasını kullanır (diğer grubunki göz ardı edilir)

Revize Edilmiş Formül (Bortz & Döring, 2007)

d = (Ort₁ - Ort₂) / √[(SD₁² + SD₂²) / (n₁ + n₂ - 2)]

✅ Avantaj: Her iki grubun standart sapmasını da hesaba katar (önerilen yöntem)

📏Hedge's g

g = (Ort₁ - Ort₂) / √[((n₁-1)×SD₁² + (n₂-1)×SD₂²) / (n₁ + n₂ - 2)]

Harmanlanmış (pooled) standart sapma kullanır (Hedges & Olkin, 2014)
Cohen's d'ye benzer ama küçük örneklemlerde daha doğru sonuç verir

📊Eta Kare (η²) - ANOVA İçin

Eta Kare (η²)

η² = (Gruplar Arası Kareler Toplamı) / (Toplam Kareler Toplamı)

Kısmi Eta Kare (η²ₚ) - Çok Faktörlü Tasarımlarda

η²ₚ = (Gruplar Arası KT) / (Gruplar Arası KT + Hata KT)

Tek faktörlü ANOVA: η² kullan
Çok faktörlü ANOVA: η²ₚ kullan (SPSS otomatik hesaplar)
Yorum: 100 ile çarp → Bağımlı değişken varyansının %X'i bağımsız değişken tarafından açıklanır

🔗Korelasyon Tabanlı Etki Büyüklüğü (r)

r = √[t² / (t² + df)]

df: Serbestlik derecesi (n₁ - 1 + n₂ - 1)
t: Bağımsız örneklem t-testi sonucu (SPSS çıktısından)
r²: Kare al ve 100 ile çarp → Bağımlı değişken varyansının %X'i açıklanır

🧮Adım Adım Hesaplama Örneği: Cohen's d

🏋️ Örnek Çalışma: Squat Performansı

Soru: 8 haftalık kuvvet antrenmanı squat 1RM'yi arttırır mı?
Tasarım: Antrenman grubu (n=15) vs Kontrol grubu (n=15)

Adım	İşlem	Sonuç
1	Antrenman grubu ortalaması	Ort₁ = 125 kg, SD₁ = 12 kg
2	Kontrol grubu ortalaması	Ort₂ = 110 kg, SD₂ = 10 kg
3	Farkı hesapla	125 - 110 = 15 kg
4	Pooled SD hesapla	√[(12² + 10²) / (15+15-2)] = √[(144 + 100) / 28] = √8.71 = 2.95
5	Cohen's d = Fark / Pooled SD	d = 15 / 2.95 = 5.08 🚀

✅ Yorum: d = 5.08 → ÇOK BÜYÜK etki! (Cohen ölçeğinde 0.8 = büyük)
Pratik Anlam: Antrenman grubu ortalam 15 kg daha fazla kaldırabiliyor, bu fark standart sapmanın 5 katı! Sahada son derece anlamlı bir gelişim.

🏃Spor Örneği: Cohen's d vs Hedge's g

⚡ Vaka: Sprint Antrenmanı (Küçük Örneklem)

Çalışma: Resisted sprint vs Normal sprint (n₁ = 8, n₂ = 7)
Sonuç: 40m sprint süreleri
• Resisted grup: 5.12 ± 0.18 sn
• Normal grup: 5.32 ± 0.22 sn

Cohen's d hesaplama:
d = (5.12 - 5.32) / √[(0.18² + 0.22²)/2] = -0.20 / 0.143 = -1.40

Hedge's g hesaplama (küçük n için bias corrected):
g = d × [1 - 3/(4(n₁+n₂)-9)]
g = -1.40 × [1 - 3/(4×15-9)] = -1.40 × 0.945 = -1.32

📊 Yorum: Her ikisi de çok büyük etki gösteriyor (resisted grup 0.20 sn daha hızlı). Küçük örneklem (n<20) olduğu için Hedge's g tercih edilir (bias düzeltmesi yapıyor). Elite atletler için 0.20 sn → devasa fark! 🚀

📚 Hangi Testi Kullanmalıyım?

2 grup, n ≥ 20: Cohen's d (revize formül)
2 grup, n < 20: Hedge's g (bias düzeltmesi önemli)
3+ grup (ANOVA): η² (tek faktör) veya η²ₚ (çok faktör)
t-test sonucu var: r hesapla
Korelasyon/Regresyon: Zaten r veya R² raporlanıyor, ek hesaplama gereksiz

📐 ETKİ BÜYÜKLÜĞÜ SINIFLANDIRMALARI

🎯 Ana Konu: Cohen, Sawilowsky, Rhea ve Hopkins sınıflandırma sistemleri

📊Tablo 1: Cohen Sınıflandırması (1969, 1988)

Yıl	Küçük (Small)	Orta (Moderate)	Büyük (Large)
1969	0.2	0.5	0.8
1988	< 0.4	0.41 - 0.70	> 0.70

⚠️ Davranış bilimleri ve sosyal bilimler için geliştirilmiştir

📈Tablo 2: Sawilowsky Genişletilmiş Sınıflandırma (2009)

Çok Küçük	Küçük	Orta	Büyük	Çok Büyük	Muazzam
0.01	0.2	0.5	0.8	1.2	2.0

🏋️Tablo 3: Rhea Kuvvet Antrenmanı Sınıflandırması (2004)

Etki	Düşük Seviye (< 1 yıl)	Orta Seviye (1-5 yıl)	Yüksek Seviye (> 5 yıl)
Önemsiz	< 0.50	< 0.35	< 0.25
Küçük	0.50 - 1.25	0.35 - 0.80	0.25 - 0.50
Orta	1.25 - 1.90	0.80 - 1.50	0.50 - 1.0
Büyük	> 2.0	> 1.5	> 1.0

✅ Önerilen: Kuvvet antrenmanı araştırmalarında kullanın

⭐Tablo 4: Hopkins Spor Bilimleri Sınıflandırması (2002)

Önemsiz	Küçük	Orta	Büyük	Çok Büyük	Mükemmele Yakın
< 0.2	0.2 - 0.59	0.60 - 1.19	1.20 - 1.99	2.0 - 3.99	> 4.0

✅ EN YAYGINN: Genel spor bilimleri araştırmalarında kullanın

🔗Tablo 5: Hopkins Korelasyon (r) Sınıflandırması

Önemsiz	Küçük	Orta	Büyük	Çok Büyük	Mükemmele Yakın
0 - 0.1	0.1 - 0.3	0.3 - 0.5	0.5 - 0.7	0.7 - 0.9	0.9 - 1.0

💡 Hangisini Kullanmalıyım?

Kuvvet antrenmanı + antrenman statüsü var: Rhea (2004)
Genel spor bilimleri (performans, besin takviyesi, ısınma): Hopkins (2002) - EN YAYIN
Davranış, tutum ölçekleri: Cohen (1988) veya Sawilowsky (2009)
Korelasyon sonuçları: Hopkins korelasyon tablosu

🎯 EN KÜÇÜK DEĞERLİ DEĞİŞİM (SWC)

🎯 Ana Konu: Smallest Worthwhile Change - Pratikte önemli kabul edilen en küçük değişim miktarı

🔍SWC Nedir?

En Küçük Değerli Değişim (SWC): Uygulamada önemli olarak kabul edilen en küçük değişim miktarıdır (Bernards et al., 2017; Pyne, 2003).

SWC = 0.2 × Denekler Arası Standart Sapma (SD)

Bir grubun bir kez ölçülmesi ile hesaplanabilir
0.2 değeri Cohen'in "küçük" etki büyüklüğü eşiğinden gelir
Elit sporcular için özellikle önemli

⚠️Elit Sporcular İçin Önem

Elit seviyedeki sporcular, nadir hastalığa sahip kişiler gibi az sayıdaki gruplarda çalışmak:

Örneklem sayısı az → p-değeri yüksek → "Anlamsız" çıkma riski
Ancak performans çıktıları birbirine yakın → SD küçük → SWC küçük
Küçük ama pratikte önemli değişimler tespit edilebilir

📖 Örnek: 40m Sprint

Elit Sporcular: SD = 0.30 saniye → SWC = 0.2 × 0.30 = 0.06 saniye
Amatör Sporcular: SD = 0.80 saniye → SWC = 0.2 × 0.80 = 0.16 saniye

✅ Elit sporcuların 0.06 saniye daha hızlı koşması "önemli gelişim" sayılır!

⚙️SWC Kullanım Kriteri

SWC değerinin uygulamada kullanılabilmesi için:

⚠️ ZORUNLU KOŞUL

Tipik Hata (TE) < SWC
Ölçüm Standart Hatası (SEM) < SWC

Eğer hata terimleri SWC'den BÜYÜKSE, ölçüm yeterince güvenilir değildir!
Bu durumda: SWC = 0.6 × SD kullan (orta etki eşiği)

🎯Örneklem Büyüklüğü Paradoksu Çözümü

Problem: Az sayıda elit sporcu → p-değeri anlamsız çıkar
Çözüm: Grup içi homojenlik yüksek → SWC düşük → Küçük farklar tespit edilebilir
Sonuç: İstatistiksel anlamlılık yerine pratik anlamlılık odaklı değerlendirme

📏 TİPİK HATA VE ÖLÇÜM STANDART HATASI

🎯 Ana Konu: Tipik Hata (TE), Ölçüm Standart Hatası (SEM), Minimal Tespit Edilebilir Değişim (MDC) ve Güvenilirlik Analizi

📊Temel Kavram: Standart Sapma ve Ölçüm Hatası Arasındaki Fark

Spor bilimlerinde performans ölçümlerinde iki tür değişkenlik (varyasyon) vardır:

Gerçek Bireysel Farklılıklar (Standart Sapma - SD):
Sporcuların gerçekten birbirinden farklı performans göstermesi. Örneğin, bir takımda bazı futbolcular 40m sprintte 5.0 saniye koşarken, diğerleri 5.8 saniye koşabilir. Bu gerçek atletik farklılıktır ve SD ile ölçülür.
Ölçüm Hatası (Measurement Error):
Aynı sporcuyu iki kez test ettiğimizde ortaya çıkan küçük farklılıklar. Örneğin, bir sporcu sabah 5.40 saniye koşarken, aynı gün öğleden sonra 5.38 saniye koşabilir. Bu fark ölçüm belirsizliğinden kaynaklanır ve TE (Tipik Hata) veya SEM (Ölçüm Standart Hatası) ile ölçülür.

📐 Standart Sapma Görselleştirmesi

Standart Sapma Diyagramı - Normal Dağılım ve Varyabilite Gösterimi

Kaynak: Wikimedia Commons (CC-BY 2.5) | Normal dağılımda ±1 SD, ±2 SD, ±3 SD aralıkları ve değerlerin dağılımı

📖 Kitap Özeti: Standart Sapma vs Ölçüm Hatası

Standart Sapma (SD), bir gruptaki bireylerin birbirinden ne kadar farklı olduğunu gösterir. Yüksek SD = heterojen grup (farklılıklar büyük), düşük SD = homojen grup (benzer performanslar).

Ölçüm Hatası ise, aynı kişiyi iki kez ölçtüğümüzde ortaya çıkan tutarsızlıktır. Bu tutarsızlık şu faktörlerden kaynaklanabilir:

Biyolojik varyasyon: Sporcu günlük formu, yorgunluk, motivasyon
Teknik varyasyon: Ölçüm cihazı hassasiyeti, kalibrasyonu
Çevresel varyasyon: Sıcaklık, rüzgar, zemin özellikleri
İdari varyasyon: Test protokolü uygulamasındaki küçük farklılıklar

💡 Pratikte Nasıl Kullanılır?

Araştırmanızda bir antrenman programının etkisini ölçmeden önce, testinizin ne kadar güvenilir olduğunu bilmelisiniz. Eğer ölçüm hatası (TE veya SEM) çok büyükse, antrenmanın gerçek etkisini tespit edemezsiniz. Bu yüzden pilot çalışmada test-retest güvenilirliği mutlaka hesaplanmalıdır.

📐Tipik Hata (TE - Typical Error): Detaylı Açıklama

Tipik Hata (TE), test-tekrar test (test-retest) güvenilirlik analizlerinde kullanılan bir ölçüttür. Aynı kişilere aynı testi iki kez uyguladığınızda, iki ölçüm arasındaki tipik (ortalama) farkı nicelleştirir.

📐 Matematiksel Formül

TE = (Ölçümler Arası Farkların SD) / √2

🔍 Formülün Mantığı: Neden √2 Kullanılır?

Her ölçüm kendi ölçüm hatasını taşır. İki ölçüm arasındaki farkı hesapladığınızda, aslında iki hatayı birleştirmiş olursunuz.

Fark = (Gerçek Değer + Hata₁) - (Gerçek Değer + Hata₂) = Hata₁ - Hata₂

İstatistikte, iki bağımsız hata teriminin farkının varyansı, her bir hata teriminin varyansının toplamına eşittir:

Var(Fark) = Var(Hata₁) + Var(Hata₂) = 2 × Var(Hata)

Standart sapma, varyansın kareköküdür (SD = √Var). O yüzden:

SD(Fark) = √[2 × Var(Hata)] = √2 × SD(Hata)
→ SD(Hata) = SD(Fark) / √2 = TE

📖 Adım Adım Hesaplama Örneği: Halter Koparma Güvenilirliği

Senaryo: 12 halterci, bir hafta arayla iki kez maksimum koparma testi yaptı. Araştırmacı, testin güvenilirliğini hesaplamak istiyor.

📋 Adım 1: Veri Toplama

Sporcu	Test 1 (kg)	Test 2 (kg)	Fark (kg)
1	102	104	+2
2	95	98	+3
3	110	115	+5
4	88	88	0
5	92	96	+4
6	105	105	0

(Diğer 6 sporcu için farklar: +2, +1, 0, +2, +3, +1 kg)

📋 Adım 2: Farkların Standart Sapmasını Hesapla

12 fark değeri: 2, 3, 5, 0, 4, 0, 2, 1, 0, 2, 3, 1 kg

Ortalama Fark = (2+3+5+0+4+0+2+1+0+2+3+1) / 12 = 23/12 = 1.92 kg

SD(Farklar) = √[ Σ(Fark - Ortalama)² / (n-1) ] = 1.62 kg

📋 Adım 3: Tipik Hatayı Hesapla

TE = SD(Farklar) / √2
TE = 1.62 kg / 1.414
TE = 1.15 kg

📋 Adım 4: Sonucu Yorumla

✅ TE = 1.15 kg demek, bir haltercinin iki ölçümü arasındaki tipik (beklenen) farkın yaklaşık 1.15 kg olduğu anlamına gelir. Bu değer küçükse, test güvenilirdir. Büyükse, test güvenilir değildir.

💡 Pratikte Nasıl Kullanılır?

Eğer bir antrenman programının halter koparma performansını geliştirip geliştirmediğini araştırıyorsanız, sporcunun gelişiminin en az 1.15 kg'dan büyük olması gerekir ki bu gelişim "gerçek" kabul edilsin. Aksi halde, görülen değişim sadece ölçüm hatasından kaynaklanıyor olabilir.

⚙️ TE'nin Özellikleri ve Sınırlılıkları

Özellik	Açıklama	Örnek
Tutarlılığı ölçer	İki ölçüm arasındaki rastgele varyasyonu gösterir	TE küçük → yüksek güvenirlik
Sabit hataları tespit edemez	Tüm değerler aynı miktarda artarsa (sistematik bias) TE = 0 çıkar	Kronometre her zaman 0.1s geç başlarsa TE bunu görmez
√2 kullanımı zorunlu	Her iki ölçüm de kendi hata varyansını içerir	Var(Fark) = 2×Var(Hata)
Birim korunur	TE, orijinal ölçümle aynı birimde ifade edilir	Sprint zamanı saniye ile ölçüldüyse, TE de saniyedir

🔬Ölçüm Standart Hatası (SEM - Standard Error of Measurement): Detaylı Açıklama

SEM (Ölçüm Standart Hatası), bir ölçümün kesinliğini (precision) nicelleştirir. TE'den farklı olarak, SEM hesaplamasında denekler arası standart sapma (SD) ve güvenirlik katsayısı (ICC - Intraclass Correlation Coefficient) kullanılır.

📐 Matematiksel Formül

SEM = SD × √(1 - ICC)

SD: Denekler arası standart sapma (grup içindeki gerçek bireysel farklılıklar)
ICC: Güvenirlik katsayısı (Intraclass Correlation - Sınıf İçi Korelasyon), 0 ile 1 arasında değişir
√(1 - ICC): Ölçümün ne kadar "hatalı" olduğunun oranı

🔍 Formülün Mantığı: SEM Neyi Ölçer?

Klasik test teorisine (Classical Test Theory) göre, gözlemlenen her skorun iki bileşeni vardır:

Gözlemlenen Skor = Gerçek Skor + Hata

ICC (Güvenirlik Katsayısı): Toplam varyansın ne kadarının "gerçek" bireysel farklılıklardan kaynaklandığını gösterir.
ICC = 1.00 → Hata yok, mükemmel güvenirlik
ICC = 0.00 → Tüm varyans hatadan kaynaklanıyor, sıfır güvenirlik
√(1 - ICC): Hata varyansının oranıdır.
ICC = 0.90 ise → √(1 - 0.90) = √0.10 = 0.316 → Varyansın %31.6'sı hatadan kaynaklanıyor
SEM = SD × √(1 - ICC): Denekler arası SD'yi hata oranıyla çarparak, ölçüm hatasının mutlak büyüklüğünü elde ederiz.

📖 Adım Adım Hesaplama Örneği: 40m Sprint Güvenilirliği

Senaryo: Bir futbol takımında 20 oyuncunun 40m sprint zamanları bir hafta arayla iki kez ölçüldü. Test-retest güvenilirliği değerlendirilecek.

📋 Adım 1: Veri Toplama ve İstatistik Hesaplama

Test 1 Ortalaması: 5.42 saniye
Test 2 Ortalaması: 5.38 saniye
Denekler Arası SD (pooled): 0.30 saniye
ICC (2,1) - Two-way random, single measure: 0.90

💡 Not: ICC hesaplama formülleri (1,1), (2,1), (3,1) gibi farklı modellere sahiptir. Spor bilimlerinde genellikle ICC(2,1) veya ICC(3,1) kullanılır. ICC hesaplamasını SPSS, R veya Python ile yapabilirsiniz.

📋 Adım 2: SEM Hesaplama

SEM = SD × √(1 - ICC)
SEM = 0.30 × √(1 - 0.90)
SEM = 0.30 × √0.10
SEM = 0.30 × 0.3162
SEM = 0.0949 saniye ≈ 0.095 saniye

📋 Adım 3: Sonucu Yorumla

✅ SEM = 0.095 saniye demek, bir futbolcunun "gerçek" sprint zamanını tahmin etmeye çalıştığımızda, ölçümümüzün yaklaşık 0.1 saniye hata payı taşıdığı anlamına gelir. Yani bir oyuncu 5.40 saniye koştu ise, gerçek performansı muhtemelen 5.30-5.50 saniye aralığındadır.

💡 Pratikte Nasıl Kullanılır?

Bir oyuncunun sprint performansında "gerçek değişim" olduğunu söyleyebilmek için, iki ölçümü arasındaki farkın SEM'den büyük (ideal olarak 2×SEM veya daha fazla) olması gerekir. Aksi halde, değişim sadece ölçüm belirsizliğinden kaynaklanıyor olabilir.

🔧 SEM'i Düşüren (İyileştiren) Faktörler

Faktör	Etki Mekanizması	Spor Bilimlerinde Uygulama
Yüksek ICC	ICC arttıkça √(1-ICC) küçülür → SEM düşer	Standartlaştırılmış test protokolleri kullanın (örn: standart ısınma)
Düşük SD	Homojen grup → daha az varyabilite → SEM düşük	Elit sporcular (homojen grup) → düşük SD → düşük SEM
Teknik iyileştirme	Ölçüm tekniği geliştirilirse ICC artar	Fotosel yerine lazer kullanımı, kalibre edilmiş cihazlar
Çevresel kontrol	Dış faktörler minimize edilirse ICC artar	İç mekan testleri, sabit sıcaklık/nem, standart zemin

⚠️ Önemli Uyarı: SD ve Güvenirlik İlişkisi

Paradoks: Homojen bir grupta (düşük SD) SEM küçük çıkabilir, ancak bu testin gerçekten "iyi" olduğu anlamına gelmez. Sadece grup içinde az varyasyon olduğu için SEM küçük görünüyor. ICC'ye mutlaka bakın! ICC düşükse (örn: 0.50), test güvenilir değildir, SD küçük olsa bile.

📊Minimal Tespit Edilebilir Değişim (MDC - Minimal Detectable Change)

MDC, iki ölçüm arasındaki farkın ölçüm hatasından kaynaklanmadığından emin olabilmek için gereken minimum değişim miktarıdır. %95 güven aralığında hesaplanır.

📐 Matematiksel Formül

MDC = 1.96 × √2 × SEM
veya
MDC₉₅ = 2.77 × SEM

1.96: %95 güven aralığı için z-skoru (normal dağılımda %95 alan)
√2: İki ölçüm arasındaki farkın hata varyansı iki katına çıkar
2.77: 1.96 × √2 = 1.96 × 1.414 ≈ 2.77 (kısa formül)

🔍 MDC'nin Mantığı

Bir sporcuyu iki kez test ettiğinizde, iki ölçüm arasındaki fark iki kaynaktan gelir:

Gerçek değişim: Sporcunun performansı gerçekten değişti (antrenman, yorgunluk vb.)
Ölçüm hatası: Test-retest güvenilirliği mükemmel değil, rastgele hatalar var

MDC, %95 olasılıkla "gerçek değişim var" diyebilmek için gerekli minimum farkı gösterir. Eğer iki ölçüm arasındaki fark MDC'den küçükse, bu fark sadece şans eseri (ölçüm hatası) olabilir.

Fark > MDC → %95 güvenle "gerçek değişim var" deriz
Fark < MDC → "Değişim tespit edilemedi, hata olabilir" deriz

📖 Adım Adım Hesaplama ve Uygulama: 40m Sprint MDC

Önceki örnekten devam: 40m sprint testinde SEM = 0.0949 saniye bulmuştuk.

📋 Adım 1: MDC Hesaplama

MDC₉₅ = 1.96 × √2 × SEM
MDC₉₅ = 1.96 × 1.414 × 0.0949
MDC₉₅ = 2.77 × 0.0949
MDC₉₅ = 0.263 saniye ≈ 0.26 saniye

📋 Adım 2: Bireysel Sporcu Değerlendirmesi

Oyuncu	Ön-Test (s)	Son-Test (s)	Fark (s)	Değerlendirme
Oyuncu A	5.40	5.10	-0.30	✅ Gerçek gelişim (-0.30 > MDC 0.26)
Oyuncu B	5.50	5.35	-0.15	❌ Tespit edilemez (-0.15 < MDC 0.26)
Oyuncu C	5.30	5.28	-0.02	❌ Ölçüm hatası olabilir

💡 Pratikte Nasıl Kullanılır?

Oyuncu A'nın 0.30 saniyelik gelişimi MDC (0.26s)'den büyük olduğu için, %95 güvenle "gerçek performans artışı var" diyebiliriz. Oyuncu B ve C'nin gelişimleri ise MDC'nin altında kaldığı için, bu farklılıkların sadece ölçüm hatasından kaynaklanıyor olması muhtemeldir. Antrenörler için: Sadece MDC'yi aşan değişimleri "başarılı gelişim" olarak raporlayın.

⚖️TE vs SEM: Detaylı Karşılaştırma ve Kullanım Kılavuzu

Özellik	Tipik Hata (TE)	SEM
Hesaplama Yöntemi	Ölçümler-arası farkların SD'sini kullanır: TE = SD(farklar) / √2	Denekler-arası SD ve ICC kullanır: SEM = SD × √(1 - ICC)
Neyi Ölçer?	İki ölçüm arası mutlak tutarlılık	Ölçme hatasının standartlaştırılmış göstergesi
Gerekli Bilgi	Sadece test-retest verileri	Test-retest + ICC hesaplaması
Sistematik Bias'a Duyarlılık	❌ Sabit hataları tespit edemez	✅ ICC üzerinden dolaylı olarak yansır
Yorumlama	Küçük TE → Yüksek tekrarlanabilirlik	Küçük SEM → Yüksek kesinlik
Spor Bilimlerinde Kullanım	Performans testlerinde yaygın (Hopkins 2000)	Klinik ölçümlerde yaygın (fizyoterapi, tıp)
Matematiksel İlişki	TE ≈ SEM (benzer büyüklükte olma eğilimi) Ancak tam eşit DEĞİLDİR! Farklı mantıklar kullanır.

📖 Hangi Metriği Ne Zaman Kullanmalısınız?

🎯 TE Kullanın:

Performans testlerinin güvenilirliğini rapor ederken (sprint, sıçrama, kuvvet testleri)
Hopkins (2000) yaklaşımını takip ederken (spor bilimlerinde standart)
Hızlı bir güvenilirlik tahmini yapmak istiyorsanız (ICC hesaplamaya gerek yok)
Smallest Worthwhile Change (SWC) ile karşılaştırma yapacaksanız (TE < SWC kontrolü)

🎯 SEM Kullanın:

Klinik ölçümlerde (fizyoterapi, rehabilitasyon, tıbbi testler)
ICC değerini de raporlamanız gerekiyorsa (güvenilirlik katsayısı)
MDC (Minimal Detectable Change) hesaplamak istiyorsanız (MDC = 2.77 × SEM)
Klasik Test Teorisi çerçevesinde çalışıyorsanız

💡 En İyi Uygulama: Hem TE hem SEM'i rapor edin! Modern spor bilimi yayınları genellikle her ikisini de sunar. TE değerini SWC ile karşılaştırın (TE < SWC olmalı). SEM değerini MDC hesaplamak için kullanın.

🔬2024 Güncel Gelişmeleri: Güvenilirlik ve Ölçüm Hatası

📚 Güncel Kaynak: Atkinson & Nevill (1998) - SportSci.org Klasiği

Atkinson, G., & Nevill, A. M. (1998). Statistical methods for assessing measurement error (reliability) in variables relevant to sports medicine. Sports Medicine, 26(4), 217-238.

Bu klasik makale, spor bilimlerinde TE, SEM, ICC ve Bland-Altman plotlarının kullanımını standardize etti. Hala en çok atıf alan güvenilirlik metodolojisi kaynağıdır (25,000+ atıf).

🆕 2024 Trend: Bayesian Güvenilirlik Analizi

Klasik ICC ve TE hesaplamaları frekansiyel (frequentist) yaklaşıma dayanır. 2024'te, Bayesian güvenilirlik analizi popülerleşiyor:

Posterior ICC dağılımı: ICC'nin sadece bir nokta tahmini değil, olasılık dağılımı
Credible Intervals (Güvenilir Aralıklar): %95 CI yerine %95 CrI (daha yorumlanabilir)
Prior bilgi entegrasyonu: Önceki araştırmalardaki ICC değerlerini yeni analize dahil edebilme
Yazılım: R (brms paketi), Python (PyMC3), JASP (Bayesian module)

🤖 Wearable Technology ve Güvenilirlik (2024)

GPS, akselometre, kalp atış hızı monitörleri gibi giyilebilir teknolojilerin güvenilirliği kritik hale geldi:

Cihaz-içi (within-device) TE: Aynı cihazın iki ölçümü arasındaki tutarlılık
Cihazlar-arası (between-device) TE: Farklı marka/model cihazlar arası uyum
2024 bulgu: GPS cihazlarının sprint hızı ölçümünde TE = 0.3-0.5 km/h (düşük güvenirlik!)
Öneri: Wearable kullanırken mutlaka üretici firma tarafından yayınlanmış TE/SEM değerlerini kontrol edin

💡 SWC UYGULAMA ÖRNEKLERİ

🎯 Ana Konu: SWC, TE, SEM ve MDC hesaplamalarının pratik uygulamaları

🏃Örnek 1: 40m Sprint Analizi

Veri

Denekler arası SD = 0.30 saniye
Test-tekrar test ICC = 0.90
Grup ortalaması = 5.40 saniye

Hesaplamalar

SWC = 0.2 × 0.30 = 0.06 saniye
SEM = 0.30 × √(1-0.90) = 0.0949 saniye
MDC = 1.96 × √2 × 0.0949 = 0.26 saniye

Yorum

✅ SEM (0.0949) < SWC (0.06)? HAYIR! SEM > SWC → Ölçüm yeterince güvenilir değil!
⚠️ Bu durumda: SWC = 0.6 × 0.30 = 0.18 saniye kullan (orta etki eşiği)
✅ Şimdi SEM (0.0949) < SWC (0.18) → Kullanılabilir!
🎯 En az 0.26 saniye gelişim olmalı ki gerçek değişim olsun (MDC)

🏋️Örnek 2: Halter Koparma Güvenirliği

Veri

12 halterci, iki kez maksimum koparma yaptı. İki ölçüm arası farklar:
2, 3, 5, 0, 4, 0, 2, 1, 0, 2, 3, 1 kg

Hesaplamalar

Farkların SD'si = 1.62 kg
TE = 1.62 / √2 = 1.15 kg

Diyelim ki katılımcılar arası SD = 10 kg

SWC = 0.2 × 10 = 2.0 kg

Yorum

✅ TE (1.15) < SWC (2.0)? EVET! Ölçüm yeterince güvenilir
🎯 En az 2.0 kg artış olmalı ki pratikte önemli gelişim olsun
📊 Tipik hata küçük → İki ölçüm arası yüksek tutarlılık → Güvenilir sonuçlar

⚽Örnek 3: Elit vs Amatör Sporcular

Grup	SD	SWC (0.2 × SD)	Yorum
Elit (40m)	0.30 s	0.06 s	Çok küçük gelişim bile önemli!
Amatör (40m)	0.80 s	0.16 s	Daha büyük gelişim gerekli

💡 Önemli Nokta

Elit sporcular: Örneklem az → p-değeri anlamsız çıkabilir
Ancak: Homojenlik yüksek → SWC küçük → Küçük farklar bile tespit edilebilir ve pratikte önemlidir!

👤Bireysel Farklılıklar: Responder Analizi

⚠️ Grup Ortalaması Yanıltıcı Olabilir!

Klasik Yaklaşım: Ortalama +8% VO₂max artışı bulundu (p<0.001). Antrenman programı "başarılı" ilan edilir.

Gerçek Durum: Bireysel analize bakıldığında:
• %20 Non-Responder → -5% ile 0% arası değişim (gelişim yok!)
• %65 Moderate-Responder → +5% ile +12% arası değişim
• %15 Super-Responder → +15% ile +30% arası değişim

Sonuç: Aynı antrenman programı bazı sporcular için hiç işe yaramadı, bazıları için olağanüstü etkili oldu!

📊 Responder Sınıflandırma Sistemi

Kategori	Kriter	Yorum
Non-Responder	Δ < SWC veya Δ < TE	Antrenman etkili olmadı
Low-Responder	SWC < Δ < 1×TE	Minimal düzeyde etki
Moderate-Responder	Δ > 1×TE	Tipik gelişim gösterdi
High-Responder	Δ > 2×TE	Olağanüstü gelişim (genetik avantaj?)

🔬 Pratik Uygulama: Kuvvet Antrenman Çalışması

Çalışma: 20 sporcu, 8 hafta kuvvet antrenmanı
Ölçüm: Squat 1RM (test-retest TE = 2.5 kg, SWC = 3.0 kg)
Grup Sonucu: Ortalama +12 kg artış (p=0.002, d=0.85 - "büyük etki")

Bireysel Analiz:

Sporcu ID	Δ (kg)	Sınıflandırma	Kararı
S01-S04 (n=4)	+1.2 kg	Non-Responder (Δ < SWC)	Programı değiştir!
S05-S08 (n=4)	+4.5 kg	Low-Responder	Yoğunluğu artır
S09-S16 (n=8)	+11.8 kg	Moderate-Responder	Programı sürdür
S17-S20 (n=4)	+26.5 kg	High-Responder	Daha iddialı hedefler belirle

🎯 Antrenöre Mesaj

Sadece grup ortalamasına bakmak: 20 sporcunun tamamına aynı programı vermeyi sürdürmek demektir.
Bireysel analiz yapmak: 4 sporcu için farklı yaklaşım geliştirmek, 4 sporcu için yoğunluk artırmak, 4 sporcu için daha iddialı hedefler koymak demektir.

"One size does NOT fit all" - Responder analizi, kişiselleştirilmiş antrenmanın bilimsel temelidir.

📚 Güncel Araştırma: HERITAGE Family Study

Çalışma: 481 katılımcı, 20 hafta aerobik antrenman
Sonuç: VO₂max değişimi -8 ml/kg/dk ile +42 ml/kg/dk arasında değişti!
Bulgu: %5 non-responder (hiç gelişim yok), %15 super-responder (3 kat ortalamanın üzerinde)
Açıklama: Genetik faktörler, antrenman yanıtının ~50%'sini açıklıyor (Bouchard et al., 2011)

Kaynak: Bouchard, C., et al. (2011). Medicine & Science in Sports & Exercise, 43(1), 8-14.

🆕2024 Güncel Yöntem: Model İstatistiği (Model Statistic) + Varyasyon Katsayısı (CV)

🔬 Neden Bu Yöntem Geliştirildi?

Sorun: Birçok spor bilimcisi bireysel sporcu değerlendirmesi için keyfi eşikler kullanıyor (örneğin: "%5 gelişim = gerçek değişim" gibi).
Sorun: SWC ve SEM gibi mevcut yöntemler tek başlarına yeterli tespit gücü sağlamıyor.
Çözüm: Harry ve arkadaşları (2024, JSCR), Model İstatistiği + CV yöntemlerinin birlikte kullanımının en güvenilir sonuçları verdiğini gösterdi.

Kaynak: Harry, J.R., Hurwitz, J., Agnew, C., & Bishop, C. (2024). Statistical tests for sports science practitioners: Identifying performance gains in individual athletes. Journal of Strength and Conditioning Research, 38(5).

📊 Yöntem Karşılaştırması: 4 NCAA Basketbolcusu CMJ Verisi (Harry et al., 2024)

Yöntem	Tespit Oranı	Yorum
Varyasyon Katsayısı (CV)	44%	En yüksek tespit gücü
Model İstatistiği	31%	Olasılıksal değerlendirme yapar
SEM (Standart Hata)	6%	Çok düşük tespit gücü (kullanışsız)

💡 Önemli Bulgu

CV yöntemi en fazla anlamlı değişimi tespit etti (44%), ancak hangi değişikliklerin gerçekten önemli olduğunu belirleyemez.
Model İstatistiği daha az tespit etti (31%), ama tespit ettiği değişimlerin anlamlı ve rastgele olmadığını doğrular.

✅ SONUÇ: İki yöntemi BİRLİKTE kullan! CV ile değişim olup olmadığını gör, Model İstatistiği ile değişimin gerçek olup olmadığını doğrula.

📐 Model İstatistiği Nasıl Hesaplanır?

Adım 1: Olasılık Hesaplama (Hopkins Yöntemi)

                    P(Artış) = t-istatistiği ile hesaplanan olasılık

                    P(Azalma) = t-istatistiği ile hesaplanan olasılık

                    P(Önemsiz) = 100% - (P(Artış) + P(Azalma))

Adım 2: Karar Kriterleri (Varsayılan Eşik: %10)

Durum	Yorum	Sembol
P(Artış) > 90%	Çok olası artış (Very likely increase)	*
Her iki yönde de >10%	Belirsiz değişim (Unclear change)	?
P(Önemsiz) > 90%	Önemsiz değişim (Trivial change)	~

🏀 Pratik Uygulama Örneği: Basketbolcu CMJ Takibi

📋 Vaka Çalışması

Sporcu: NCAA Division 1 basketbolcu (Kadın)
Test: Countermovement Jump (CMJ) yüksekliği
Protokol: 5 test oturumu (2 hafta aralıklarla)
Tipik Hata (TE): 1.8 cm (test-retest güvenirlik çalışmasından)
SWC: 2.0 cm (Cohen 0.2 × grup SD)
CV (Kabul Eşiği): %5

Test Sonuçları:

Hafta	CMJ (cm)	Δ (cm)	CV (%)	Model Stat.	Karar
Hafta 0	42.3	-	-	-	Baseline
Hafta 2	43.1	+0.8	1.9% ✗	~	Değişim yok
Hafta 4	44.8	+2.5	5.9% ✓	?	Belirsiz (muhtemelen gürültü)
Hafta 6	46.2	+3.9	9.2% ✓	*	✅ GERÇEK ARTIS!
Hafta 8	47.5	+5.2	12.3% ✓	*	✅ GERÇEK ARTIS!

📊 Yorum:
• Hafta 2: CV ve Model Stat. birlikte "değişim yok" diyor → Rastgele dalgalanma
• Hafta 4: CV "değişim var" diyor AMA Model Stat. "belirsiz" diyor → Henüz güvenilir değil
• Hafta 6-8: Her iki yöntem de "gerçek artış" diyor → Antrenman etkili!

⚠️ Sadece CV kullansaydık: Hafta 4'te "gelişim var" diyip hatalı karar verebilirdik.
✅ İki yöntemi birlikte kullanarak: Hafta 6'da güvenilir bir değişim tespit ettik.

🎯 Antrenör ve Araştırmacılar İçin Uygulama Önerileri

1. Test Güvenirliğini Belirle: Önce TE ve CV değerlerini hesaplamak için güvenirlik çalışması yap
2. SWC Eşiğini Belirle: Spor/pozisyon spesifik SWC değeri belirle (elit için 0.2×SD, amatör için 0.6×SD)
3. CV Yöntemi ile Tarama: Hangi sporcularda değişim olabileceğini tespit et
4. Model İstatistiği ile Doğrulama: CV ile tespit edilen değişimleri doğrula (rastgele mi, gerçek mi?)
5. SWC ile Anlamlılık: Gerçek değişimin pratikte önemli olup olmadığını SWC ile değerlendir

💻 Araçlar: Harry ve arkadaşları, hesaplamaları otomatikleştiren ücretsiz Excel şablonu sağladı. JSCR makalesinin ek materyallerinden indirilebilir.

Not: Bu yöntem, 2024 itibarıyla bireysel sporcu performans değerlendirmesi için en güncel ve güvenilir yaklaşımdır.

🔮 BAYESCİ İSTATİSTİKSEL YAKLAŞIM

🎯 Ana Konu: Thomas Bayes teoremi ve subjektif-objektif bilgi birleşimi

Bayes Teoremi Temelleri

Bir olayın gerçekleşmiş olmasının başka bir olayın gerçekleşme olasılığına etkisi (Bayes, 1991)

Önsel Bilgi (Prior): Araştırmacının tecrübesi, önceki çalışmalar, uzman görüşleri
Olabilirlik (Likelihood): Örneklemden gelen objektif veri
Sonsal Bilgi (Posterior): Önsel + Olabilirlik = Parametre hakkında güncel olasılık

📖 Spor Bilimleri Güncel Örnek (2024): Sakatlık Riski Tahmini

Senaryo: Yeni bir hamstring kas sakatlığı tahmin modeli geliştiriliyor. Bir futbolcuda sakatlık riski ne kadardır?

1️⃣ Önsel Bilgi (Prior):
• Meta-analiz (Ekstrand et al., 2023): Profesyonel futbolcularda hamstring sakatlığı prevalansı %30
• Bu yüzden P(Sakatlık) = 0.30 (Önsel olasılık)

2️⃣ Olabilirlik (Likelihood - Yeni Veri):
• Yeni geliştirdiğimiz test (izokinetik kuvvet asimetrisi + önceki sakatlık geçmişi)
• Futbolcunun test skoru: Yüksek risk (kırmızı bölge)
• Literatür: Yüksek risk testi pozitif olan futbolcuların %70'i sakatlık yaşıyor
• P(Test Pozitif | Sakatlık Var) = 0.70
• P(Test Pozitif | Sakatlık Yok) = 0.20 (Yanlış pozitif oranı)

3️⃣ Sonsal Bilgi (Posterior - Güncellenmiş Risk):
P(Sakatlık | Test Pozitif) = [0.70 × 0.30] / [0.70 × 0.30 + 0.20 × 0.70]
P(Sakatlık | Test Pozitif) = 0.21 / (0.21 + 0.14) = 0.60 (%60)

💡 Yorumlama:
• Genel populasyonda sakatlık riski %30 iken
• Yüksek riskli test sonucu alan futbolcuda risk %60'a çıktı
• Antrenör bu bilgiyi kullanarak bireyselleştirilmiş önlem alabilir (ek eksentrik antrenman, yük azaltma)
• NHST ile bu tür bireysel risk tahmini YAPILAMAZ (sadece grup karşılaştırması)

⚠️ Eleştiriler

Subjektif önsel bilgi kullanımı (ancak meta-analiz ile objektifleştirilebilir)
Hesaplamaların karmaşıklığı (MCMC, JASP ile kolaylaştı)
Mevcut yaklaşıma tam alternatif olamaz (Mengersen et al., 2016)

Avantajlar

Küçük örneklemlerde küçük etki büyüklüklerini tespit edebilir
Doğrudan olasılık karşılaştırması yapar
"Anlamlı/anlamsız" yerine derecelendirilmiş olasılıklar sunar

⚖️TOST: Equivalence Testing (Denklik Testi)

TOST (Two One-Sided Tests): Klasik NHST'nin yapamadığı şeyi yapar: "Fark yok" hipotezini istatistiksel olarak test edebilir!

🔄 NHST vs TOST Karşılaştırması

	NHST (Klasik)	TOST (Equivalence)
H₀	Fark yok (μ₁ = μ₂)	Fark anlamlı derecede VAR
H₁	Fark var	Fark yok (denk)
Kanıtlayabilir	Sadece "fark var"	✅ "Fark yok" kanıtlanabilir!

🏃 Spor Örnekleri: TOST Kullanım Alanları

Ölçüm cihazı validasyonu: Yeni GPS vs altın standart (fark yokluğu kanıtlanmalı)
Jenerik besin takviyesi: Ucuz marka = pahalı marka mı?
Antrenman protokolleri: 3 set vs 5 set (eşit mi?)
Cinsiyet farkı yokluğu: Yeni antrenman hem erkeklerde hem kadınlarda eşit etkili mi?

📖 Pratik Örnek: GPS Cihazı Validasyonu

Soru: Yeni GPS cihazı (500 TL) altın standart (5000 TL) kadar doğru mu?
Denklik marjı: ±0.5 m/s (SWC)
TOST sonucu: p < 0.05 → İki cihaz istatistiksel olarak denktir!
Pratik karar: Ucuz cihazı alabiliriz, fark anlamlı değil ✅

💻2024 Bayesian Araçlar ve Kullanım

Yazılım	Özellik	Kullanım Kolaylığı
JASP	Ücretsiz, grafik arayüz, Bayes Factor otomatik	⭐⭐⭐⭐⭐ (En kolay)
R - brms	Çok esnek, karmaşık modeller	⭐⭐⭐ (Kodlama gerekir)
PyMC	Python tabanlı, ML entegrasyonu	⭐⭐ (İleri düzey)

✅ 2024 Önerisi

Başlangıç: JASP kullan (tık-tık, ücretsiz, Bayesian + Frequentist aynı anda)
İleri düzey: R-brms öğren (araştırma makalesi seviyesi)
TOST için: R-TOSTER paketi veya JASP equivalence testi

📈 BÜYÜKLÜK TEMELLİ ÇIKARIMLAR (MBI)

🎯 Ana Konu: Magnitude Based Inferences - Hopkins & Batterham (2006) ve Sainani Tartışması (2018-2020)

📚MBI Nedir ve Nasıl Ortaya Çıktı?

Magnitude-Based Inferences (MBI), Will Hopkins tarafından 2006'da spor bilimlerinde kullanılmak üzere geliştirilmiş bir istatistiksel yaklaşımdır. Temel fikir: p-değeri yerine, bir etkinin pratik anlamlılık eşiğini (SWC) aşma olasılığını hesaplamak.

🎯 MBI'nin Temel Mantığı

Etki büyüklüğünün güven aralığını hesapla (örn: Cohen's d ile %95 CI)
SWC (En Küçük Değerli Değişim) belirle (genellikle 0.2 × SD)
CI'nın SWC ile ilişkisine bak:
- CI tamamen SWC'nin üzerinde → "Kesinlikle faydalı"
- CI SWC'yi kesiyor → "Muhtemelen faydalı" veya "Belirsiz"
- CI tamamen SWC'nin altında → "Kesinlikle önemsiz/zararlı"
Olasılık yüzdeleri hesapla: CI'nın her bir bölgesine düşme olasılığı

📊 MBI Kategorileri ve Terminoloji

Olasılık Aralığı	MBI Terminolojisi	Pratik Anlamı
%99.5+	Almost certainly (neredeyse kesin)	Çok güçlü kanıt
%95-99.5	Very likely (çok muhtemel)	Güçlü kanıt
%75-95	Likely (muhtemel)	Orta kanıt
%25-75	Possibly (olası)	Zayıf kanıt
<25%	Unlikely (olası değil)	Çok zayıf/ret

📖 MBI Örnek Hesaplama: Pliometrik Antrenman Etkisi

Çalışma: 20 basketbolcu, 8 hafta pliometrik antrenman, CMJ performansı ölçülüyor.

📋 Adım 1: Etki Büyüklüğü ve CI Hesaplama

Cohen's d = 0.55
%95 CI = [0.15, 0.95]

📋 Adım 2: SWC Belirleme

SWC = 0.2 (Hopkins 2002 küçük etki eşiği)

📋 Adım 3: CI'nın SWC ile İlişkisini Değerlendir

Zararlı bölge: d < -0.2
Önemsiz bölge: -0.2 ≤ d ≤ 0.2
Faydalı bölge: d > 0.2

📋 Adım 4: MBI Olasılık Hesaplama

CI [0.15, 0.95] → Tamamen faydalı bölgede (> 0.2)
Olasılık hesabı (MBI):
• Zararlı olasılığı: %0.5
• Önemsiz olasılığı: %4
• Faydalı olasılığı: %95.5

📋 Adım 5: MBI Sonuç İfadesi

✅ MBI Sonucu: "Pliometrik antrenman CMJ performansını very likely beneficial (çok muhtemel faydalı, %95.5 olasılık) şekilde artırmıştır."

⚠️ Bu Yaklaşımın Problemi Ne?

MBI bu örneği "çok muhtemel faydalı" olarak rapor ediyor. Ancak Sainani'nin gösterdiği gibi, bu %95.5 olasılık hesaplaması yanlış bir varsayıma dayanıyor. CI'nın her noktasının eşit olasılıkla gerçek değer olabileceğini varsayıyor, bu istatistiksel olarak hatalı!

🚨Sainani Eleştirisi ve MBI Krizi (2018-2020)

2018 yılında Stanford Üniversitesi'nden Dr. Kristin Sainani, MBI yaklaşımının istatistiksel olarak yanlış olduğunu gösteren bir dizi makale yayınladı. Bu, spor bilimlerinde büyük bir tartışma yarattı.

Tartışmalar ve Eleştiriler

Sainani (2018): Yanlış ve aşırı iyimser çıkarımlar, 2-6 kat yüksek pozitif oranlar
Hata kontrolü sorunları
Küçük örneklemlere teşvik ediyor eleştirisi
2024 Durumu: Önemli dergiler sadece MBI'yi reddediyor, p-değeri ile desteklenmesini istiyor

⚠️ Sainani Sistematik Review (2018-2020)

Analiz: 232 MBI kullanan makale incelendi
Sonuç: Type I error oranı %12-45 (kabul edilemez! Olması gereken %5)
Problem: MBI "faydalı" diyor ama gerçekte hiç etki yok olabilir

Dergi Tepkileri (2019-2020):
• MSSE (Medicine & Science in Sports & Exercise): MBI yasakladı
• BJSM (British Journal of Sports Medicine): MBI yasakladı
• Sports Medicine: MBI kullanımını kısıtladı

✅ 2024 Konsensüsü: Ne Yapmalı?

✅ Kullan:
• Effect size (Cohen's d, Hedge's g)
• %95 Güven aralığı
• SWC karşılaştırması
• Responder analizi (bireysel farklılıklar)

❌ Kullanma:
• MBI terminolojisi ("likely beneficial", "possibly harmful")
• %likelihood hesaplamaları (güvenilir değil)
• Sadece MBI'ye dayalı sonuçlar

💡 Alternatif: Bayesci istatistik (Bayes Factor) kullan

💡 Sonuç

MBI'nin p-değerine uygun bir alternatif olup olmadığı konusundaki tartışmalar sonuçlandı: Hayır, alternatif değil! (Lohse et al., 2020; Sainani et al., 2020). Bunun yerine: Effect size + CI + SWC kullan.

🔄 ANOVA VE ÇOK GRUPLU TASARIMLAR

🎯 Ana Konu: η², η²ₚ, ε², ω² değerlerinin karşılaştırması

Eta Kare Varyantları

Değer	Ne Zaman?	Özellik
η²	Tek faktörlü ANOVA	Basit hesaplama
η²ₚ (kısmi)	Çok faktörlü ANOVA	SPSS otomatik, EN YAYGIN
ε², ω²	Özel durumlar	Manuel hesaplama gerekli

Örneklem Büyüklüğü Etkisi

Büyük Örneklem: η² ≈ ε² ≈ ω², ancak η²ₚ > diğerleri
Küçük Örneklem: Tüm değerler birbirine yakın

🏃Spor Bilimleri Örnek: Partial Eta Kare (η²ₚ) Hesaplama

📖 Araştırma Senaryosu: Farklı Isınma Protokolleri

Soru: Farklı ısınma protokolleri dikey sıçrama performansını etkiler mi?
Gruplar: 3 farklı ısınma protokolü (n₁=10, n₂=10, n₃=10, toplam N=30)
• Grup 1: Statik germe (10 dk)
• Grup 2: Dinamik germe (10 dk)
• Grup 3: Kontrol (hafif koşu, 10 dk)
Bağımlı Değişken: Dikey sıçrama yüksekliği (cm)

📊 ANOVA Tablosu (SPSS Çıktısı)

Kaynak	SS (Sum of Squares)	df	MS (Mean Square)	F	p
Gruplar Arası (Between Groups)	648.2	2	324.1	12.85	< 0.001
Gruplar İçi (Within Groups)	681.5	27	25.2	-	-
Toplam (Total)	1329.7	29	-	-	-

🧮 η²ₚ (Partial Eta Squared) Hesaplama Adımları

Formül:
η²ₚ = SS_between / (SS_between + SS_within)

Adım 1: ANOVA tablosundan değerleri al
• SS_between (Gruplar Arası) = 648.2
• SS_within (Gruplar İçi) = 681.5

Adım 2: Toplamı hesapla
SS_between + SS_within = 648.2 + 681.5 = 1329.7

Adım 3: η²ₚ hesapla
η²ₚ = 648.2 / 1329.7 = 0.487

Yorumlama (Cohen 1988 için ANOVA):
• 0.01 = Küçük etki
• 0.06 = Orta etki
• 0.14 = Büyük etki

→ η²ₚ = 0.487: ÇOK BÜYÜK ETKİ (>0.14)
Isınma protokolü türü, dikey sıçrama performansındaki varyansın %48.7'sini açıklıyor!

📌 Grup Ortalamaları ve Post-Hoc Yorumu

Grup	Ortalama (cm)	SD	Tukey Post-Hoc
Statik Germe	38.2	5.1	EN DÜŞÜK (a)
Kontrol (Hafif Koşu)	43.5	4.8	ORTA (b)
Dinamik Germe	48.9	5.3	EN YÜKSEK (c)

✅ Tam Raporlama Örneği (2024 Standardı)

"Tek faktörlü ANOVA sonuçları, ısınma protokolü türünün dikey sıçrama performansı üzerinde istatistiksel olarak anlamlı bir etkisi olduğunu göstermiştir, F(2, 27) = 12.85, p < 0.001, η²ₚ = 0.49. Etki büyüklüğü çok büyüktür, ısınma türü performans varyansının yaklaşık %49'unu açıklamaktadır. Tukey post-hoc testi, dinamik germe grubunun (M = 48.9 cm, SD = 5.3) hem statik germe (M = 38.2 cm, SD = 5.1, p < 0.001, d = 2.06) hem de kontrol grubundan (M = 43.5 cm, SD = 4.8, p = 0.012, d = 1.04) anlamlı derecede yüksek performans gösterdiğini ortaya koymuştur. Statik germe grubu da kontrol grubundan anlamlı derecede düşüktür (p = 0.008, d = 1.08)."

💡 Bu raporlama: p-değeri + F-istatistiği + η²ₚ + Cohen's d (post-hoc) + Ortalamalar/SD → Eksiksiz bilimsel raporlama!

💻 SPSS'te η²ₚ Nasıl Bulunur?

Yol 1 (Otomatik): Analyze → General Linear Model → Univariate → Options → "Estimates of effect size" kutusunu işaretle → η²ₚ otomatik hesaplanır

Yol 2 (Manuel): ANOVA tablosundan SS değerlerini kullanarak yukarıdaki formülle hesapla

R'de: effectsize::eta_squared(model, partial = TRUE)
Python'da: pingouin.anova(..., detailed=True) → otomatik η²ₚ

💬 TARTIŞMA VE SONUÇ

🎯 Ana Konu: Mevcut durum özeti ve öneriler

Güncel Konsensus (2024)

✅ KABUL EDİLEN: P-değeri + Destekleyici Yöntemler (Etki Büyüklüğü, SWC, TE/SEM)

❌ TAM ALTERNATİF OLAMADI: Bayesci İstatistik ve MBI

Hangi Durumda Ne Kullanmalı?

Kuvvet antrenmanı: Cohen's d/Hedge's g + Rhea sınıflandırması
Genel spor performansı: Cohen's d + Hopkins sınıflandırması
Davranışsal çalışmalar: Cohen's d + Cohen/Sawilowsky
ANOVA: η²ₚ (SPSS otomatik verir)
Korelasyon: Zaten r var, ek hesaplama gereksiz

Özel Durumlar

Elit sporcular / küçük örneklem: SWC, TE, SEM, MDC ZORUNLU
P > 0.05 ama etki var: Etki büyüklüğünü mutlaka raporla

📈Meta-Analiz: Etki Büyüklüklerinin Sentezi

🔬 Meta-Analiz Nedir?

Meta-analiz: Benzer araştırma sorularını inceleyen birden fazla bağımsız çalışmanın etki büyüklüklerini istatistiksel olarak birleştiren sistematik yöntemdir. Tek tek çalışmaların sınırlı örneklem büyüklüklerinden kaynaklanan belirsizlikleri azaltarak daha güvenilir ve genellenebilir sonuçlar elde etmeyi sağlar.

📊 Temel Meta-Analiz Kavramları

Kavram	Açıklama	Yorumlama
Pooled ES	Ağırlıklı ortalama etki büyüklüğü (her çalışmanın n'sine göre)	Genel etki tahmini
I² Statistic	Çalışmalar arası heterogeneity (farklılık) yüzdesi	I²<25% düşük, 25-75% orta, >75% yüksek varyasyon
Forest Plot	Her çalışmanın ES ve CI'sini + pooled ES'i görsel olarak gösteren grafik	Çalışmaların tutarlılığını gösterir
Publication Bias	Pozitif sonuçların yayınlanma olasılığının daha yüksek olması	Funnel plot simetrik olmalı
Fail-Safe N	Sonucu anlamsız yapmak için kaç negatif çalışma gerekir?	Yüksek fail-safe N → Güçlü bulgu

🏋️ Spor Bilimleri Meta-Analiz Örneği

Araştırma Sorusu: Pliometrik antrenman, dikey sıçrama performansını ne kadar artırır?

Meta-Analiz Bulguları:
• Dahil edilen çalışma: 28 randomize kontrollü çalışma (n=1121 sporcu)
• Pooled ES: d = 0.84, %95 CI [0.71, 0.98] → Büyük etki
• Heterogeneity: I² = 58% → Orta düzey varyasyon (farklı protokoller, yaş grupları)
• Publication bias: Funnel plot asimetrik → 12 negatif çalışma kayıp olabilir (Trim-and-Fill analizi)
• Düzeltilmiş ES: d = 0.72 [0.58, 0.86] → Hâlâ büyük etki!

Alt-Grup Analizi (Moderatör Analizi):
• Yaş <18: d = 0.62 [0.45, 0.79]
• Yaş 18-25: d = 0.91 [0.74, 1.08] → Genç yetişkinlerde daha etkili!
• Yaş >25: d = 0.53 [0.32, 0.74]

Kaynak: Markovic, G., & Mikulic, P. (2010). British Journal of Sports Medicine, 44(13), 1007-1012.

💡 Meta-Analiz Neden Önemli?

Tek çalışma: "Pliometrik antrenman +4.2 cm artırdı (n=20, p=0.08)" → Anlamsız, göz ardı edilir
Meta-analiz: "28 çalışma birleştirildiğinde pooled ES=0.84 (büyük etki)" → Güçlü kanıt!

Meta-analiz, birbirini destekleyen küçük çalışmaların "sinyallerini" birleştirerek gürültüyü azaltır ve gerçek etkiyi ortaya çıkarır. Antrenörler için "evidence-based coaching"in temel kaynağıdır.

🚀2024 Güncel Gelişmeler ve Geleceğe Bakış

🔓 Açık Bilim Hareketi (Open Science Movement)

Reprodüktürbilirlik Krizi: Psikoloji ve sosyal bilimlerdeki çalışmaların %60-70'i tekrarlanamıyor!
Spor Bilimlerinde Durum: 2022 sistematik review → Spor bilimlerinde %35 tekrarlanamıyor

Çözüm Önerileri (2024 Konsensus):
1️⃣ Preregistration (Ön Kayıt): Veri toplamadan önce hipotez, örneklem büyüklüğü ve analiz planını OSF'ye kaydet
2️⃣ Veri Paylaşımı: Ham veriyi OSF/GitHub'da paylaş (kişisel bilgi korumalı)
3️⃣ Analiz Kodu Paylaşımı: R/Python/SPSS scriptlerini paylaş → Şeffaflık!
4️⃣ Registered Reports: Sonuç ne olursa olsun yayınlanır → Publication bias ortadan kalkar

Trend	2024 Durumu	Gelecek (2025-2030)
Effect Size Raporlama	APA 7, CONSORT 2024 → Zorunlu	Journal reject eder (ES yoksa)
Bayesci İstatistik	Tamamlayıcı analiz olarak kabul görüyor (JASP ile kolaylaştı)	NHST'ye eşit statüde olabilir
Precision-Based n	Elit sporcu çalışmalarında yaygınlaşıyor	Power analizi yerini alabilir
MBI	MSSE, BJSM yasakladı (2019-2020)	Tamamen terk edilecek
Machine Learning + ES	Yeni trend: ML modellerde effect size hesaplama (SHAP values)	AI-destekli meta-analizler yaygınlaşacak

🎯 Öğrenciye Tavsiye (2024)

Minimum Standart: p-value + effect size + %95 CI + güç analizi
Altın Standart: Yukarıdakiler + SWC/TE/SEM + preregistration + veri paylaşımı
Gelecek İçin Öğren: Bayesci istatistik (JASP ile kolay!), meta-analiz yöntemleri (R-metafor paketi)

"The new statistics is effect sizes, confidence intervals, and meta-analysis" - Cumming (2014)

🚀 PRATİK UYGULAMA REHBERİ

🎯 Ana Konu: Araştırma bulgularını pratiğe uygun raporlama kontrol listesi

✅ Raporlama Kontrol Listesi

✓ Betimsel istatistikler: Ort ± SD, medyan, min-max
✓ P-değeri ve CI: p = 0.032, 95% CI [0.12, 0.48]
✓ Etki Büyüklüğü: d = 0.65 (Hopkins: orta etki)
✓ Güç analizi: Power = 0.82 (post-hoc) veya a priori n hesabı
✓ Varsayım kontrolü: Normallik, homojenlik testleri
✓ Küçük örneklem ise: SWC, TE/SEM, MDC ekle

❌ Yapılmaması Gerekenler

p = 0.051'i "marginally significant" diye raporlama!
Sadece p-değeri vermek (etki büyüklüğü YOK)
Anlamsız sonuçları gizlemek (publication bias)
Varsayımları kontrol etmeden parametrik test yapmak

📚 2024 Güncel Trendler

Açık Bilim: Veri ve analiz kodunu paylaş (OSF, GitHub)
Pre-registration: Analiz planını önceden kaydet
Effect Size Zorunlu: APA 7, CONSORT 2024 standartları
Bayesci yaklaşım: Tamamlayıcı analiz olarak kabul görüyor

🎯Precision-Based Sample Size Planning (Hassasiyet Temelli Örneklem Planlaması)

🔄 Paradigma Değişimi: Power → Precision

Geleneksel olarak örneklem büyüklüğü, "p<0.05 için yeterli güce ulaşmak" amacıyla hesaplanır (power analysis). Ancak yeni istatistik paradigmasında örneklem planlaması, "yeterince dar güven aralığı elde etmek" amacıyla yapılmaktadır (precision-based planning). Bu yaklaşım, tahmin hassasiyetine odaklanır ve negatif sonuçları bile değerli bilgi haline getirir.

⚖️ Power vs Precision Karşılaştırması

Özellik	Power-Based	Precision-Based
Araştırma Sorusu	"p<0.05 elde etmek için kaç kişi gerekli?"	"CI genişliği ±X için kaç kişi gerekli?"
Odak	İstatistiksel anlamlılık (hypothesis testing)	Tahmin hassasiyeti (estimation accuracy)
Hedef	%80 power (Type II error = %20)	CI genişliği ≤ hedef değer (örn. ±0.3)
Negatif Sonuçlar	Değersiz (p>0.05 → "failed study")	Değerli (dar CI → "precise null finding")
Gerekli n	Genellikle daha küçük	Genellikle daha büyük (ama bilgi daha değerli!)

🧮 Precision-Based Sample Size Hesaplama

Formül (Cohen's d için):

CI genişliği (width) = 2 × t_crit × SE_d
SE_d = √(2/n) × √(1 + d²/2)

Hedef: CI genişliğini belirli bir değerin altında tutmak (örn. width ≤ 0.6)
Yöntem: Farklı n değerleri için CI genişliği hesapla, hedef genişliğe ulaşana kadar artır

🏋️ Pratik Örnek Karşılaştırması

Araştırma: Yeni kuvvet antrenman protokolünün bench press 1RM üzerine etkisi
Beklenen ES: d = 0.50 (orta etki)
SD: 10 kg (literatürden tahmin)

❌ Power-Based Planning:
• Hedef: %80 power, α=0.05, d=0.50
• Gerekli n: Grup başına 64 sporcu (toplam 128)
• Sonuç: d = 0.48, %95 CI [-0.07, 1.03] (CI genişliği = 1.10!) → Çok belirsiz!

✅ Precision-Based Planning:
• Hedef: CI genişliği ≤ 0.60 (pratik yorumlama için yeterince dar)
• Gerekli n: Grup başına 88 sporcu (toplam 176)
• Sonuç: d = 0.48, %95 CI [0.18, 0.78] (CI genişliği = 0.60) → Kesin tahmin!

Yorum: Power-based n ile p<0.05 elde ettik ama sonuç çok belirsiz (CI geniş). Precision-based n ile daha fazla katılımcı gerekti ama şimdi etkinin kesin olarak 0.18-0.78 aralığında olduğunu biliyoruz → Pratik karar verebiliriz!

💡 Elit Sporcular İçin Neden Önemli?

Sorun: Elit sporcu sayısı az (n=10-15) → Power analizi "yetersiz" der, çalışma yapılamaz
Çözüm: Precision-based yaklaşım → "n=12 ile CI genişliği ±0.8 elde ederim, bu benim için yeterli"

Örnek: Elite sprint koçu için +0.02s fark bile önemli. CI [-0.01, +0.05] bile değerli bilgidir!
Power analizi: "n=200 gerekli" → İmkansız!
Precision analizi: "n=15 ile CI ±0.03 elde ederim" → Kabul edilebilir!

📚 Yazılım Araçları (2024)

R Paketi: MBESS::ss.aipe.smd() → Precision-based n hesaplama (effect size için)
ESCI (Cumming): Excel tabanlı, kullanıcı dostu → thenewstatistics.com
G*Power (3.1.9.7): "Precision" modu eklendi (2022 güncellemesiyle)
JAMOVI: ESCI modülü ile precision-based planning

Artık precision-based planning mainstream hale geldi!

✅ Öğrenci İçin Pratik Adımlar

Hedef CI genişliğini belirle: "d için CI ±0.4 yeterli" gibi (literatür + pratik karar ihtiyacı)
Beklenen ES ve SD tahmin et: Pilot çalışma veya literatür taraması
Yazılım kullan: R-MBESS veya ESCI ile n hesapla
Araştırma önerisinde belirt: "Power analizi değil, precision-based planning yaptım çünkü..."
Sonuçları rapor et: "Hedef CI genişliği ±0.4 idi, elde edilen ±0.38 (başarılı!)"

📊 VARYASYON KATSAYISI (CV)

🎯 Ana Konu: Ölçüm Güvenilirliği, Hopkins Kriterleri ve Pratik Uygulamalar

📊Varyasyon Katsayısı (CV): Detaylı Hesaplama ve Uygulama

📖 CV Nedir ve Neden Kullanılır?

Varyasyon Katsayısı (Coefficient of Variation - CV), bir ölçümün göreli değişkenliğini ifade eden istatistiksel bir göstergedir. Standart sapmayı ortalamaya bölerek hesaplanır ve yüzde (%) olarak ifade edilir. Bu sayede, farklı ölçümlerin (kg, saniye, cm gibi) güvenilirliğini karşılaştırabilirsiniz.

Spor Bilimlerinde Kullanım Alanları:
• Test Güvenilirliği: Sprint testi ne kadar tutarlı sonuç veriyor?
• Sporcu İzleme: Bir sporcunun performansı ne kadar kararlı?
• Yöntem Karşılaştırması: GPS ile el kronometresi hangisi daha güvenilir?
• Bireysel Değişkenlik: Elit sporcular daha tutarlı mı, amatörler daha değişken mi?

📐 CV Hesaplama Formülleri

Yöntem 1: Genel Değişkenlik (Between-Athlete Variability)

CV = (SD / Ortalama) × 100

• SD: Standart sapma (tüm katılımcıların ölçüm değerleri)
• Ortalama: Grup ortalaması
• Kullanım: Grup içi heterojenlik değerlendirmesi

Yöntem 2: Test Güvenilirliği (Within-Athlete Variability / Typical Error)

CV = (TE / Ortalama) × 100
TE = SD_fark / √2

• TE: Tipik Hata (Typical Error)
• SD_fark: Test-retest farkların standart sapması
• Kullanım: Testin tekrarlanabilirlik değerlendirmesi

🎯 CV Yorumlama Kriterleri (Hopkins, 2000)

CV Değeri (%)	Değerlendirme	Spor Örneği
< 5%	Mükemmel (Excellent)	Sprint zamanı (elit), CMJ yüksekliği
5-10%	İyi (Good)	1RM squat, Yo-Yo IR1 testi
10-15%	Orta (Moderate)	GPS koşu hızı, teknik beceri testleri
> 15%	Zayıf (Poor)	Subjektif değerlendirmeler, amatör testler

🏃 Örnek 1: 40m Sprint CV Hesaplama (Elit Futbolcular)

📋 Veri

Grup: 15 elit futbolcu
Test: 40m sprint (elektronik kapı)
Ölçümler: 2 deneme (1 hafta arayla)
Sonuçlar (saniye):
• Test 1 Ortalama: 5.20 s, SD: 0.15 s
• Test 2 Ortalama: 5.18 s, SD: 0.14 s
• Birleştir genel ortalama: 5.19 s

🧮 Adım Adım Hesaplama

Adım	İşlem	Sonuç
1	Her sporcunun farkını hesapla (Test2 - Test1)	15 fark değeri
2	Farkların SD'sini hesapla	SD_fark = 0.12 s
3	TE = SD_fark / √2	TE = 0.12 / 1.414 = 0.085 s
4	CV = (TE / Ortalama) × 100	CV = (0.085 / 5.19) × 100 = 1.64%

✅ Yorum: CV = 1.64% → Mükemmel güvenilirlik! (Hopkins kriteri: <5%)
Pratik Anlam: 40m sprint testi elit futbolcularda çok tutarlı sonuçlar veriyor. 0.085 saniye (TE) çok küçük bir hata → Test gerçek performans değişimlerini tespit edebilir.
Antrenör İçin: 0.10 s'den fazla değişim gördüğümüzde, bu muhtemelen gerçek bir performans değişimidir (gürültü değil).

🏀 Örnek 2: CMJ Yüksekliği CV Hesaplama (Basketbolcular)

📋 Veri

Grup: 10 NCAA basketbolcu
Test: Countermovement Jump (contact mat)
Protokol: 3 deneme, en iyi değer alındı, 2 test günü (3 gün arayla)
Ham Veri (cm):

Sporcu	Test 1 (cm)	Test 2 (cm)	Fark (cm)
S1	42.5	43.2	+0.7
S2	38.1	37.8	-0.3
S3	45.3	46.1	+0.8
S4	40.2	39.5	-0.7
S5-S10	Benzer veri (+1.2, -0.5, +0.9, -0.4, +1.1, +0.6)

Hesaplama:
• Genel ortalama: 41.8 cm
• SD_fark = 0.78 cm
• TE = 0.78 / √2 = 0.55 cm
• CV = (0.55 / 41.8) × 100 = 1.32%

✅ Yorum: CV = 1.32% → Mükemmel güvenilirlik!
Pratik Karar: CMJ testi çok güvenilir. 1.1 cm'den fazla değişim (2×TE = 2×0.55) gerçek performans değişimini gösterir.
Örnek: Bir sporcu 42.5 cm'den 44.0 cm'ye çıktı (+1.5 cm) → Bu TE'nin 2.7 katı → Gerçek gelişim!

🏋️ Örnek 3: Squat 1RM CV Hesaplama (Halterciler)

📋 Veri

Grup: 12 halterci (6 erkek, 6 kadın)
Test: Back squat 1RM
Protokol: Maksimum ağırlık testi, 2 gün (7 gün arayla)
Sonuçlar: Ortalama 1RM = 120 kg, TE = 2.8 kg

CV Hesaplama:

CV = (TE / Ortalama) × 100
CV = (2.8 / 120) × 100
CV = 2.33%

✅ Yorum: CV = 2.33% → Mükemmel güvenilirlik! (Hopkins: <5%)
Pratik Anlam: 1RM squat testi haltercilerde çok güvenilir. 2.8 kg tipik hata göreceli olarak küçük.
MDC (Minimal Detectable Change): 1.96 × √2 × 2.8 = 7.8 kg
→ Bir haltercinin 1RM'si en az 7.8 kg artmalı ki %95 güvenle "gerçek değişim var" diyebilelim.

💨 Örnek 4: VO₂max CV Hesaplama (Dayanıklılık Sporcuları)

📋 Veri

Grup: 20 koşucu (orta mesafe)
Test: Koşu bandında kademeli maksimal test (VO₂max)
Protokol: 2 test (4 gün arayla, aynı saat, kontrollü diyet)
Test-Retest ICC: 0.95 (yüksek korelasyon)
Sonuçlar: Ortalama = 58.5 ml/kg/dk, SD = 4.2 ml/kg/dk

CV Hesaplama (ICC kullanarak):
TE = SD × √(1 - ICC)
TE = 4.2 × √(1 - 0.95)
TE = 4.2 × √0.05
TE = 4.2 × 0.224 = 0.94 ml/kg/dk

CV = (0.94 / 58.5) × 100 = 1.61%

✅ Yorum: CV = 1.61% → Mükemmel güvenilirlik!
Literatür Karşılaştırması: Hopkins (2000) literatür analizi VO₂max için tipik CV: 1.5-3.0%
Pratik Karar: 2.0 ml/kg/dk'den fazla değişim (2×TE = 2×0.94 = 1.88) anlamlı gelişimi gösterir.
Örnek: Sporcu 58 → 60.5 ml/kg/dk (+2.5) → Gerçek gelişim! 🎉

📊 CV Karşılaştırma Özeti

Test	CV (%)	Değerlendirme	Antrenör İçin Mesaj
40m Sprint	1.64%	Mükemmel	Küçük değişimler bile tespit edilebilir
CMJ Yüksekliği	1.32%	Mükemmel	En güvenilir patlayıcı güç testi
Squat 1RM	2.33%	Mükemmel	Maksimal kuvvet güvenilir ölçülüyor
VO₂max	1.61%	Mükemmel	Aerobik kapasite izleme için ideal

Genel Sonuç: Tüm testler elit sporcularda mükemmel güvenilirlik gösteriyor (CV <5%). Bu testleri antrenman izleme ve performans değerlendirmesi için güvenle kullanabilirsiniz.

🧮 MODEL İSTATİSTİĞİ: HOPKINS METODOLOJİSİ

🎯 Ana Konu: Bireysel Sporcu Performans Değişimlerinin Olasılıksal Değerlendirmesi - Hopkins Yaklaşımı

🧮Model İstatistiği: Hopkins Metodolojisi Derinlemesine

📖 Model İstatistiği Nedir?

Model İstatistiği (Model Statistic), Will Hopkins tarafından geliştirilen, bireysel sporcu performans değişimlerinin anlamlılığını olasılıksal olarak değerlendiren bir yöntemdir. Geleneksel p-değeri yaklaşımının aksine, bir değişimin "artış", "azalış" veya "önemsiz" olma olasılıklarını hesaplar.

Neden CV Yetersiz, Model İstatistiği Gerekli?
• CV: Sadece "değişim var mı yok mu?" sorusuna cevap verir (tespit gücü yüksek)
• Model İstatistiği: "Bu değişim rastgele mi, gerçek mi?" sorusunu yanıtlar (doğrulama gücü yüksek)
• İkisi birlikte: Hem tespit hem doğrulama → En güvenilir sonuç!

Kaynak: Hopkins, W.G. (2004). How to interpret changes in an athletic performance test. Sportscience, 8, 1-7.

📐 Model İstatistiği Hesaplama Adımları

Adım 1: Gözlenen Değişim ve Hata Hesaplama

Δ = Test2 - Test1 (gözlenen değişim)
SE_Δ = TE × √2 (değişim standart hatası)

Adım 2: SWC (Smallest Worthwhile Change) Belirleme

SWC = 0.2 × SD_between (Cohen 0.2 eşiği)
Veya: Pratikte önemli minimum değişim (koça danış!)

Adım 3: Olasılık Hesaplama

t = (Δ - SWC) / SE_Δ (artış için t-istatistiği)
P(Artış) = t-dağılımından olasılık (tek kuyruk)
P(Azalma) = P(Δ < -SWC)
P(Önemsiz) = 100% - P(Artış) - P(Azalma)

Adım 4: Karar (Varsayılan Eşik: 10%)

P(Artış) > 90% → * (Very likely increase)
Her iki yön > 10% → ? (Unclear)
P(Önemsiz) > 90% → ~ (Trivial)

🎯 Karar Kriterleri ve Yorumlama

Durum	Olasılık Kriteri	Sembol	Yorum
Very Likely Increase	P(Artış) > 90%	*	Gerçek performans artışı
Very Likely Decrease	P(Azalma) > 90%	*	Gerçek performans düşüşü
Trivial Change	P(Önemsiz) > 90%	~	Önemsiz değişim (gürültü)
Unclear	Her iki yön > 10%	?	Belirsiz (daha fazla veri gerek)

🏀 Örnek 1: Basketbolcu CMJ Takibi (Detaylı Hesaplama)

📋 Veri

Sporcu: NCAA Division 1 basketbolcu (Kadın)
Test: CMJ yüksekliği
Baseline: 42.3 cm (hafta 0)
Test 2: 46.2 cm (hafta 6)
TE (güvenirlik çalışmasından): 1.8 cm
SWC (grup SD = 4.5 cm): 0.2 × 4.5 = 0.9 cm

🧮 Adım Adım Hesaplama

                    Adım 1: Gözlenen Değişim

                    Δ = 46.2 - 42.3 = +3.9 cm

                    Adım 2: Değişim Standart Hatası

                    SEΔ = TE × √2

                    SEΔ = 1.8 × 1.414 = 2.55 cm

                    Adım 3: Artış İçin t-istatistiği

                    tartış = (Δ - SWC) / SEΔ

                    tartış = (3.9 - 0.9) / 2.55

                    tartış = 3.0 / 2.55 = 1.18

                    Adım 4: Olasılık (t-dağılımı, tek kuyruk)

                    P(Artış > SWC) = P(t > 1.18) ≈ 88%

                    Adım 5: Azalma ve Önemsiz Olasılıkları

                    tazalma = (Δ + SWC) / SEΔ = (3.9 + 0.9) / 2.55 = 1.88

                    P(Azalma < -SWC) = P(t < -1.88) ≈ 3%

                    P(Önemsiz) = 100% - 88% - 3% = 9%

⚠️ Karar: P(Artış) = 88% < 90% → ? (Unclear, ama çok yakın!)
Yorum: CV yöntemi "değişim var" derken (3.9 > 2×TE), Model İstatistiği "henüz %90 eşiğini aşmadı" diyor.
Pratik Karar: 88% yine de yüksek olasılık. Bir sonraki testte (hafta 8) muhtemelen %90'ı aşar.
Gerçek Sonuç (Hafta 8): 47.5 cm → Δ=+5.2 cm → P(Artış) = 95% → * (Confirmed!)

⚽ Örnek 2: Futbolcu Sprint Performansı (Sezon Takibi)

📋 Veri

Sporcu: Profesyonel futbolcu (kanat oyuncusu)
Test: 30m sprint
Ön-sezon: 4.12 s
Sezon ortası: 4.02 s
TE: 0.06 s (sezon başı güvenirlik testi)
SWC: 0.05 s (koç belirlemesi: 0.05s önemli fark)

                    Δ = 4.02 - 4.12 = -0.10 s (hızlanma!)

                    SEΔ = 0.06 × √2 = 0.085 s

                    tiyileşme = (|-0.10| - 0.05) / 0.085 = 0.05 / 0.085 = 0.59

                    P(İyileşme > SWC) ≈ 72%

                    P(Kötüleşme) ≈ 8%, P(Önemsiz) ≈ 20%

⚠️ Karar: ? (Unclear - %72 < %90)
Yorum: 0.10s gelişim gözlendi ama %90 güven seviyesine ulaşmadı.
Antrenör Aksiyonu: 2 hafta sonra tekrar test et. Eğer trend devam ederse kesinleşir.
2 Hafta Sonra: 3.98 s → Toplam Δ = -0.14 s → P(İyileşme) = 93% → * ✅

🏋️ Örnek 3: Halterci Koparma Performansı (Teknik Değişiklik)

📋 Senaryo

Sporcu: Ulusal düzey halterci
Test: Snatch (Koparma) 1RM
Eski teknik (4 hafta ortalama): 105 kg
Yeni teknik (2 hafta sonra): 108 kg
TE: 2.0 kg
SWC: 2.5 kg (kişisel rekor için minimum)

                    Δ = 108 - 105 = +3 kg

                    SEΔ = 2.0 × √2 = 2.83 kg

                    t = (3 - 2.5) / 2.83 = 0.5 / 2.83 = 0.18

                    P(Artış > SWC) ≈ 57%

                    P(Azalma) ≈ 38%, P(Önemsiz) ≈ 5%

⚠️ Karar: ? (Unclear - her iki yön de >10%)
Yorum: 3 kg artış var ama belirsiz. Hem iyileşme (%57) hem kötüleşme (%38) olasılığı yüksek.
Neden Belirsiz?: TE (2.0 kg) ile SWC (2.5 kg) çok yakın → Gürültü vs gerçek ayırt edilemiyor.
Koç Kararı: Yeni teknikle 2-3 hafta daha devam et, sonra yeniden değerlendir.
4 Hafta Sonra: 110 kg → Toplam Δ = +5 kg → P(Artış) = 91% → * Teknik değişikliği başarılı!

🏃 Örnek 4: Koşucu Tempo Koşusu (Performans Stabil mi?)

📋 Veri

Sporcu: Maraton koşucusu
Test: 10 km tempo koşusu (yarı-maksimal)
Hafta 1: 40:15 (dakika:saniye)
Hafta 4: 40:08
TE: 25 saniye (tempo koşusu değişkenliği yüksek)
SWC: 30 saniye (koç hedefi)

                    Δ = 40:08 - 40:15 = -7 saniye (iyileşme)

                    SEΔ = 25 × √2 = 35.4 s

                    t = (|-7| - 30) / 35.4 = -23 / 35.4 = -0.65

                    P(İyileşme > 30s) ≈ 26%

                    P(Kötüleşme) ≈ 18%, P(Önemsiz) ≈ 56%

✅ Karar: ~ (Trivial change - önemsiz)
Yorum: 7 saniyelik fark görünse de bu büyük olasılıkla (%56) gürültü.
Neden?: TE (25s) çok yüksek, 7s değişim TE'nin sadece %28'i.
Antrenör Mesajı: "Performansın stabil, endişelenme. Tempo koşuları günlük formdan etkilenir."

🏐 Örnek 5: Voleybolcu Dikey Sıçrama (Sakatlık Sonrası Dönüş)

📋 Senaryo

Sporcu: Profesyonel voleybolcu (orta oyuncu)
Test: Spike jump yüksekliği
Sakatlık öncesi (baseline): 325 cm
6 hafta rehabilitasyon sonrası: 318 cm
TE: 3 cm
SWC: 4 cm

                    Δ = 318 - 325 = -7 cm (düşüş)

                    SEΔ = 3 × √2 = 4.24 cm

                    tdüşüş = (|-7| - 4) / 4.24 = 3 / 4.24 = 0.71

                    P(Düşüş > SWC) ≈ 76%

                    P(İyileşme) ≈ 6%, P(Önemsiz) ≈ 18%

⚠️ Karar: ? (Unclear, ama düşüş olasılığı yüksek %76)
Klinik Yorum: 7 cm düşüş endişe verici ama istatistiksel olarak henüz kesin değil.
Fizyoterapist Aksiyonu:
• RTP (Return-to-Play) kriterini henüz karşılamadı (>90% baseline)
• 2 hafta daha kuvvetlendirme çalışması
• Yeniden test: 323 cm → Δ = -2 cm → P(Düşüş) = 28% → ~ Artık güvenli!

🎾 Örnek 6: Tenisçi Servis Hızı (Turnuva Öncesi)

📋 Veri

Sporcu: ATP 100-150 arası tenisçi
Test: Maksimal servis hızı (10 servisin ortalaması)
4 hafta önce: 185 km/h
Turnuva haftası: 191 km/h
TE: 4 km/h
SWC: 3 km/h (koç hedefi)

                    Δ = 191 - 185 = +6 km/h

                    SEΔ = 4 × √2 = 5.66 km/h

                    t = (6 - 3) / 5.66 = 3 / 5.66 = 0.53

                    P(Artış > SWC) ≈ 70%

                    P(Azalma) ≈ 12%, P(Önemsiz) ≈ 18%

⚠️ Karar: ? (Unclear - %70 < %90)
Yorum: 6 km/h artış olumlu ama kesin değil.
Koç Stratejisi: "Form yükselişte ama üzerine basa basa gidemeyiz. Muhafazakar oyna, riskli vuruşlarda temkinli ol."
Turnuva Sonrası Test: 193 km/h → Toplam Δ = +8 km/h → P(Artış) = 94% → * Form doruğa ulaştı!

📊 Model İstatistiği Özet Karşılaştırması

Örnek	Δ	P(Ana Etki)	Karar	Antrenör Aksiyonu
Basketbol CMJ	+3.9 cm	88%	?	2 hafta sonra tekrar test
Futbol Sprint	-0.10 s	72%	?	Trend takip et
Halter Koparma	+3 kg	57%	?	Yeni teknik devam et
Maraton Tempo	-7 s	56% (önemsiz)	~	Stabil, endişelenme
Voleybol Sıçrama	-7 cm	76% (düşüş)	?	2 hafta rehabilitasyon
Tenis Servis	+6 km/h	70%	?	Muhafazakar strateji

Genel Gözlem: Model İstatistiği, CV'den daha muhafazakar karar verir. Bu, antrenörler için yanlış pozitif (sahte alarm) oranını düşürür. CV + Model İstatistiği birlikte kullanıldığında hem tespit hem doğrulama sağlanır.

💡 Antrenör ve Araştırmacılar İçin Pratik İpuçları

1. Threshold Esnekliği: %90 eşiği katı değil. Bazı durumlarda %75-80 bile anlamlı olabilir (koç deneyimi)
2. Trend Analizi: Tek bir "?" (unclear) karar yetersiz. 3-4 ölçümde trend arayın
3. TE vs SWC İlişkisi: TE > SWC ise tespit zor. Daha hassas ölçüm yöntemi arayın veya SWC'yi yükseltin
4. Bireyselleştirme: Her sporcunun kendi TE ve SWC değerleri olmalı (grup ortalaması yanıltıcı)
5. Yazılım Kullanımı: Excel şablonu (Hopkins Sportscience) veya R paketi (sportdatasci) ile otomatikleştirin

📏 ETKİ BÜYÜKLÜĞÜ GÜVEN ARALI KLARI

🎯 Ana Konu: Cohen's d, Hedge's g ve Paired Samples CI Hesaplamaları - Kesinlik ve Pratik Anlamlılık

📏Etki Büyüklüğü Güven Aralıkları: Kesinlik ve Yorumlama

📖 Etki Büyüklüğü Güven Aralığı Nedir?

Etki büyüklüğü (Effect Size - ES) güven aralığı, hesaplanan ES değerinin ne kadar kesin olduğunu gösterir. P-değeri sadece "anlamlı mı?" sorusunu yanıtlarken, ES güven aralığı "etkinin büyüklüğü ne kadar kesin?" ve "pratik anlamlılık ne kadar güçlü?" sorularını yanıtlar. Modern istatistikte p-değerinden çok daha önemlidir.

🧮 Hesaplama Formülleri

1. Bağımsız Gruplar Cohen's d

CI_95% = d ± 1.96 × SE_d

SE_d = √[(n₁ + n₂)/(n₁ × n₂) + d²/(2(n₁ + n₂))]

2. Hedge's g (Düzeltilmiş Cohen's d)

g = d × (1 - 3/(4N - 9))

CI_95% = g ± 1.96 × SE_g

3. Tekrarlayan Ölçümler (Paired Samples d_z)

d_z = (M_fark / SD_fark) / √n

SE_{d_z} = √[(1/n) + (d_z²/(2n))]

CI_95% = d_z ± 1.96 × SE_{d_z}

📊 Güven Aralığı Yorumlama Kriterleri

CI Durumu	Pratik Anlamlılık	Karar	Örnek
Alt sınır > 0.5	Büyük etki (kesin)	✅ Müdahaleyi uygula	d = 1.2 [0.6, 1.8]
Alt sınır > 0.2	Küçük-orta etki (kesin)	✅ Dikkatlice uygula	d = 0.5 [0.25, 0.75]
CI sıfırı içeriyor	Belirsiz etki	⚠️ Daha fazla veri gerekli	d = 0.3 [-0.1, 0.7]
Üst sınır < 0.2	Önemsiz/ters etki (kesin)	❌ Müdahaleyi uygulama	d = 0.1 [-0.2, 0.4]

💡 Neden P-Değerinden Daha Önemli?

1. Kesinlik Bilgisi: p < 0.05 sadece "etki var" der, CI "etkinin aralığı 0.5-1.8" diyerek kesinlik verir.
2. Pratik Anlamlılık: CI sıfırı içeriyorsa, p anlamlı bile olsa etki belirsizdir.
3. Meta-Analiz Uygunluğu: Meta-analizler ES ve CI kullanır, p-değerleri birleştirilemez.
4. APA 7. Baskı Önerisi: "Always report ES with CI" - p-değeri isteğe bağlı.

🏀 Örnek 1: Pliometrik Antrenman → Dikey Sıçrama (12 Hafta)

📊 Veri

n: 24 basketbolcu
Ön-test: M = 52.3 cm, SD = 5.1 cm
Son-test: M = 58.9 cm, SD = 5.4 cm
Fark: M_fark = 6.6 cm, SD_fark = 2.9 cm

🧮 Hesaplama

d_z = 6.6 / 2.9 = 2.28

SE_{d_z} = √[(1/24) + (2.28²/(2×24))] = 0.48

CI_95% = 2.28 ± (1.96 × 0.48)

d_z = 2.28 [1.34, 3.22]

💬 Yorumlama

✅ Alt sınır (1.34) > 0.8: Büyük etki kesindir
✅ CI sıfırı içermiyor: Etki pozitif yönde net
✅ CI dar aralık (1.88 birim): Kesinlik yüksek (n=24 yeterli)
Pratik karar: Pliometrik antrenman basketbolcularda dikey sıçramayı güvenle artırır
APA formatı: "Significant large effect, d_z = 2.28, 95% CI [1.34, 3.22], p < .001"

🏋️ Örnek 2: Kuvvet Protokolleri Karşılaştırma (Yüksek Yük vs Düşük Yük)

📊 Veri

Yüksek Yük (85% 1RM): n = 18, M = 12.4 kg artış, SD = 4.2 kg
Düşük Yük (65% 1RM): n = 18, M = 8.7 kg artış, SD = 3.9 kg
Pooled SD: SD_p = 4.05 kg

🧮 Hesaplama

d = (12.4 - 8.7) / 4.05 = 0.91

SE_d = √[(18+18)/(18×18) + 0.91²/(2×36)] = 0.35

g = 0.91 × (1 - 3/(4×36 - 9)) = 0.89

g = 0.89, 95% CI [0.31, 1.47]

💬 Yorumlama

⚠️ Alt sınır (0.31) > 0.2 ama < 0.5: Orta büyüklükte etki kesin
⚠️ CI geniş aralık (1.16 birim): Küçük örneklem nedeniyle kesinlik orta düzeyde
✅ CI sıfırı içermiyor: Yüksek yük üstündür ancak...
Dikkat: Üst sınır (1.47) büyük etki, alt sınır (0.31) küçük etki → Heterojenite var
Pratik karar: Yüksek yük muhtemelen daha etkili ama bireysel farklılıklar büyük. n artırılmalı.
APA formatı: "Moderate-to-large effect, g = 0.89, 95% CI [0.31, 1.47], p = .003"

🏃 Örnek 3: Aerobik Antrenman → Laktat Eşiği (8 Hafta - Küçük Örneklem)

📊 Veri

Deney Grubu: n = 12, M = 3.2 mmol/L artış, SD = 1.8 mmol/L
Kontrol Grubu: n = 12, M = 2.4 mmol/L artış, SD = 1.6 mmol/L
Pooled SD: SD_p = 1.70 mmol/L

🧮 Hesaplama

d = (3.2 - 2.4) / 1.70 = 0.47

SE_d = √[(12+12)/(12×12) + 0.47²/(2×24)] = 0.42

CI_95% = 0.47 ± (1.96 × 0.42)

d = 0.47, 95% CI [-0.35, 1.29]

💬 Yorumlama

❌ CI sıfırı içeriyor [-0.35, 1.29]: Etki belirsiz!
❌ Alt sınır negatif (-0.35): Kontrol grubu daha iyi olabilir (küçük olasılık)
⚠️ Üst sınır büyük (1.29): Veya büyük etki olabilir - çok geniş aralık
Neden belirsiz? n = 12 çok küçük → SE = 0.42 çok yüksek → CI çok geniş
p-değeri yanıltıcı: p = 0.26 (anlamsız) ama nokta tahmini d = 0.47 (orta etki)
Pratik karar: ❌ Şu haliyle karar verilemez. En az n = 30'a çıkılmalı (post-hoc power analizi)
APA formatı: "Non-significant effect with wide CI, d = 0.47, 95% CI [-0.35, 1.29], p = .26. Study underpowered."

⚡ Örnek 4: Dirençli Sprint Antrenmanı → 10m Sprint Zamanı (6 Hafta)

📊 Veri

n: 28 futbolcu
Ön-test: M = 1.89 s, SD = 0.11 s
Son-test: M = 1.78 s, SD = 0.10 s
İyileşme: M_fark = -0.11 s, SD_fark = 0.047 s

🧮 Hesaplama

d_z = |-0.11| / 0.047 = 2.34

SE_{d_z} = √[(1/28) + (2.34²/(2×28))] = 0.45

CI_95% = 2.34 ± (1.96 × 0.45)

d_z = 2.34, 95% CI [1.46, 3.22]

💬 Yorumlama

✅ Alt sınır (1.46) > 0.8: Büyük etki kesindir
✅ CI tamamen büyük etki aralığında: Tüm aralık > 0.8
✅ CI dar (1.76 birim): n = 28 yeterli, kesinlik yüksek
Pratik anlam: 0.11 s iyileşme futbolda çok önemli (100m'de ~1.1 s fark demek)
Cohen kriterlerine göre: d = 2.34 "çok büyük" (d > 1.2)
Pratik karar: Dirençli sprint antrenmanı futbolcularda ivmelenme hızını güvenle artırır
APA formatı: "Very large significant effect, d_z = 2.34, 95% CI [1.46, 3.22], p < .001"

📊 Dört Örneğin Karşılaştırmalı Özeti

Müdahale	n	ES	95% CI	CI Genişliği	Karar
Pliometrik	24	d_z = 2.28	[1.34, 3.22]	1.88 (dar)	✅ Kesin büyük etki
Kuvvet (Yüksek Yük)	18 vs 18	g = 0.89	[0.31, 1.47]	1.16 (orta)	⚠️ Orta etki kesin
Aerobik (8 hafta)	12 vs 12	d = 0.47	[-0.35, 1.29]	1.64 (çok geniş)	❌ Belirsiz (n↑)
Dirençli Sprint	28	d_z = 2.34	[1.46, 3.22]	1.76 (dar)	✅ Kesin büyük etki

💡 Öğrenilen Dersler

1. CI Genişliği ∝ 1/√n: Aerobik örneği (n=12) geniş CI, Dirençli sprint (n=28) dar CI
2. Nokta Tahmini Yeterli Değil: Aerobik d = 0.47 "orta etki" görünümü yanıltıcı, CI belirsizlik gösterir
3. Pratik Anlamlılık = Alt Sınır: Alt sınır > 0.5 ise büyük etki kesin (Pliometrik, Dirençli Sprint)
4. Heterojenite İşareti: Kuvvet örneğinde geniş CI → Bireysel farklılıklar büyük
5. Meta-Analiz Hazırlığı: Bu 4 örnek meta-analizde pooled ES hesabına girebilir (Forest plot)

🎯 Araştırmacılar İçin Pratik İpuçları

1. Hedef CI Genişliği: İyi planlı çalışmada CI genişliği < 1.5 olmalı (SE < 0.38)
2. Minimum n Hesabı: "Precision-based sample size" yaklaşımı kullanın (MBESS R paketi)
3. Pre-registration: ES ve CI'yı birincil outcome olarak belirtin (Open Science Framework)
4. Raporlama Formatı: "d = X.XX, 95% CI [LL, UL]" formatını kullanın (APA 7)
5. Yazılım: ESCI (Exploratory Software for CI) - Geoff Cumming'in Excel aracı (ücretsiz)
6. Görselleştirme: Forest plot yapın (4. örnekte gösterilecek)

🌲 FOREST PLOT YORUMLAMA VE META-ANALİZ

🎯 Ana Konu: Meta-Analiz Görselleştirmesi, Heterojenite Değerlendirmesi ve I² İstatistiği

🌲Forest Plot Yorumlama: Meta-Analiz Görselleştirmesi

📖 Forest Plot Nedir ve Neden Önemlidir?

Forest plot (orman grafiği), birden fazla araştırmanın etki büyüklüğü ve güven aralıklarını tek bir grafikte gösteren meta-analiz görselleştirme aracıdır. Adını ağaç şeklindeki çizgilerin ormana benzemesinden alır. Modern spor bilimlerinde sistematik review ve meta-analizlerin vazgeçilmez unsurudur.

📊 Forest Plot Anatomisi

Temel Bileşenler

1. Çalışma Listesi (Sol): Her satır bir araştırmayı temsil eder (Yazar, Yıl, n)
2. Kare (Square): Nokta tahmin (point estimate) - büyüklüğü çalışmanın ağırlığını gösterir
3. Yatay Çizgi (Whisker): 95% güven aralığı - uzunluğu kesinliği gösterir
4. Dikey Çizgi (Null Line): "Etki yok" çizgisi (genellikle 0 veya 1)
5. Elmas (Diamond): Pooled (birleştirilmiş) etki büyüklüğü - meta-analiz sonucu
6. Sağ Tablo: ES değerleri, CI aralıkları, ağırlıklar (weights)

Yorumlama İlkeleri

✅ Elmas null çizgisini geçmiyor: Pooled etki istatistiksel olarak anlamlı
❌ Elmas null çizgisine değiyor/geçiyor: Pooled etki belirsiz veya anlamsız
⚠️ CI çizgileri birbirini kapsamıyor: Heterojenite var (I² yüksek)
✅ CI çizgileri örtüşüyor: Homojen çalışmalar (I² düşük)
Kare büyüklüğü: Büyük kare = yüksek ağırlık = güvenilir çalışma (genellikle n büyük)

💡 I² İstatistiği: Heterojenite Ölçümü

I² = 0-25%: Düşük heterojenite - Çalışmalar tutarlı, fixed-effect model kullan
I² = 25-50%: Orta heterojenite - Moderatör analizi düşün
I² = 50-75%: Yüksek heterojenite - Random-effect model kullan, alt-grup analizi yap
I² > 75%: Çok yüksek heterojenite - Meta-analiz uygun değil, narrative review tercih et

🏀 Örnek 1: Pliometrik Antrenman → Dikey Sıçrama (k=8 çalışma)

📋 Meta-Analiz Bilgileri

Dahil edilen çalışma sayısı (k): 8
Toplam katılımcı (N): 214
Yaş aralığı: 16-24 yaş basketbolcular
Müdahale süresi: 8-12 hafta
Pooled ES: d = 1.89, 95% CI [1.52, 2.26]
Heterojenite: I² = 18% (düşük), Q = 8.5 (p = .29)
Model: Fixed-effect (I² < 25%)

💬 Yorumlama

✅ Elmas null çizgisini (d=0) geçmiyor: Pooled etki kesin olarak pozitif
✅ Tüm CI'lar örtüşüyor: Çalışmalar tutarlı (I² = 18% düşük)
✅ Pooled d = 1.89 [1.52, 2.26]: Çok büyük etki (Cohen: d > 0.8)
Fixed-effect uygun: I² < 25% olduğu için fixed-effect model kullanıldı
Kare büyüklükleri benzer: Örneklem boyutları yakın (22-32 arası)
Pratik sonuç: Pliometrik antrenman basketbolcularda dikey sıçramayı güvenle artırır (kanıt düzeyi: güçlü)

🏋️ Örnek 2: Kuvvet Antrenmanı → 1RM Squat (k=12 çalışma - Heterojen)

📋 Meta-Analiz Bilgileri

k: 12 çalışma
N: 348 sporcu
Protokoller: Yüksek yük (85-90% 1RM) vs Düşük yük (60-70% 1RM)
Süre: 6-12 hafta
Pooled ES: g = 0.67, 95% CI [0.38, 0.96]
Heterojenite: I² = 58% (yüksek), Q = 26.2 (p = .006)
Model: Random-effect (I² > 50%)

💬 Yorumlama

⚠️ CI'lar çok farklı uzunluklarda: Bazı çalışmalar kesin (dar CI), bazıları belirsiz (geniş CI)
⚠️ Baker (2019) CI sıfırı içeriyor: Bu çalışma etki bulamadı → Heterojenite kaynağı
⚠️ I² = 58% (yüksek): Çalışmalar arası tutarsızlık var
Random-effect gerekli: I² > 50% olduğu için random-effect model kullanıldı
Pooled CI geniş [0.38, 0.96]: Heterojenite nedeniyle kesinlik düşük
Moderatör analizi önerisi: Antrenman protokolü, yaş, deneyim düzeyi gibi moderatörler incelenmeli
Pratik sonuç: Kuvvet antrenmanı ortalama orta-büyük etki gösterir ama bireysel/protokol farklılıkları büyük

🔍 Heterojenite Kaynaklarını Araştırmak

Alt-Grup Analizi Önerisi:
• Yüksek yük (>85% 1RM): k=6, g = 0.89 [0.62, 1.16], I² = 22%
• Düşük yük (<70% 1RM): k=6, g = 0.45 [0.18, 0.72], I² = 31%
Sonuç: Yüksek yük daha etkili ve daha homojen (I² düşük). Orijinal heterojenite protokol farklılığından kaynaklanıyor.

🏃 Örnek 3: Aerobik Antrenman → Laktat Eşiği (k=6 - Belirsiz Sonuç)

📋 Meta-Analiz Bilgileri

k: 6 çalışma
N: 128 atlet (küçük örneklemler)
Protokol: Tempo koşuları (laktat eşiği yoğunluğunda)
Süre: 6-10 hafta
Pooled ES: d = 0.34, 95% CI [-0.08, 0.76]
Heterojenite: I² = 42% (orta), Q = 8.6 (p = .13)
Model: Random-effect
⚠️ Sorun: Pooled CI sıfırı içeriyor!

💬 Yorumlama

❌ Elmas sıfır çizgisini kesiyor: Pooled etki belirsiz (CI [-0.08, 0.76])
❌ Tüm bireysel çalışmalar da belirsiz: Hiçbirinin CI'sı sıfırdan ayrılmıyor
❌ p = .12 (anlamsız): İstatistiksel anlamlılık yok
Neden belirsiz? Küçük örneklemler (n=18-24) → Geniş CI'lar
Publication bias riski: Negatif sonuçlu çalışmalar yayınlanmamış olabilir (funnel plot gerekli)
Pratik sonuç: ❌ Mevcut kanıt yetersiz. Daha büyük örneklemli çalışmalar gerekli.
Meta-analiz sonuç cümlesi: "No significant effect of tempo training on lactate threshold (d = 0.34, 95% CI [-0.08, 0.76], p = .12, I² = 42%). Further research with larger samples needed."

🔬 Power Analizi: Ne Kadar n Gerekir?

Nokta tahmin d = 0.34 (küçük etki) varsayımıyla:
• 80% power, α = .05 için: Grup başına n = 140 gerekli
• Mevcut çalışmalar: Ortalama n = 21 → Ciddi underpowered
• Öneri: k = 6 çalışmayı birleştiren bir IPD (Individual Participant Data) meta-analizi yapılabilir

📊 Üç Meta-Analizin Karşılaştırması

Özellik	Pliometrik	Kuvvet	Aerobik
k (çalışma)	8	12	6
N (toplam)	214	348	128
Pooled ES	d = 1.89	g = 0.67	d = 0.34
95% CI	[1.52, 2.26]	[0.38, 0.96]	[-0.08, 0.76]
I²	18% (düşük)	58% (yüksek)	42% (orta)
Model	Fixed	Random	Random
p-değeri	< .001	< .001	.12 (ns)
Sonuç	✅ Kesin büyük etki	⚠️ Orta etki (değişken)	❌ Belirsiz
Kanıt Düzeyi	Güçlü	Orta (moderatör gerekli)	Zayıf (daha fazla araştırma)

💡 Meta-Analiz Raporlama İlkeleri

1. PRISMA Rehberi: Flow diagram, risk of bias assessment, funnel plot dahil edin
2. Heterojenite Raporu: I², Q, τ² (tau-squared) mutlaka belirtin
3. Sensitivity Analysis: Etkili çalışmaları (outliers) çıkarıp sonucu test edin
4. Publication Bias: Funnel plot asimetrisini Egger testi ile değerlendirin
5. GRADE Sistemi: Kanıt kalitesini değerlendirin (high, moderate, low, very low)
6. Forest Plot Kalitesi: R (metafor paketi) veya RevMan yazılımı kullanın