📊 ETKİ BÜYÜKLÜĞÜ VE ALTERNATİF İSTATİSTİK YAKLAŞIMLARI
Pratik Anlamlılık ve Araştırma-Saha Boşluğu
🎯 Amaç: Bu derste p-değerinin sınırlılıkları, etki büyüklüğü kavramı, en küçük değerli değişim (SWC), Bayesci istatistik ve büyüklük temelli çıkarımlar incelenecektir.
🎯 GİRİŞ: Araştırma ve Saha Arasındaki Boşluk
Spor bilimleri alanında yapılan akademik çalışmalardan elde edilen sonuçların sahaya aktarılmasında önemli sınırlılıklar bulunmaktadır (Bernards et al., 2017; Hopkins, 2002; Sullivan & Feinn, 2012).
- Sadece P-Değeri Raporlama: Araştırmaların çoğu sadece yokluk hipotezi testi ve p-değeri ile sonuçlanıyor
- Pratik Bilgi Eksikliği: Müdahalenin etkisinin büyüklüğü hakkında yeterli bilgi sunulmuyor
- Saha Profesyonellerinin Zorluğu: Sonuçların uygulamada kullanılması için yorumlanması güç
- Karşılaştırma Güçlüğü: Farklı araştırmaların sonuçlarını ortak bir birimde mukayese etmek zor
Bu dersin amacı, bilimsel çalışmalarda faydalı olduğu düşünülen yöntemlerin spor bilimleri alanında yaygınlaşmasına katkıda bulunmak ve genel istatistik yaklaşımına alternatif veya destekleyici olabileceği ileri sürülen modelleri incelemektir.
- Etki Büyüklüğü (Effect Size): Cohen's d, Hedge's g, eta kare hesaplamaları
- En Küçük Değerli Değişim (SWC): Elit sporcular için minimal önemli değişim
- Hata Terimleri: Tipik Hata (TE), Ölçüm Standart Hatası (SEM), MDC
- Alternatif Modeller: Bayesci İstatistik, Büyüklük Temelli Çıkarımlar (MBI)
| 🔬 Akademik Rapor | ⚽ Antrenör İhtiyacı | ✅ Çözüm |
|---|---|---|
| "p < 0.05 bulundu" | "Ne kadar iyileştirdi?" | d = 0.8 (büyük etki) |
| "Anlamlı fark var" | "Sahada fark edilir mi?" | SWC karşılaştır |
| "H₀ reddedildi" | "Sporcuma uygulayım mı?" | Bireysel TE/SWC bak |
🏋️ Örnek 1: Pliometrik Antrenman Çalışması
Akademik Rapor: "8 haftalık pliometrik antrenman programı kontrol grubuna göre dikey sıçrama performansında
istatistiksel olarak anlamlı artış gösterdi (p = 0.03)."
❌ Sorun: Antrenör için pratik bilgi yok! Ne kadar arttı? Bu artış önemli mi?
✅ Doğru Rapor: "Pliometrik grup 4.2 cm daha yüksek sıçradı (Cohen's d = 0.58, orta etki).
SWC = 2.1 cm olduğu için bu fark pratik açıdan anlamlı."
→ Antrenör artık karar verebilir!
⚡ Örnek 2: Sprint Antrenmanı (Elite Atletler)
Araştırma: "Resisted sprint antrenmanı 40m sprint süresini p = 0.08 ile geliştirdi (anlamlı değil)."
❌ Geleneksel Yorum: "Etkisiz, kullanmayalım!"
✅ Effect Size Analizi: "Ortalama 0.06 saniye iyileşme (d = 0.42, küçük-orta etki).
Elite düzeyde 40m sprintte 0.05 sn SWC kabul edildiğinde, bu gelişme pratik açıdan değerlidir."
→ p > 0.05 olsa da sahada anlamlı!
🔄 Örnek 3: Toparlanma Stratejisi Karşılaştırması
3 Yöntem Test Edildi: Aktif toparlanma, buz banyosu, kompresyon giysileri
Geleneksel Rapor: "Her üç yöntem de p < 0.05 ile etkili bulundu."
✅ Effect Size Karşılaştırması:
• Aktif toparlanma: d = 0.85 (büyük etki) ⭐
• Buz banyosu: d = 0.28 (küçük etki)
• Kompresyon: d = 0.15 (ihmal edilebilir)
Sonuç: Her üçü de "istatistiksel olarak anlamlı" ama aktif toparlanma açık ara en etkili!
📚 Güncel Literatür Konsensusu (2024)
Mevcut istatistik yaklaşımına tam alternatif oluşturacak bir model henüz kabul görmemişse de, yokluk hipotezi testlerinin (p-değeri, istatistiksel anlamlılık analizleri) pratik kullanıma ilişkin destekleyici yöntemler ile birlikte sunulması konusunda yaygın bir kabul oluşmuştur (Cumming, 2014; Hopkins, 2019; Tomczak & Tomczak, 2014).
⚠️ MEVCUT İSTATİSTİK YAKLAŞIMI VE P-DEĞERİ ELEŞTİRİSİ
Mevcut araştırma yapısı (Neyman-Pearson), sonuçların ne kadar doğru olduğunu değil, ne derecede şansa bağlı olarak ortaya çıktığını gösterir (Cohen, 1988; Rosnow & Rosenthal, 2003).
📊 P-Değeri Örnek
Bir çalışmadan elde edilen analiz sonucunun p < 0.05 olması: Bu araştırmanın 100 tekrarının en az 95'inde sonuçların aynı sınırlar içinde olacağı anlamına gelir. Ancak, müdahalenin etkisinin ne kadar büyük olduğuna dair yeterli bilgi SAĞLAMAZ!
1️⃣ Örneklem Büyüklüğü Etkisi
İstatistiksel hesaplamalar, örneklem büyüklüğünden oldukça etkilenmektedir:
- Küçük Örneklem (n=10): Standart Hata BÜYÜK ↑ → p-değeri Yüksek → "Anlamsız"
- Büyük Örneklem (n=100): Standart Hata KÜÇÜK ↓ → p-değeri Düşük → "Anlamlı"
📖 Formül İlişkisi
Standart Hata (SE) = SD / √n
Örneklem sayısı (n) arttıkça → Standart Hata küçülür → P-değeri düşer → "Anlamlı" sonuç çıkma olasılığı ARTAR
Bu durum: İstatistiksel açıdan anlamsız bir sonucun, örneklem sayısının fazla olması ile 0.05 düzeyine ulaşabileceğini gösterir (Cohen, 1988; Sullivan & Feinn, 2012).
2️⃣ Standart Sapma (Veri Dağılımı) Etkisi
- Homojen Grup (SD küçük): Standart hata küçük → p-değeri düşük → "Anlamlı" sonuç
- Heterojen Grup (SD büyük): Standart hata büyük → p-değeri yüksek → "Anlamsız" sonuç
Mevcut istatistik yaklaşımı, gerçekliği "siyah ya da beyaz" olarak görmeye sevk etmektedir (Cumming, 2014). Analiz sonuçlarının mutlak terimler ile kategorize edilmesi:
- "Anlamlı ✅" veya "Anlamsız ❌"
- "Fark Var" veya "Fark Yok"
- Gerçek dünya: Gri tonlamalar, derecelendirilmiş etkiler
- Pratikte önemli olan etkinin büyüklüğü göz ardı edilir
💡 Epistemolojik Tartışma
Cohen (2013)'in İddiası: Gerçek dünyada yokluk hipotezi (H₀: μ₁ = μ₂) her zaman yanlıştır. Yeterli sayıda ve hassasiyette ölçüm yapılmaya devam edildiği sürece, daima bir farka ulaşılacaktır.
📖 Örnek: Squat 1RM Artışı (10 kg)
İki araştırmanın her ikisinde de 10 ± 2 kg artış var, p < 0.05 (anlamlı)
- Yeni Başlayanlar: 10 kg → Orta Önem ⭐⭐
- Elit Sporcular: 10 kg → ÇOK YÜKSEK ÖNEM ⭐⭐⭐⭐⭐
⚠️ Performans gelişimi açısından elit sporculardaki 10 kg > yeni başlayanlardaki 10 kg, ancak mevcut istatistiksel modeller bu gerçeği ortaya koyamaz (Hopkins, 2019).
American Statistical Association (2016) p-değeri kullanımına dair tarihi açıklama yaptı:
| İlke | Açıklama |
|---|---|
| 1 | P-değeri, verinin belirli bir istatistiksel modelle ne kadar uyumsuz olduğunu gösterir |
| 2 | P-değeri hipotezin doğru olma olasılığını ÖLÇMEZ |
| 3 | Bilimsel sonuçlar ve iş kararları sadece p-değerine dayanmamalı |
| 4 | Uygun çıkarım için tam şeffaflık gerekir (raporlama) |
| 5 | P-değeri veya istatistiksel anlamlılık etki büyüklüğünü veya sonucun önemini ölçmez |
| 6 | P-değeri tek başına bir modelin veya hipotezin kanıtı olarak iyi bir ölçü değildir |
⚠️ ASA 2019 Güncellemesi
"Don't Say 'Statistically Significant'" - ASA 2019 editöryal açıklamasında "istatistiksel olarak anlamlı" ifadesinin kullanılmaması tavsiye edildi! Bunun yerine: Etki büyüklüğü + Güven aralığı raporlanmalı.
| ❌ YANLIŞ Yorum | ✅ DOĞRU Anlam |
|---|---|
| "p = 0.03 ise H₀ yanlıştır" | H₀'ın doğru olduğu varsayımıyla bu veriyi görme olasılığı %3 |
| "p = 0.001 çok büyük etki demektir" | P-değeri etki büyüklüğünü göstermez, sadece şans olasılığını! |
| "p > 0.05 ise etkisizdir" | Etki var olabilir ama örneklem küçük olduğu için tespit edilememiştir |
| "p = 0.04 bulgular, p = 0.06'dan daha önemlidir" | 0.05 eşiği keyfidir, p = 0.04 ile 0.06 arasında anlamlı fark yok |
| "p < 0.05 ise bulgu tekrarlanabilir" | P-değeri reprodüktürbilirlik garantisi vermez |
🏋️ Vaka: Kreatin Supplementasyonu Çalışması
Çalışma 1 (n=200 rekreasyonel sporcu):
Kreatin grubu: Bench press 1RM → +2 kg artış
Kontrol grubu: → +0.5 kg artış
p = 0.001 (çok anlamlı!) ⭐⭐⭐
Çalışma 2 (n=12 elite powerlifter):
Kreatin grubu: Bench press 1RM → +8 kg artış
Kontrol grubu: → +1 kg artış
p = 0.09 (anlamsız) ❌
❓ Hangi sonuç daha değerli?
✅ Doğru Cevap: Çalışma 2! Elite sporcular için +8 kg devasa bir gelişim
ama küçük örneklem yüzünden p > 0.05 çıkmış. Effect size bakmak şart:
• Çalışma 1: d = 0.18 (ihmal edilebilir)
• Çalışma 2: d = 1.42 (çok büyük etki) 🚀
📌 Paradigma Değişimi (2014-2024)
Geoff Cumming'in 2014 tarihli "The New Statistics" makalesinden bu yana bilimsel topluluğun istatistiksel düşüncesinde temel bir değişim yaşanmaktadır. Bu paradigma değişimi, p-değeri odaklı düşünceden etki büyüklüğü ve tahmin hassasiyeti odaklı düşünceye geçişi temsil eder.
⚖️ Paradigma Karşılaştırması
| Özellik | NHST (Eski) | Estimation (Yeni) |
|---|---|---|
| Ana Odak | P-değeri (p<0.05?) | Effect size + %95 CI (Güven Aralığı) |
| Araştırma Sorusu | "Fark var mı?" (Dikotomik: Evet/Hayır) | "Fark ne kadar büyük?" (Sürekli: Tahmin + Belirsizlik) |
| Karar Mekanizması | Eşik-temelli (p<0.05 → "anlamlı") | Sürekli değerlendirme (CI genişliği, pratik önem) |
| Negatif Sonuçlar | Yayınlanmaz (file drawer effect → Publication bias) | Yayınlanır (Precisyon hâlâ değerli bilgi!) |
| Örneklem Büyüklüğü | Power analizi (p<0.05 için %80 güç) | Precision-based planning (CI genişliği ±X için n?) |
| Raporlama Standardı | "p = 0.032" (tek değer) | "d = 0.65, %95 CI [0.28, 1.02]" (tahmin + belirsizlik) |
🏋️ Spor Örneği: İki Paradigma Karşılaştırması
Araştırma: Yüksek yoğunluklu interval antrenman (HIIT) vs Orta yoğunluklu sürekli antrenman (MICT) - VO₂max karşılaştırması (n=24)
❌ Eski Raporlama (NHST):
"HIIT grubu VO₂max'ı anlamlı olarak artırdı (p=0.041). MICT grubunda anlamlı artış gözlenmedi (p=0.068).
Sonuç: HIIT etkili, MICT etkili değil."
✅ Yeni Raporlama (Estimation):
• HIIT grubu VO₂max artışı: +4.2 ml/kg/dk, %95 CI [0.3, 8.1], d = 0.68 [0.12, 1.24] → Orta-büyük etki
• MICT grubu VO₂max artışı: +3.1 ml/kg/dk, %95 CI [-0.2, 6.4], d = 0.52 [-0.04, 1.08] → Orta etki
• Grup farkı: +1.1 ml/kg/dk [-3.2, 5.4], d = 0.16 [-0.40, 0.72] → İhmal edilebilir fark
Yeni Yorum: Her iki antrenman da benzer büyüklükte (orta düzey) gelişim sağladı.
Güven aralıkları geniş (küçük örneklem) → Daha büyük çalışma gerekli. HIIT'in üstünlüğü kanıtlanmadı.
📚 Resmi Onaylar ve Kılavuzlar
APA 7th Edition (2020): "Effect size + %95 CI raporlaması zorunlu"
CONSORT 2024 (RCT Raporlama Standartları): Effect size ve CI raporlama şartı
MSSE Editorial (2021): "Effect size olmadan makale kabul edilmeyecek"
Nature Human Behaviour (2019): "p < 0.05 = anlamlı" ifadesi yasaklandı
Paradigma değişimi artık resmi politika haline geldi!
💡 Öğrenciye Tavsiye
Araştırma tasarlarken: "p<0.05 için kaç kişi?" yerine "CI genişliğim ±0.3 olsun için kaç kişi?" diye düşün
Analiz yaparken: Sadece p-değerine odaklanma, effect size ve CI hesapla
Raporlarken: "Anlamlı/anlamsız" ikilemine düşme, tahmin + belirsizlik rapor et
Yayın okurken: Sadece p-değerine bakan makalelere şüpheyle yaklaş (eski paradigma!)
"The New Statistics is effect sizes, confidence intervals, and meta-analysis" - Cumming (2014)
⚠️ P-Hacking (P-Değeri Manipülasyonu) Nedir?
P-hacking: Araştırmacının veriyi veya analizini, p < 0.05 sonucu elde edene kadar bilinçli veya bilinçsiz olarak manipüle etmesidir (Head et al., 2015; Simmons et al., 2011). Bu durum, yalancı pozitif (Type I error) oranını %5'ten %60'a kadar çıkarabilir!
🎯 Yaygın P-Hacking Teknikleri
| Teknik | Nasıl Yapılır? (ETİK OLMAYAN!) | Sonuç |
|---|---|---|
| Seçici Raporlama (Cherry-picking) |
10 farklı değişken ölç → Sadece p<0.05 olanları raporla → Diğer 7 tanesini gizle | Şansa denk gelen 3 sonuç "anlamlı" gibi görünür |
| Esnek Durdurma (Optional Stopping) |
n=20'de p=0.08 → "Biraz daha veri toplayalım" → n=30'da p=0.047 → "Yeter artık!" | Örneklem büyütülerek p-değeri "yakalanır" |
| Outlier Oyunu (Selective Exclusion) |
Tüm veriyle p=0.12 → Uç değer (outlier) diye 2 kişiyi çıkar → p=0.04 "Anlamlı!" | Veri manipülasyonu ile anlamsız → anlamlı |
| HARKing (Hypothesizing After Results are Known) |
Beklenmeyen sonuç çıkınca "Aslında hipotezimiz buydu" diye geriye dönük hipotez değiştir | Keşifsel araştırmayı doğrulayıcı gibi göster |
| Kovaryat Ekleme (Covariate Fishing) |
p=0.09 → Yaş ekle → p=0.06 → Vücut ağırlığı ekle → p=0.04 "Başardık!" | Model karmaşıklaştırılarak p-değeri düşürülür |
🏃 Spor Bilimleri P-Hacking Örneği (Gerçek Senaryo)
Araştırma: Yeni bir pre-workout supplementinin sprint performansına etkisi (n=25)
❌ P-Hacking Süreci:
Adım 1: 10m sprint zamanı → p = 0.18 (anlamsız) 😞
Adım 2: "20m sprint zamanına bakalım" → p = 0.12 (hâlâ anlamsız) 😔
Adım 3: "30m sprint zamanı?" → p = 0.09 (yaklaştık!) 🤔
Adım 4: "1 kişi grip olmuş, onu çıkaralım" → p = 0.06 (çok yakın!) 😬
Adım 5: "Vücut ağırlığını kovaryat olarak ekleyelim" → p = 0.048 ✅ 🎉
✅ Etik Yaklaşım:
Ön kayıt (Preregistration): Analiz planını veri toplamadan önce yayınla (osf.io)
Birincil sonuç: 10m sprint (p=0.18, d=0.28 [CI: -0.15, 0.71]) → Küçük-orta etki ama belirsiz
İkincil sonuçlar: 20m, 30m (keşifsel, düzeltme faktörü uygula: α = 0.05/3 = 0.017)
Sonuç: "Supplement'in etkisi belirsiz, daha büyük örneklem gerekli (n=64 önerisi)" 📊
🛡️ Açık Bilim (Open Science) ile P-Hacking'e Karşı Koruma (2024 Öneriler)
Bilimsel topluluğun p-hacking'e karşı geliştirdiği modern çözümler:
- Preregistration (Ön Kayıt): Hipotez, örneklem büyüklüğü ve analiz planını veri toplamadan önce kaydet (OSF, AsPredicted)
- Registered Reports: Yöntem bölümü hakem değerlendirmesi geçtikten sonra veri topla (sonuç ne olursa olsun yayınlanır!)
- Multiverse Analysis: Tüm makul analiz seçeneklerini rapor et (sadece p<0.05 olanı değil)
- Transparent Reporting: Ham veriyi, analiz kodlarını paylaş (GitHub, OSF)
- Effect Size + CI Zorunluluğu: Sadece p-değeri yerine tahmin + belirsizlik rapor et
"Preregistration is the single most powerful tool against p-hacking" - Nosek et al. (2018)
📊 2024 İstatistikler: P-Hacking Ne Kadar Yaygın?
Fanelli (2010) Meta-Analiz: Yayınlanan makalelerin %91.5'i pozitif sonuç raporluyor
(teorik beklenti %50-60 civarı olmalı) → Açık publication bias kanıtı
Head et al. (2015): p-değeri dağılımı analizinde p=0.05 civarında şüpheli yığılma tespit edildi
(p=0.04-0.05 arası normalden %50 fazla makale!)
Wicherts et al. (2016): Psikoloji araştırmalarının %50'sinde en az 1 raporlama hatası var
(çoğunlukla p-değerini olduğundan daha küçük gösteren hatalar)
Spor Bilimleri (Caldwell et al., 2020): Exercise science dergilerindeki makalelerin
%38'inde etki büyüklüğü eksik, %62'sinde güven aralığı yok → NHST bağımlılığı devam ediyor ⚠️
📊 ETKİ BÜYÜKLÜĞÜ TEMELLERİ
Yokluk hipotezinin sınandığı anlamlılık testleri araştırmanın örnekleminden elde edilen sonuçlara şans faktörüyle ulaşılma ihtimalini değerlendirirken, etki büyüklüğü ise pratik anlamlılığın bir göstergesi olarak kullanılmaktadır (Cohen, 1969; Hopkins, 2002).
- Bir araştırmanın sonucunda ortaya çıkan farkın pratikte ne kadar önemli olduğuna karar vermede kullanılır
- Aynı araştırma içinde uygulanan müdahalelerin karşılaştırılmasını sağlar
- Farklı zamanlarda yapılmış araştırmaların karşılaştırılmasına imkan sağlar
- İstatistiksel testin gücünü hesaplamak için kullanılabilir
- Gerekli örneklem sayısını belirlemede yardımcı olur
1️⃣ Ortak Birimde Karşılaştırma
Örnek: Olimpik Halter vs Geleneksel Kuvvet Antrenmanı
- Her iki grup da "anlamlı derecede" gelişti (p < 0.05)
- Soru: Hangi müdahalenin etkisi daha büyük?
- Sadece p-değeri: Cevap veremez ❌
- Etki Büyüklüğü ile: Grup A: d = 0.9 (büyük), Grup B: d = 0.4 (küçük) ✅
2️⃣ P-Değeri Anlamsız Olsa Bile Pratik Önem
Örnek: Bir antrenman protokolünün etkisi
- p = 0.08 (anlamsız kabul edilir)
- Ancak: EB = 0.70 (orta düzeyde etki)
- Bu protokol tekrar edilmeye değer olabilir
- Örneklem sayısı artırılırsa anlamlı çıkabilir
✅ Çözüm: P-Değeri + Etki Büyüklüğü
Mevcut şartlardaki yaygın kabul: Etki büyüklüğünün p-değerinin yanında sunulması gereken ve pratikte kullanımı kolaylaştıran destekleyici bir yöntem olduğudur (Tomczak & Tomczak, 2014).
📐 Cohen's d: İki Dağılımın Örtüşmesi
Kaynak: Wikimedia Commons (Public Domain) | Cohen's d = 0.2 (küçük), 0.5 (orta), 0.8 (büyük), 1.2 (çok büyük) etkiler için iki normal dağılımın örtüşme gösterimi
💡 Görseli Nasıl Yorumlarız?
- d = 0.2 (Küçük): İki dağılım büyük ölçüde örtüşüyor → %85 örtüşme, gruptaki kişilerin çoğunluğu benzer performans
- d = 0.5 (Orta): Orta düzey ayrılma → %67 örtüşme, belirgin fark var ama hâlâ örtüşme fazla
- d = 0.8 (Büyük): Net ayrılma → %53 örtüşme, iki grubun çoğunluğu farklı performans seviyeleri
- d = 1.2 (Çok Büyük): Minimal örtüşme → %41 örtüşme, gruplar neredeyse tamamen ayrı populasyonlar gibi
⚠️ Spor Bilimleri Not: Hopkins (2002) sınıflandırması Cohen'den farklıdır! Spor için d=0.6 bile "orta" kabul edilir (elit sporcular için).
🧮 ETKİ BÜYÜKLÜĞÜ HESAPLAMA YÖNTEMLERİ
Orijinal Formül (Cohen, 1969)
d = (Ort₁ - Ort₂) / SD
⚠️ Sorun: Sadece bir grubun standart sapmasını kullanır (diğer grubunki göz ardı edilir)
Revize Edilmiş Formül (Bortz & Döring, 2007)
d = (Ort₁ - Ort₂) / √[(SD₁² + SD₂²) / (n₁ + n₂ - 2)]
✅ Avantaj: Her iki grubun standart sapmasını da hesaba katar (önerilen yöntem)
g = (Ort₁ - Ort₂) / √[((n₁-1)×SD₁² + (n₂-1)×SD₂²) / (n₁ + n₂ - 2)]
Harmanlanmış (pooled) standart sapma kullanır (Hedges & Olkin, 2014)
Cohen's d'ye benzer ama küçük örneklemlerde daha doğru sonuç verir
Eta Kare (η²)
η² = (Gruplar Arası Kareler Toplamı) / (Toplam Kareler Toplamı)
Kısmi Eta Kare (η²ₚ) - Çok Faktörlü Tasarımlarda
η²ₚ = (Gruplar Arası KT) / (Gruplar Arası KT + Hata KT)
- Tek faktörlü ANOVA: η² kullan
- Çok faktörlü ANOVA: η²ₚ kullan (SPSS otomatik hesaplar)
- Yorum: 100 ile çarp → Bağımlı değişken varyansının %X'i bağımsız değişken tarafından açıklanır
r = √[t² / (t² + df)]
df: Serbestlik derecesi (n₁ - 1 + n₂ - 1)
t: Bağımsız örneklem t-testi sonucu (SPSS çıktısından)
r²: Kare al ve 100 ile çarp → Bağımlı değişken varyansının %X'i açıklanır
🏋️ Örnek Çalışma: Squat Performansı
Soru: 8 haftalık kuvvet antrenmanı squat 1RM'yi arttırır mı?
Tasarım: Antrenman grubu (n=15) vs Kontrol grubu (n=15)
| Adım | İşlem | Sonuç |
|---|---|---|
| 1 | Antrenman grubu ortalaması | Ort₁ = 125 kg, SD₁ = 12 kg |
| 2 | Kontrol grubu ortalaması | Ort₂ = 110 kg, SD₂ = 10 kg |
| 3 | Farkı hesapla | 125 - 110 = 15 kg |
| 4 | Pooled SD hesapla | √[(12² + 10²) / (15+15-2)] = √[(144 + 100) / 28] = √8.71 = 2.95 |
| 5 | Cohen's d = Fark / Pooled SD | d = 15 / 2.95 = 5.08 🚀 |
✅ Yorum: d = 5.08 → ÇOK BÜYÜK etki! (Cohen ölçeğinde 0.8 = büyük)
Pratik Anlam: Antrenman grubu ortalam 15 kg daha fazla kaldırabiliyor, bu fark
standart sapmanın 5 katı! Sahada son derece anlamlı bir gelişim.
⚡ Vaka: Sprint Antrenmanı (Küçük Örneklem)
Çalışma: Resisted sprint vs Normal sprint (n₁ = 8, n₂ = 7)
Sonuç: 40m sprint süreleri
• Resisted grup: 5.12 ± 0.18 sn
• Normal grup: 5.32 ± 0.22 sn
Cohen's d hesaplama:
d = (5.12 - 5.32) / √[(0.18² + 0.22²)/2] = -0.20 / 0.143 = -1.40
Hedge's g hesaplama (küçük n için bias corrected):
g = d × [1 - 3/(4(n₁+n₂)-9)]
g = -1.40 × [1 - 3/(4×15-9)] = -1.40 × 0.945 = -1.32
📊 Yorum: Her ikisi de çok büyük etki gösteriyor (resisted grup 0.20 sn daha hızlı).
Küçük örneklem (n<20) olduğu için Hedge's g tercih edilir (bias düzeltmesi yapıyor).
Elite atletler için 0.20 sn → devasa fark! 🚀
📚 Hangi Testi Kullanmalıyım?
- 2 grup, n ≥ 20: Cohen's d (revize formül)
- 2 grup, n < 20: Hedge's g (bias düzeltmesi önemli)
- 3+ grup (ANOVA): η² (tek faktör) veya η²ₚ (çok faktör)
- t-test sonucu var: r hesapla
- Korelasyon/Regresyon: Zaten r veya R² raporlanıyor, ek hesaplama gereksiz
📐 ETKİ BÜYÜKLÜĞÜ SINIFLANDIRMALARI
| Yıl | Küçük (Small) | Orta (Moderate) | Büyük (Large) |
|---|---|---|---|
| 1969 | 0.2 | 0.5 | 0.8 |
| 1988 | < 0.4 | 0.41 - 0.70 | > 0.70 |
⚠️ Davranış bilimleri ve sosyal bilimler için geliştirilmiştir
| Çok Küçük | Küçük | Orta | Büyük | Çok Büyük | Muazzam |
|---|---|---|---|---|---|
| 0.01 | 0.2 | 0.5 | 0.8 | 1.2 | 2.0 |
| Etki | Düşük Seviye (< 1 yıl) |
Orta Seviye (1-5 yıl) |
Yüksek Seviye (> 5 yıl) |
|---|---|---|---|
| Önemsiz | < 0.50 | < 0.35 | < 0.25 |
| Küçük | 0.50 - 1.25 | 0.35 - 0.80 | 0.25 - 0.50 |
| Orta | 1.25 - 1.90 | 0.80 - 1.50 | 0.50 - 1.0 |
| Büyük | > 2.0 | > 1.5 | > 1.0 |
✅ Önerilen: Kuvvet antrenmanı araştırmalarında kullanın
| Önemsiz | Küçük | Orta | Büyük | Çok Büyük | Mükemmele Yakın |
|---|---|---|---|---|---|
| < 0.2 | 0.2 - 0.59 | 0.60 - 1.19 | 1.20 - 1.99 | 2.0 - 3.99 | > 4.0 |
✅ EN YAYGINN: Genel spor bilimleri araştırmalarında kullanın
| Önemsiz | Küçük | Orta | Büyük | Çok Büyük | Mükemmele Yakın |
|---|---|---|---|---|---|
| 0 - 0.1 | 0.1 - 0.3 | 0.3 - 0.5 | 0.5 - 0.7 | 0.7 - 0.9 | 0.9 - 1.0 |
💡 Hangisini Kullanmalıyım?
- Kuvvet antrenmanı + antrenman statüsü var: Rhea (2004)
- Genel spor bilimleri (performans, besin takviyesi, ısınma): Hopkins (2002) - EN YAYIN
- Davranış, tutum ölçekleri: Cohen (1988) veya Sawilowsky (2009)
- Korelasyon sonuçları: Hopkins korelasyon tablosu
🎯 EN KÜÇÜK DEĞERLİ DEĞİŞİM (SWC)
En Küçük Değerli Değişim (SWC): Uygulamada önemli olarak kabul edilen en küçük değişim miktarıdır (Bernards et al., 2017; Pyne, 2003).
SWC = 0.2 × Denekler Arası Standart Sapma (SD)
- Bir grubun bir kez ölçülmesi ile hesaplanabilir
- 0.2 değeri Cohen'in "küçük" etki büyüklüğü eşiğinden gelir
- Elit sporcular için özellikle önemli
Elit seviyedeki sporcular, nadir hastalığa sahip kişiler gibi az sayıdaki gruplarda çalışmak:
- Örneklem sayısı az → p-değeri yüksek → "Anlamsız" çıkma riski
- Ancak performans çıktıları birbirine yakın → SD küçük → SWC küçük
- Küçük ama pratikte önemli değişimler tespit edilebilir
📖 Örnek: 40m Sprint
Elit Sporcular: SD = 0.30 saniye → SWC = 0.2 × 0.30 = 0.06 saniye
Amatör Sporcular: SD = 0.80 saniye → SWC = 0.2 × 0.80 = 0.16 saniye
✅ Elit sporcuların 0.06 saniye daha hızlı koşması "önemli gelişim" sayılır!
SWC değerinin uygulamada kullanılabilmesi için:
⚠️ ZORUNLU KOŞUL
Tipik Hata (TE) < SWC
Ölçüm Standart Hatası (SEM) < SWC
Eğer hata terimleri SWC'den BÜYÜKSE, ölçüm yeterince güvenilir değildir!
Bu durumda: SWC = 0.6 × SD kullan (orta etki eşiği)
- Problem: Az sayıda elit sporcu → p-değeri anlamsız çıkar
- Çözüm: Grup içi homojenlik yüksek → SWC düşük → Küçük farklar tespit edilebilir
- Sonuç: İstatistiksel anlamlılık yerine pratik anlamlılık odaklı değerlendirme
📏 TİPİK HATA VE ÖLÇÜM STANDART HATASI
Spor bilimlerinde performans ölçümlerinde iki tür değişkenlik (varyasyon) vardır:
-
Gerçek Bireysel Farklılıklar (Standart Sapma - SD):
Sporcuların gerçekten birbirinden farklı performans göstermesi. Örneğin, bir takımda bazı futbolcular 40m sprintte 5.0 saniye koşarken, diğerleri 5.8 saniye koşabilir. Bu gerçek atletik farklılıktır ve SD ile ölçülür. -
Ölçüm Hatası (Measurement Error):
Aynı sporcuyu iki kez test ettiğimizde ortaya çıkan küçük farklılıklar. Örneğin, bir sporcu sabah 5.40 saniye koşarken, aynı gün öğleden sonra 5.38 saniye koşabilir. Bu fark ölçüm belirsizliğinden kaynaklanır ve TE (Tipik Hata) veya SEM (Ölçüm Standart Hatası) ile ölçülür.
📐 Standart Sapma Görselleştirmesi
Kaynak: Wikimedia Commons (CC-BY 2.5) | Normal dağılımda ±1 SD, ±2 SD, ±3 SD aralıkları ve değerlerin dağılımı
📖 Kitap Özeti: Standart Sapma vs Ölçüm Hatası
Standart Sapma (SD), bir gruptaki bireylerin birbirinden ne kadar farklı olduğunu gösterir. Yüksek SD = heterojen grup (farklılıklar büyük), düşük SD = homojen grup (benzer performanslar).
Ölçüm Hatası ise, aynı kişiyi iki kez ölçtüğümüzde ortaya çıkan tutarsızlıktır. Bu tutarsızlık şu faktörlerden kaynaklanabilir:
- Biyolojik varyasyon: Sporcu günlük formu, yorgunluk, motivasyon
- Teknik varyasyon: Ölçüm cihazı hassasiyeti, kalibrasyonu
- Çevresel varyasyon: Sıcaklık, rüzgar, zemin özellikleri
- İdari varyasyon: Test protokolü uygulamasındaki küçük farklılıklar
💡 Pratikte Nasıl Kullanılır?
Araştırmanızda bir antrenman programının etkisini ölçmeden önce, testinizin ne kadar güvenilir olduğunu bilmelisiniz. Eğer ölçüm hatası (TE veya SEM) çok büyükse, antrenmanın gerçek etkisini tespit edemezsiniz. Bu yüzden pilot çalışmada test-retest güvenilirliği mutlaka hesaplanmalıdır.
Tipik Hata (TE), test-tekrar test (test-retest) güvenilirlik analizlerinde kullanılan bir ölçüttür. Aynı kişilere aynı testi iki kez uyguladığınızda, iki ölçüm arasındaki tipik (ortalama) farkı nicelleştirir.
📐 Matematiksel Formül
TE = (Ölçümler Arası Farkların SD) / √2
🔍 Formülün Mantığı: Neden √2 Kullanılır?
Her ölçüm kendi ölçüm hatasını taşır. İki ölçüm arasındaki farkı hesapladığınızda, aslında iki hatayı birleştirmiş olursunuz.
Fark = (Gerçek Değer + Hata₁) - (Gerçek Değer + Hata₂) = Hata₁ - Hata₂
İstatistikte, iki bağımsız hata teriminin farkının varyansı, her bir hata teriminin varyansının toplamına eşittir:
Var(Fark) = Var(Hata₁) + Var(Hata₂) = 2 × Var(Hata)
Standart sapma, varyansın kareköküdür (SD = √Var). O yüzden:
SD(Fark) = √[2 × Var(Hata)] = √2 × SD(Hata)
→ SD(Hata) = SD(Fark) / √2 = TE
📖 Adım Adım Hesaplama Örneği: Halter Koparma Güvenilirliği
Senaryo: 12 halterci, bir hafta arayla iki kez maksimum koparma testi yaptı. Araştırmacı, testin güvenilirliğini hesaplamak istiyor.
📋 Adım 1: Veri Toplama
| Sporcu | Test 1 (kg) | Test 2 (kg) | Fark (kg) |
|---|---|---|---|
| 1 | 102 | 104 | +2 |
| 2 | 95 | 98 | +3 |
| 3 | 110 | 115 | +5 |
| 4 | 88 | 88 | 0 |
| 5 | 92 | 96 | +4 |
| 6 | 105 | 105 | 0 |
(Diğer 6 sporcu için farklar: +2, +1, 0, +2, +3, +1 kg)
📋 Adım 2: Farkların Standart Sapmasını Hesapla
12 fark değeri: 2, 3, 5, 0, 4, 0, 2, 1, 0, 2, 3, 1 kg
Ortalama Fark = (2+3+5+0+4+0+2+1+0+2+3+1) / 12 = 23/12 = 1.92 kg
SD(Farklar) = √[ Σ(Fark - Ortalama)² / (n-1) ] = 1.62 kg
📋 Adım 3: Tipik Hatayı Hesapla
TE = SD(Farklar) / √2
TE = 1.62 kg / 1.414
TE = 1.15 kg
📋 Adım 4: Sonucu Yorumla
✅ TE = 1.15 kg demek, bir haltercinin iki ölçümü arasındaki tipik (beklenen) farkın yaklaşık 1.15 kg olduğu anlamına gelir. Bu değer küçükse, test güvenilirdir. Büyükse, test güvenilir değildir.
💡 Pratikte Nasıl Kullanılır?
Eğer bir antrenman programının halter koparma performansını geliştirip geliştirmediğini araştırıyorsanız, sporcunun gelişiminin en az 1.15 kg'dan büyük olması gerekir ki bu gelişim "gerçek" kabul edilsin. Aksi halde, görülen değişim sadece ölçüm hatasından kaynaklanıyor olabilir.
⚙️ TE'nin Özellikleri ve Sınırlılıkları
| Özellik | Açıklama | Örnek |
|---|---|---|
| Tutarlılığı ölçer | İki ölçüm arasındaki rastgele varyasyonu gösterir | TE küçük → yüksek güvenirlik |
| Sabit hataları tespit edemez | Tüm değerler aynı miktarda artarsa (sistematik bias) TE = 0 çıkar | Kronometre her zaman 0.1s geç başlarsa TE bunu görmez |
| √2 kullanımı zorunlu | Her iki ölçüm de kendi hata varyansını içerir | Var(Fark) = 2×Var(Hata) |
| Birim korunur | TE, orijinal ölçümle aynı birimde ifade edilir | Sprint zamanı saniye ile ölçüldüyse, TE de saniyedir |
SEM (Ölçüm Standart Hatası), bir ölçümün kesinliğini (precision) nicelleştirir. TE'den farklı olarak, SEM hesaplamasında denekler arası standart sapma (SD) ve güvenirlik katsayısı (ICC - Intraclass Correlation Coefficient) kullanılır.
📐 Matematiksel Formül
SEM = SD × √(1 - ICC)
SD: Denekler arası standart sapma (grup içindeki gerçek bireysel farklılıklar)
ICC: Güvenirlik katsayısı (Intraclass Correlation - Sınıf İçi Korelasyon), 0 ile 1 arasında değişir
√(1 - ICC): Ölçümün ne kadar "hatalı" olduğunun oranı
🔍 Formülün Mantığı: SEM Neyi Ölçer?
Klasik test teorisine (Classical Test Theory) göre, gözlemlenen her skorun iki bileşeni vardır:
Gözlemlenen Skor = Gerçek Skor + Hata
-
ICC (Güvenirlik Katsayısı): Toplam varyansın ne kadarının "gerçek" bireysel farklılıklardan kaynaklandığını gösterir.
ICC = 1.00 → Hata yok, mükemmel güvenirlik
ICC = 0.00 → Tüm varyans hatadan kaynaklanıyor, sıfır güvenirlik -
√(1 - ICC): Hata varyansının oranıdır.
ICC = 0.90 ise → √(1 - 0.90) = √0.10 = 0.316 → Varyansın %31.6'sı hatadan kaynaklanıyor - SEM = SD × √(1 - ICC): Denekler arası SD'yi hata oranıyla çarparak, ölçüm hatasının mutlak büyüklüğünü elde ederiz.
📖 Adım Adım Hesaplama Örneği: 40m Sprint Güvenilirliği
Senaryo: Bir futbol takımında 20 oyuncunun 40m sprint zamanları bir hafta arayla iki kez ölçüldü. Test-retest güvenilirliği değerlendirilecek.
📋 Adım 1: Veri Toplama ve İstatistik Hesaplama
Test 1 Ortalaması: 5.42 saniye
Test 2 Ortalaması: 5.38 saniye
Denekler Arası SD (pooled): 0.30 saniye
ICC (2,1) - Two-way random, single measure: 0.90
💡 Not: ICC hesaplama formülleri (1,1), (2,1), (3,1) gibi farklı modellere sahiptir. Spor bilimlerinde genellikle ICC(2,1) veya ICC(3,1) kullanılır. ICC hesaplamasını SPSS, R veya Python ile yapabilirsiniz.
📋 Adım 2: SEM Hesaplama
SEM = SD × √(1 - ICC)
SEM = 0.30 × √(1 - 0.90)
SEM = 0.30 × √0.10
SEM = 0.30 × 0.3162
SEM = 0.0949 saniye ≈ 0.095 saniye
📋 Adım 3: Sonucu Yorumla
✅ SEM = 0.095 saniye demek, bir futbolcunun "gerçek" sprint zamanını tahmin etmeye çalıştığımızda, ölçümümüzün yaklaşık 0.1 saniye hata payı taşıdığı anlamına gelir. Yani bir oyuncu 5.40 saniye koştu ise, gerçek performansı muhtemelen 5.30-5.50 saniye aralığındadır.
💡 Pratikte Nasıl Kullanılır?
Bir oyuncunun sprint performansında "gerçek değişim" olduğunu söyleyebilmek için, iki ölçümü arasındaki farkın SEM'den büyük (ideal olarak 2×SEM veya daha fazla) olması gerekir. Aksi halde, değişim sadece ölçüm belirsizliğinden kaynaklanıyor olabilir.
🔧 SEM'i Düşüren (İyileştiren) Faktörler
| Faktör | Etki Mekanizması | Spor Bilimlerinde Uygulama |
|---|---|---|
| Yüksek ICC | ICC arttıkça √(1-ICC) küçülür → SEM düşer | Standartlaştırılmış test protokolleri kullanın (örn: standart ısınma) |
| Düşük SD | Homojen grup → daha az varyabilite → SEM düşük | Elit sporcular (homojen grup) → düşük SD → düşük SEM |
| Teknik iyileştirme | Ölçüm tekniği geliştirilirse ICC artar | Fotosel yerine lazer kullanımı, kalibre edilmiş cihazlar |
| Çevresel kontrol | Dış faktörler minimize edilirse ICC artar | İç mekan testleri, sabit sıcaklık/nem, standart zemin |
⚠️ Önemli Uyarı: SD ve Güvenirlik İlişkisi
Paradoks: Homojen bir grupta (düşük SD) SEM küçük çıkabilir, ancak bu testin gerçekten "iyi" olduğu anlamına gelmez. Sadece grup içinde az varyasyon olduğu için SEM küçük görünüyor. ICC'ye mutlaka bakın! ICC düşükse (örn: 0.50), test güvenilir değildir, SD küçük olsa bile.
MDC, iki ölçüm arasındaki farkın ölçüm hatasından kaynaklanmadığından emin olabilmek için gereken minimum değişim miktarıdır. %95 güven aralığında hesaplanır.
📐 Matematiksel Formül
MDC = 1.96 × √2 × SEM
veya
MDC₉₅ = 2.77 × SEM
1.96: %95 güven aralığı için z-skoru (normal dağılımda %95 alan)
√2: İki ölçüm arasındaki farkın hata varyansı iki katına çıkar
2.77: 1.96 × √2 = 1.96 × 1.414 ≈ 2.77 (kısa formül)
🔍 MDC'nin Mantığı
Bir sporcuyu iki kez test ettiğinizde, iki ölçüm arasındaki fark iki kaynaktan gelir:
- Gerçek değişim: Sporcunun performansı gerçekten değişti (antrenman, yorgunluk vb.)
- Ölçüm hatası: Test-retest güvenilirliği mükemmel değil, rastgele hatalar var
MDC, %95 olasılıkla "gerçek değişim var" diyebilmek için gerekli minimum farkı gösterir. Eğer iki ölçüm arasındaki fark MDC'den küçükse, bu fark sadece şans eseri (ölçüm hatası) olabilir.
Fark > MDC → %95 güvenle "gerçek değişim var" deriz
Fark < MDC → "Değişim tespit edilemedi, hata olabilir" deriz
📖 Adım Adım Hesaplama ve Uygulama: 40m Sprint MDC
Önceki örnekten devam: 40m sprint testinde SEM = 0.0949 saniye bulmuştuk.
📋 Adım 1: MDC Hesaplama
MDC₉₅ = 1.96 × √2 × SEM
MDC₉₅ = 1.96 × 1.414 × 0.0949
MDC₉₅ = 2.77 × 0.0949
MDC₉₅ = 0.263 saniye ≈ 0.26 saniye
📋 Adım 2: Bireysel Sporcu Değerlendirmesi
| Oyuncu | Ön-Test (s) | Son-Test (s) | Fark (s) | Değerlendirme |
|---|---|---|---|---|
| Oyuncu A | 5.40 | 5.10 | -0.30 | ✅ Gerçek gelişim (-0.30 > MDC 0.26) |
| Oyuncu B | 5.50 | 5.35 | -0.15 | ❌ Tespit edilemez (-0.15 < MDC 0.26) |
| Oyuncu C | 5.30 | 5.28 | -0.02 | ❌ Ölçüm hatası olabilir |
💡 Pratikte Nasıl Kullanılır?
Oyuncu A'nın 0.30 saniyelik gelişimi MDC (0.26s)'den büyük olduğu için, %95 güvenle "gerçek performans artışı var" diyebiliriz. Oyuncu B ve C'nin gelişimleri ise MDC'nin altında kaldığı için, bu farklılıkların sadece ölçüm hatasından kaynaklanıyor olması muhtemeldir. Antrenörler için: Sadece MDC'yi aşan değişimleri "başarılı gelişim" olarak raporlayın.
| Özellik | Tipik Hata (TE) | SEM |
|---|---|---|
| Hesaplama Yöntemi | Ölçümler-arası farkların SD'sini kullanır: TE = SD(farklar) / √2 |
Denekler-arası SD ve ICC kullanır: SEM = SD × √(1 - ICC) |
| Neyi Ölçer? | İki ölçüm arası mutlak tutarlılık | Ölçme hatasının standartlaştırılmış göstergesi |
| Gerekli Bilgi | Sadece test-retest verileri | Test-retest + ICC hesaplaması |
| Sistematik Bias'a Duyarlılık | ❌ Sabit hataları tespit edemez | ✅ ICC üzerinden dolaylı olarak yansır |
| Yorumlama | Küçük TE → Yüksek tekrarlanabilirlik | Küçük SEM → Yüksek kesinlik |
| Spor Bilimlerinde Kullanım | Performans testlerinde yaygın (Hopkins 2000) | Klinik ölçümlerde yaygın (fizyoterapi, tıp) |
| Matematiksel İlişki |
TE ≈ SEM (benzer büyüklükte olma eğilimi) Ancak tam eşit DEĞİLDİR! Farklı mantıklar kullanır. |
|
📖 Hangi Metriği Ne Zaman Kullanmalısınız?
🎯 TE Kullanın:
- Performans testlerinin güvenilirliğini rapor ederken (sprint, sıçrama, kuvvet testleri)
- Hopkins (2000) yaklaşımını takip ederken (spor bilimlerinde standart)
- Hızlı bir güvenilirlik tahmini yapmak istiyorsanız (ICC hesaplamaya gerek yok)
- Smallest Worthwhile Change (SWC) ile karşılaştırma yapacaksanız (TE < SWC kontrolü)
🎯 SEM Kullanın:
- Klinik ölçümlerde (fizyoterapi, rehabilitasyon, tıbbi testler)
- ICC değerini de raporlamanız gerekiyorsa (güvenilirlik katsayısı)
- MDC (Minimal Detectable Change) hesaplamak istiyorsanız (MDC = 2.77 × SEM)
- Klasik Test Teorisi çerçevesinde çalışıyorsanız
💡 En İyi Uygulama: Hem TE hem SEM'i rapor edin! Modern spor bilimi yayınları genellikle her ikisini de sunar. TE değerini SWC ile karşılaştırın (TE < SWC olmalı). SEM değerini MDC hesaplamak için kullanın.
📚 Güncel Kaynak: Atkinson & Nevill (1998) - SportSci.org Klasiği
Atkinson, G., & Nevill, A. M. (1998). Statistical methods for assessing measurement error (reliability) in variables relevant to sports medicine. Sports Medicine, 26(4), 217-238.
Bu klasik makale, spor bilimlerinde TE, SEM, ICC ve Bland-Altman plotlarının kullanımını standardize etti. Hala en çok atıf alan güvenilirlik metodolojisi kaynağıdır (25,000+ atıf).
🆕 2024 Trend: Bayesian Güvenilirlik Analizi
Klasik ICC ve TE hesaplamaları frekansiyel (frequentist) yaklaşıma dayanır. 2024'te, Bayesian güvenilirlik analizi popülerleşiyor:
- Posterior ICC dağılımı: ICC'nin sadece bir nokta tahmini değil, olasılık dağılımı
- Credible Intervals (Güvenilir Aralıklar): %95 CI yerine %95 CrI (daha yorumlanabilir)
- Prior bilgi entegrasyonu: Önceki araştırmalardaki ICC değerlerini yeni analize dahil edebilme
- Yazılım: R (brms paketi), Python (PyMC3), JASP (Bayesian module)
🤖 Wearable Technology ve Güvenilirlik (2024)
GPS, akselometre, kalp atış hızı monitörleri gibi giyilebilir teknolojilerin güvenilirliği kritik hale geldi:
- Cihaz-içi (within-device) TE: Aynı cihazın iki ölçümü arasındaki tutarlılık
- Cihazlar-arası (between-device) TE: Farklı marka/model cihazlar arası uyum
- 2024 bulgu: GPS cihazlarının sprint hızı ölçümünde TE = 0.3-0.5 km/h (düşük güvenirlik!)
- Öneri: Wearable kullanırken mutlaka üretici firma tarafından yayınlanmış TE/SEM değerlerini kontrol edin
💡 SWC UYGULAMA ÖRNEKLERİ
Veri
- Denekler arası SD = 0.30 saniye
- Test-tekrar test ICC = 0.90
- Grup ortalaması = 5.40 saniye
Hesaplamalar
1. SWC = 0.2 × 0.30 = 0.06 saniye
2. SEM = 0.30 × √(1-0.90) = 0.0949 saniye
3. MDC = 1.96 × √2 × 0.0949 = 0.26 saniye
Yorum
- ✅ SEM (0.0949) < SWC (0.06)? HAYIR! SEM > SWC → Ölçüm yeterince güvenilir değil!
- ⚠️ Bu durumda: SWC = 0.6 × 0.30 = 0.18 saniye kullan (orta etki eşiği)
- ✅ Şimdi SEM (0.0949) < SWC (0.18) → Kullanılabilir!
- 🎯 En az 0.26 saniye gelişim olmalı ki gerçek değişim olsun (MDC)
Veri
12 halterci, iki kez maksimum koparma yaptı. İki ölçüm arası farklar:
2, 3, 5, 0, 4, 0, 2, 1, 0, 2, 3, 1 kg
Hesaplamalar
Farkların SD'si = 1.62 kg
TE = 1.62 / √2 = 1.15 kg
Diyelim ki katılımcılar arası SD = 10 kg
SWC = 0.2 × 10 = 2.0 kg
Yorum
- ✅ TE (1.15) < SWC (2.0)? EVET! Ölçüm yeterince güvenilir
- 🎯 En az 2.0 kg artış olmalı ki pratikte önemli gelişim olsun
- 📊 Tipik hata küçük → İki ölçüm arası yüksek tutarlılık → Güvenilir sonuçlar
| Grup | SD | SWC (0.2 × SD) | Yorum |
|---|---|---|---|
| Elit (40m) | 0.30 s | 0.06 s | Çok küçük gelişim bile önemli! |
| Amatör (40m) | 0.80 s | 0.16 s | Daha büyük gelişim gerekli |
💡 Önemli Nokta
Elit sporcular: Örneklem az → p-değeri anlamsız çıkabilir
Ancak: Homojenlik yüksek → SWC küçük → Küçük farklar bile tespit edilebilir ve pratikte önemlidir!
⚠️ Grup Ortalaması Yanıltıcı Olabilir!
Klasik Yaklaşım: Ortalama +8% VO₂max artışı bulundu (p<0.001). Antrenman programı "başarılı" ilan edilir.
Gerçek Durum: Bireysel analize bakıldığında:
• %20 Non-Responder → -5% ile 0% arası değişim (gelişim yok!)
• %65 Moderate-Responder → +5% ile +12% arası değişim
• %15 Super-Responder → +15% ile +30% arası değişim
Sonuç: Aynı antrenman programı bazı sporcular için hiç işe yaramadı, bazıları için olağanüstü etkili oldu!
📊 Responder Sınıflandırma Sistemi
| Kategori | Kriter | Yorum |
|---|---|---|
| Non-Responder | Δ < SWC veya Δ < TE | Antrenman etkili olmadı |
| Low-Responder | SWC < Δ < 1×TE | Minimal düzeyde etki |
| Moderate-Responder | Δ > 1×TE | Tipik gelişim gösterdi |
| High-Responder | Δ > 2×TE | Olağanüstü gelişim (genetik avantaj?) |
🔬 Pratik Uygulama: Kuvvet Antrenman Çalışması
Çalışma: 20 sporcu, 8 hafta kuvvet antrenmanı
Ölçüm: Squat 1RM (test-retest TE = 2.5 kg, SWC = 3.0 kg)
Grup Sonucu: Ortalama +12 kg artış (p=0.002, d=0.85 - "büyük etki")
Bireysel Analiz:
| Sporcu ID | Δ (kg) | Sınıflandırma | Kararı |
|---|---|---|---|
| S01-S04 (n=4) | +1.2 kg | Non-Responder (Δ < SWC) | Programı değiştir! |
| S05-S08 (n=4) | +4.5 kg | Low-Responder | Yoğunluğu artır |
| S09-S16 (n=8) | +11.8 kg | Moderate-Responder | Programı sürdür |
| S17-S20 (n=4) | +26.5 kg | High-Responder | Daha iddialı hedefler belirle |
🎯 Antrenöre Mesaj
Sadece grup ortalamasına bakmak: 20 sporcunun tamamına aynı programı vermeyi sürdürmek demektir.
Bireysel analiz yapmak: 4 sporcu için farklı yaklaşım geliştirmek, 4 sporcu için yoğunluk artırmak, 4 sporcu için daha iddialı hedefler koymak demektir.
"One size does NOT fit all" - Responder analizi, kişiselleştirilmiş antrenmanın bilimsel temelidir.
📚 Güncel Araştırma: HERITAGE Family Study
Çalışma: 481 katılımcı, 20 hafta aerobik antrenman
Sonuç: VO₂max değişimi -8 ml/kg/dk ile +42 ml/kg/dk arasında değişti!
Bulgu: %5 non-responder (hiç gelişim yok), %15 super-responder (3 kat ortalamanın üzerinde)
Açıklama: Genetik faktörler, antrenman yanıtının ~50%'sini açıklıyor (Bouchard et al., 2011)
Kaynak: Bouchard, C., et al. (2011). Medicine & Science in Sports & Exercise, 43(1), 8-14.
🔬 Neden Bu Yöntem Geliştirildi?
Sorun: Birçok spor bilimcisi bireysel sporcu değerlendirmesi için keyfi eşikler kullanıyor (örneğin: "%5 gelişim = gerçek değişim" gibi).
Sorun: SWC ve SEM gibi mevcut yöntemler tek başlarına yeterli tespit gücü sağlamıyor.
Çözüm: Harry ve arkadaşları (2024, JSCR), Model İstatistiği + CV yöntemlerinin birlikte kullanımının en güvenilir sonuçları verdiğini gösterdi.
Kaynak: Harry, J.R., Hurwitz, J., Agnew, C., & Bishop, C. (2024). Statistical tests for sports science practitioners: Identifying performance gains in individual athletes. Journal of Strength and Conditioning Research, 38(5).
📊 Yöntem Karşılaştırması: 4 NCAA Basketbolcusu CMJ Verisi (Harry et al., 2024)
| Yöntem | Tespit Oranı | Yorum |
|---|---|---|
| Varyasyon Katsayısı (CV) | 44% | En yüksek tespit gücü |
| Model İstatistiği | 31% | Olasılıksal değerlendirme yapar |
| SEM (Standart Hata) | 6% | Çok düşük tespit gücü (kullanışsız) |
💡 Önemli Bulgu
CV yöntemi en fazla anlamlı değişimi tespit etti (44%), ancak hangi değişikliklerin gerçekten önemli olduğunu belirleyemez.
Model İstatistiği daha az tespit etti (31%), ama tespit ettiği değişimlerin anlamlı ve rastgele olmadığını doğrular.
✅ SONUÇ: İki yöntemi BİRLİKTE kullan! CV ile değişim olup olmadığını gör, Model İstatistiği ile değişimin gerçek olup olmadığını doğrula.
📐 Model İstatistiği Nasıl Hesaplanır?
Adım 1: Olasılık Hesaplama (Hopkins Yöntemi)
P(Artış) = t-istatistiği ile hesaplanan olasılık
P(Azalma) = t-istatistiği ile hesaplanan olasılık
P(Önemsiz) = 100% - (P(Artış) + P(Azalma))
Adım 2: Karar Kriterleri (Varsayılan Eşik: %10)
| Durum | Yorum | Sembol |
|---|---|---|
| P(Artış) > 90% | Çok olası artış (Very likely increase) | * |
| Her iki yönde de >10% | Belirsiz değişim (Unclear change) | ? |
| P(Önemsiz) > 90% | Önemsiz değişim (Trivial change) | ~ |
🏀 Pratik Uygulama Örneği: Basketbolcu CMJ Takibi
📋 Vaka Çalışması
Sporcu: NCAA Division 1 basketbolcu (Kadın)
Test: Countermovement Jump (CMJ) yüksekliği
Protokol: 5 test oturumu (2 hafta aralıklarla)
Tipik Hata (TE): 1.8 cm (test-retest güvenirlik çalışmasından)
SWC: 2.0 cm (Cohen 0.2 × grup SD)
CV (Kabul Eşiği): %5
Test Sonuçları:
| Hafta | CMJ (cm) | Δ (cm) | CV (%) | Model Stat. | Karar |
|---|---|---|---|---|---|
| Hafta 0 | 42.3 | - | - | - | Baseline |
| Hafta 2 | 43.1 | +0.8 | 1.9% ✗ | ~ | Değişim yok |
| Hafta 4 | 44.8 | +2.5 | 5.9% ✓ | ? | Belirsiz (muhtemelen gürültü) |
| Hafta 6 | 46.2 | +3.9 | 9.2% ✓ | * | ✅ GERÇEK ARTIS! |
| Hafta 8 | 47.5 | +5.2 | 12.3% ✓ | * | ✅ GERÇEK ARTIS! |
📊 Yorum:
• Hafta 2: CV ve Model Stat. birlikte "değişim yok" diyor → Rastgele dalgalanma
• Hafta 4: CV "değişim var" diyor AMA Model Stat. "belirsiz" diyor → Henüz güvenilir değil
• Hafta 6-8: Her iki yöntem de "gerçek artış" diyor → Antrenman etkili!
⚠️ Sadece CV kullansaydık: Hafta 4'te "gelişim var" diyip hatalı karar verebilirdik.
✅ İki yöntemi birlikte kullanarak: Hafta 6'da güvenilir bir değişim tespit ettik.
🎯 Antrenör ve Araştırmacılar İçin Uygulama Önerileri
- 1. Test Güvenirliğini Belirle: Önce TE ve CV değerlerini hesaplamak için güvenirlik çalışması yap
- 2. SWC Eşiğini Belirle: Spor/pozisyon spesifik SWC değeri belirle (elit için 0.2×SD, amatör için 0.6×SD)
- 3. CV Yöntemi ile Tarama: Hangi sporcularda değişim olabileceğini tespit et
- 4. Model İstatistiği ile Doğrulama: CV ile tespit edilen değişimleri doğrula (rastgele mi, gerçek mi?)
- 5. SWC ile Anlamlılık: Gerçek değişimin pratikte önemli olup olmadığını SWC ile değerlendir
💻 Araçlar: Harry ve arkadaşları, hesaplamaları otomatikleştiren ücretsiz Excel şablonu sağladı.
JSCR makalesinin ek materyallerinden indirilebilir.
Not: Bu yöntem, 2024 itibarıyla bireysel sporcu performans değerlendirmesi için en güncel ve güvenilir yaklaşımdır.
🔮 BAYESCİ İSTATİSTİKSEL YAKLAŞIM
Bir olayın gerçekleşmiş olmasının başka bir olayın gerçekleşme olasılığına etkisi (Bayes, 1991)
- Önsel Bilgi (Prior): Araştırmacının tecrübesi, önceki çalışmalar, uzman görüşleri
- Olabilirlik (Likelihood): Örneklemden gelen objektif veri
- Sonsal Bilgi (Posterior): Önsel + Olabilirlik = Parametre hakkında güncel olasılık
📖 Spor Bilimleri Güncel Örnek (2024): Sakatlık Riski Tahmini
Senaryo: Yeni bir hamstring kas sakatlığı tahmin modeli geliştiriliyor. Bir futbolcuda sakatlık riski ne kadardır?
1️⃣ Önsel Bilgi (Prior):
• Meta-analiz (Ekstrand et al., 2023): Profesyonel futbolcularda hamstring sakatlığı prevalansı %30
• Bu yüzden P(Sakatlık) = 0.30 (Önsel olasılık)
2️⃣ Olabilirlik (Likelihood - Yeni Veri):
• Yeni geliştirdiğimiz test (izokinetik kuvvet asimetrisi + önceki sakatlık geçmişi)
• Futbolcunun test skoru: Yüksek risk (kırmızı bölge)
• Literatür: Yüksek risk testi pozitif olan futbolcuların %70'i sakatlık yaşıyor
• P(Test Pozitif | Sakatlık Var) = 0.70
• P(Test Pozitif | Sakatlık Yok) = 0.20 (Yanlış pozitif oranı)
3️⃣ Sonsal Bilgi (Posterior - Güncellenmiş Risk):
P(Sakatlık | Test Pozitif) = [0.70 × 0.30] / [0.70 × 0.30 + 0.20 × 0.70]
P(Sakatlık | Test Pozitif) = 0.21 / (0.21 + 0.14) = 0.60 (%60)
💡 Yorumlama:
• Genel populasyonda sakatlık riski %30 iken
• Yüksek riskli test sonucu alan futbolcuda risk %60'a çıktı
• Antrenör bu bilgiyi kullanarak bireyselleştirilmiş önlem alabilir (ek eksentrik antrenman, yük azaltma)
• NHST ile bu tür bireysel risk tahmini YAPILAMAZ (sadece grup karşılaştırması)
⚠️ Eleştiriler
- Subjektif önsel bilgi kullanımı (ancak meta-analiz ile objektifleştirilebilir)
- Hesaplamaların karmaşıklığı (MCMC, JASP ile kolaylaştı)
- Mevcut yaklaşıma tam alternatif olamaz (Mengersen et al., 2016)
Avantajlar
- Küçük örneklemlerde küçük etki büyüklüklerini tespit edebilir
- Doğrudan olasılık karşılaştırması yapar
- "Anlamlı/anlamsız" yerine derecelendirilmiş olasılıklar sunar
TOST (Two One-Sided Tests): Klasik NHST'nin yapamadığı şeyi yapar: "Fark yok" hipotezini istatistiksel olarak test edebilir!
🔄 NHST vs TOST Karşılaştırması
| NHST (Klasik) | TOST (Equivalence) | |
|---|---|---|
| H₀ | Fark yok (μ₁ = μ₂) | Fark anlamlı derecede VAR |
| H₁ | Fark var | Fark yok (denk) |
| Kanıtlayabilir | Sadece "fark var" | ✅ "Fark yok" kanıtlanabilir! |
🏃 Spor Örnekleri: TOST Kullanım Alanları
- Ölçüm cihazı validasyonu: Yeni GPS vs altın standart (fark yokluğu kanıtlanmalı)
- Jenerik besin takviyesi: Ucuz marka = pahalı marka mı?
- Antrenman protokolleri: 3 set vs 5 set (eşit mi?)
- Cinsiyet farkı yokluğu: Yeni antrenman hem erkeklerde hem kadınlarda eşit etkili mi?
📖 Pratik Örnek: GPS Cihazı Validasyonu
Soru: Yeni GPS cihazı (500 TL) altın standart (5000 TL) kadar doğru mu?
Denklik marjı: ±0.5 m/s (SWC)
TOST sonucu: p < 0.05 → İki cihaz istatistiksel olarak denktir!
Pratik karar: Ucuz cihazı alabiliriz, fark anlamlı değil ✅
| Yazılım | Özellik | Kullanım Kolaylığı |
|---|---|---|
| JASP | Ücretsiz, grafik arayüz, Bayes Factor otomatik | ⭐⭐⭐⭐⭐ (En kolay) |
| R - brms | Çok esnek, karmaşık modeller | ⭐⭐⭐ (Kodlama gerekir) |
| PyMC | Python tabanlı, ML entegrasyonu | ⭐⭐ (İleri düzey) |
✅ 2024 Önerisi
Başlangıç: JASP kullan (tık-tık, ücretsiz, Bayesian + Frequentist aynı anda)
İleri düzey: R-brms öğren (araştırma makalesi seviyesi)
TOST için: R-TOSTER paketi veya JASP equivalence testi
📈 BÜYÜKLÜK TEMELLİ ÇIKARIMLAR (MBI)
Magnitude-Based Inferences (MBI), Will Hopkins tarafından 2006'da spor bilimlerinde kullanılmak üzere geliştirilmiş bir istatistiksel yaklaşımdır. Temel fikir: p-değeri yerine, bir etkinin pratik anlamlılık eşiğini (SWC) aşma olasılığını hesaplamak.
🎯 MBI'nin Temel Mantığı
- Etki büyüklüğünün güven aralığını hesapla (örn: Cohen's d ile %95 CI)
- SWC (En Küçük Değerli Değişim) belirle (genellikle 0.2 × SD)
-
CI'nın SWC ile ilişkisine bak:
- CI tamamen SWC'nin üzerinde → "Kesinlikle faydalı"
- CI SWC'yi kesiyor → "Muhtemelen faydalı" veya "Belirsiz"
- CI tamamen SWC'nin altında → "Kesinlikle önemsiz/zararlı"
- Olasılık yüzdeleri hesapla: CI'nın her bir bölgesine düşme olasılığı
📊 MBI Kategorileri ve Terminoloji
| Olasılık Aralığı | MBI Terminolojisi | Pratik Anlamı |
|---|---|---|
| %99.5+ | Almost certainly (neredeyse kesin) | Çok güçlü kanıt |
| %95-99.5 | Very likely (çok muhtemel) | Güçlü kanıt |
| %75-95 | Likely (muhtemel) | Orta kanıt |
| %25-75 | Possibly (olası) | Zayıf kanıt |
| <25% | Unlikely (olası değil) | Çok zayıf/ret |
📖 MBI Örnek Hesaplama: Pliometrik Antrenman Etkisi
Çalışma: 20 basketbolcu, 8 hafta pliometrik antrenman, CMJ performansı ölçülüyor.
📋 Adım 1: Etki Büyüklüğü ve CI Hesaplama
Cohen's d = 0.55
%95 CI = [0.15, 0.95]
📋 Adım 2: SWC Belirleme
SWC = 0.2 (Hopkins 2002 küçük etki eşiği)
📋 Adım 3: CI'nın SWC ile İlişkisini Değerlendir
Zararlı bölge: d < -0.2
Önemsiz bölge: -0.2 ≤ d ≤ 0.2
Faydalı bölge: d > 0.2
📋 Adım 4: MBI Olasılık Hesaplama
CI [0.15, 0.95] → Tamamen faydalı bölgede (> 0.2)
Olasılık hesabı (MBI):
• Zararlı olasılığı: %0.5
• Önemsiz olasılığı: %4
• Faydalı olasılığı: %95.5
📋 Adım 5: MBI Sonuç İfadesi
✅ MBI Sonucu: "Pliometrik antrenman CMJ performansını very likely beneficial (çok muhtemel faydalı, %95.5 olasılık) şekilde artırmıştır."
⚠️ Bu Yaklaşımın Problemi Ne?
MBI bu örneği "çok muhtemel faydalı" olarak rapor ediyor. Ancak Sainani'nin gösterdiği gibi, bu %95.5 olasılık hesaplaması yanlış bir varsayıma dayanıyor. CI'nın her noktasının eşit olasılıkla gerçek değer olabileceğini varsayıyor, bu istatistiksel olarak hatalı!
2018 yılında Stanford Üniversitesi'nden Dr. Kristin Sainani, MBI yaklaşımının istatistiksel olarak yanlış olduğunu gösteren bir dizi makale yayınladı. Bu, spor bilimlerinde büyük bir tartışma yarattı.
Tartışmalar ve Eleştiriler
- Sainani (2018): Yanlış ve aşırı iyimser çıkarımlar, 2-6 kat yüksek pozitif oranlar
- Hata kontrolü sorunları
- Küçük örneklemlere teşvik ediyor eleştirisi
- 2024 Durumu: Önemli dergiler sadece MBI'yi reddediyor, p-değeri ile desteklenmesini istiyor
⚠️ Sainani Sistematik Review (2018-2020)
Analiz: 232 MBI kullanan makale incelendi
Sonuç: Type I error oranı %12-45 (kabul edilemez! Olması gereken %5)
Problem: MBI "faydalı" diyor ama gerçekte hiç etki yok olabilir
Dergi Tepkileri (2019-2020):
• MSSE (Medicine & Science in Sports & Exercise): MBI yasakladı
• BJSM (British Journal of Sports Medicine): MBI yasakladı
• Sports Medicine: MBI kullanımını kısıtladı
✅ 2024 Konsensüsü: Ne Yapmalı?
✅ Kullan:
• Effect size (Cohen's d, Hedge's g)
• %95 Güven aralığı
• SWC karşılaştırması
• Responder analizi (bireysel farklılıklar)
❌ Kullanma:
• MBI terminolojisi ("likely beneficial", "possibly harmful")
• %likelihood hesaplamaları (güvenilir değil)
• Sadece MBI'ye dayalı sonuçlar
💡 Alternatif: Bayesci istatistik (Bayes Factor) kullan
💡 Sonuç
MBI'nin p-değerine uygun bir alternatif olup olmadığı konusundaki tartışmalar sonuçlandı: Hayır, alternatif değil! (Lohse et al., 2020; Sainani et al., 2020). Bunun yerine: Effect size + CI + SWC kullan.
🔄 ANOVA VE ÇOK GRUPLU TASARIMLAR
| Değer | Ne Zaman? | Özellik |
|---|---|---|
| η² | Tek faktörlü ANOVA | Basit hesaplama |
| η²ₚ (kısmi) | Çok faktörlü ANOVA | SPSS otomatik, EN YAYGIN |
| ε², ω² | Özel durumlar | Manuel hesaplama gerekli |
Örneklem Büyüklüğü Etkisi
- Büyük Örneklem: η² ≈ ε² ≈ ω², ancak η²ₚ > diğerleri
- Küçük Örneklem: Tüm değerler birbirine yakın
📖 Araştırma Senaryosu: Farklı Isınma Protokolleri
Soru: Farklı ısınma protokolleri dikey sıçrama performansını etkiler mi?
Gruplar: 3 farklı ısınma protokolü (n₁=10, n₂=10, n₃=10, toplam N=30)
• Grup 1: Statik germe (10 dk)
• Grup 2: Dinamik germe (10 dk)
• Grup 3: Kontrol (hafif koşu, 10 dk)
Bağımlı Değişken: Dikey sıçrama yüksekliği (cm)
📊 ANOVA Tablosu (SPSS Çıktısı)
| Kaynak | SS (Sum of Squares) | df | MS (Mean Square) | F | p |
|---|---|---|---|---|---|
| Gruplar Arası (Between Groups) |
648.2 | 2 | 324.1 | 12.85 | < 0.001 |
| Gruplar İçi (Within Groups) |
681.5 | 27 | 25.2 | - | - |
| Toplam (Total) |
1329.7 | 29 | - | - | - |
🧮 η²ₚ (Partial Eta Squared) Hesaplama Adımları
Formül:
η²ₚ = SSbetween / (SSbetween + SSwithin)
Adım 1: ANOVA tablosundan değerleri al
• SSbetween (Gruplar Arası) = 648.2
• SSwithin (Gruplar İçi) = 681.5
Adım 2: Toplamı hesapla
SSbetween + SSwithin = 648.2 + 681.5 = 1329.7
Adım 3: η²ₚ hesapla
η²ₚ = 648.2 / 1329.7 = 0.487
Yorumlama (Cohen 1988 için ANOVA):
• 0.01 = Küçük etki
• 0.06 = Orta etki
• 0.14 = Büyük etki
→ η²ₚ = 0.487: ÇOK BÜYÜK ETKİ (>0.14)
Isınma protokolü türü, dikey sıçrama performansındaki varyansın %48.7'sini açıklıyor!
📌 Grup Ortalamaları ve Post-Hoc Yorumu
| Grup | Ortalama (cm) | SD | Tukey Post-Hoc |
|---|---|---|---|
| Statik Germe | 38.2 | 5.1 | EN DÜŞÜK (a) |
| Kontrol (Hafif Koşu) | 43.5 | 4.8 | ORTA (b) |
| Dinamik Germe | 48.9 | 5.3 | EN YÜKSEK (c) |
✅ Tam Raporlama Örneği (2024 Standardı)
"Tek faktörlü ANOVA sonuçları, ısınma protokolü türünün dikey sıçrama performansı üzerinde istatistiksel olarak anlamlı bir etkisi olduğunu göstermiştir, F(2, 27) = 12.85, p < 0.001, η²ₚ = 0.49. Etki büyüklüğü çok büyüktür, ısınma türü performans varyansının yaklaşık %49'unu açıklamaktadır. Tukey post-hoc testi, dinamik germe grubunun (M = 48.9 cm, SD = 5.3) hem statik germe (M = 38.2 cm, SD = 5.1, p < 0.001, d = 2.06) hem de kontrol grubundan (M = 43.5 cm, SD = 4.8, p = 0.012, d = 1.04) anlamlı derecede yüksek performans gösterdiğini ortaya koymuştur. Statik germe grubu da kontrol grubundan anlamlı derecede düşüktür (p = 0.008, d = 1.08)."
💡 Bu raporlama: p-değeri + F-istatistiği + η²ₚ + Cohen's d (post-hoc) + Ortalamalar/SD → Eksiksiz bilimsel raporlama!
💻 SPSS'te η²ₚ Nasıl Bulunur?
Yol 1 (Otomatik): Analyze → General Linear Model → Univariate → Options →
"Estimates of effect size" kutusunu işaretle → η²ₚ otomatik hesaplanır
Yol 2 (Manuel): ANOVA tablosundan SS değerlerini kullanarak yukarıdaki formülle hesapla
R'de: effectsize::eta_squared(model, partial = TRUE)
Python'da: pingouin.anova(..., detailed=True) → otomatik η²ₚ
💬 TARTIŞMA VE SONUÇ
✅ KABUL EDİLEN: P-değeri + Destekleyici Yöntemler (Etki Büyüklüğü, SWC, TE/SEM)
❌ TAM ALTERNATİF OLAMADI: Bayesci İstatistik ve MBI
Hangi Durumda Ne Kullanmalı?
- Kuvvet antrenmanı: Cohen's d/Hedge's g + Rhea sınıflandırması
- Genel spor performansı: Cohen's d + Hopkins sınıflandırması
- Davranışsal çalışmalar: Cohen's d + Cohen/Sawilowsky
- ANOVA: η²ₚ (SPSS otomatik verir)
- Korelasyon: Zaten r var, ek hesaplama gereksiz
Özel Durumlar
- Elit sporcular / küçük örneklem: SWC, TE, SEM, MDC ZORUNLU
- P > 0.05 ama etki var: Etki büyüklüğünü mutlaka raporla
🔬 Meta-Analiz Nedir?
Meta-analiz: Benzer araştırma sorularını inceleyen birden fazla bağımsız çalışmanın etki büyüklüklerini istatistiksel olarak birleştiren sistematik yöntemdir. Tek tek çalışmaların sınırlı örneklem büyüklüklerinden kaynaklanan belirsizlikleri azaltarak daha güvenilir ve genellenebilir sonuçlar elde etmeyi sağlar.
📊 Temel Meta-Analiz Kavramları
| Kavram | Açıklama | Yorumlama |
|---|---|---|
| Pooled ES | Ağırlıklı ortalama etki büyüklüğü (her çalışmanın n'sine göre) | Genel etki tahmini |
| I² Statistic | Çalışmalar arası heterogeneity (farklılık) yüzdesi | I²<25% düşük, 25-75% orta, >75% yüksek varyasyon |
| Forest Plot | Her çalışmanın ES ve CI'sini + pooled ES'i görsel olarak gösteren grafik | Çalışmaların tutarlılığını gösterir |
| Publication Bias | Pozitif sonuçların yayınlanma olasılığının daha yüksek olması | Funnel plot simetrik olmalı |
| Fail-Safe N | Sonucu anlamsız yapmak için kaç negatif çalışma gerekir? | Yüksek fail-safe N → Güçlü bulgu |
🏋️ Spor Bilimleri Meta-Analiz Örneği
Araştırma Sorusu: Pliometrik antrenman, dikey sıçrama performansını ne kadar artırır?
Meta-Analiz Bulguları:
• Dahil edilen çalışma: 28 randomize kontrollü çalışma (n=1121 sporcu)
• Pooled ES: d = 0.84, %95 CI [0.71, 0.98] → Büyük etki
• Heterogeneity: I² = 58% → Orta düzey varyasyon (farklı protokoller, yaş grupları)
• Publication bias: Funnel plot asimetrik → 12 negatif çalışma kayıp olabilir (Trim-and-Fill analizi)
• Düzeltilmiş ES: d = 0.72 [0.58, 0.86] → Hâlâ büyük etki!
Alt-Grup Analizi (Moderatör Analizi):
• Yaş <18: d = 0.62 [0.45, 0.79]
• Yaş 18-25: d = 0.91 [0.74, 1.08] → Genç yetişkinlerde daha etkili!
• Yaş >25: d = 0.53 [0.32, 0.74]
Kaynak: Markovic, G., & Mikulic, P. (2010). British Journal of Sports Medicine, 44(13), 1007-1012.
💡 Meta-Analiz Neden Önemli?
Tek çalışma: "Pliometrik antrenman +4.2 cm artırdı (n=20, p=0.08)" → Anlamsız, göz ardı edilir
Meta-analiz: "28 çalışma birleştirildiğinde pooled ES=0.84 (büyük etki)" → Güçlü kanıt!
Meta-analiz, birbirini destekleyen küçük çalışmaların "sinyallerini" birleştirerek gürültüyü azaltır ve
gerçek etkiyi ortaya çıkarır. Antrenörler için "evidence-based coaching"in temel kaynağıdır.
🔓 Açık Bilim Hareketi (Open Science Movement)
Reprodüktürbilirlik Krizi: Psikoloji ve sosyal bilimlerdeki çalışmaların %60-70'i tekrarlanamıyor!
Spor Bilimlerinde Durum: 2022 sistematik review → Spor bilimlerinde %35 tekrarlanamıyor
Çözüm Önerileri (2024 Konsensus):
1️⃣ Preregistration (Ön Kayıt): Veri toplamadan önce hipotez, örneklem büyüklüğü ve analiz planını OSF'ye kaydet
2️⃣ Veri Paylaşımı: Ham veriyi OSF/GitHub'da paylaş (kişisel bilgi korumalı)
3️⃣ Analiz Kodu Paylaşımı: R/Python/SPSS scriptlerini paylaş → Şeffaflık!
4️⃣ Registered Reports: Sonuç ne olursa olsun yayınlanır → Publication bias ortadan kalkar
| Trend | 2024 Durumu | Gelecek (2025-2030) |
|---|---|---|
| Effect Size Raporlama | APA 7, CONSORT 2024 → Zorunlu | Journal reject eder (ES yoksa) |
| Bayesci İstatistik | Tamamlayıcı analiz olarak kabul görüyor (JASP ile kolaylaştı) | NHST'ye eşit statüde olabilir |
| Precision-Based n | Elit sporcu çalışmalarında yaygınlaşıyor | Power analizi yerini alabilir |
| MBI | MSSE, BJSM yasakladı (2019-2020) | Tamamen terk edilecek |
| Machine Learning + ES | Yeni trend: ML modellerde effect size hesaplama (SHAP values) | AI-destekli meta-analizler yaygınlaşacak |
🎯 Öğrenciye Tavsiye (2024)
Minimum Standart: p-value + effect size + %95 CI + güç analizi
Altın Standart: Yukarıdakiler + SWC/TE/SEM + preregistration + veri paylaşımı
Gelecek İçin Öğren: Bayesci istatistik (JASP ile kolay!), meta-analiz yöntemleri (R-metafor paketi)
"The new statistics is effect sizes, confidence intervals, and meta-analysis" - Cumming (2014)
🚀 PRATİK UYGULAMA REHBERİ
- ✓ Betimsel istatistikler: Ort ± SD, medyan, min-max
- ✓ P-değeri ve CI: p = 0.032, 95% CI [0.12, 0.48]
- ✓ Etki Büyüklüğü: d = 0.65 (Hopkins: orta etki)
- ✓ Güç analizi: Power = 0.82 (post-hoc) veya a priori n hesabı
- ✓ Varsayım kontrolü: Normallik, homojenlik testleri
- ✓ Küçük örneklem ise: SWC, TE/SEM, MDC ekle
❌ Yapılmaması Gerekenler
- p = 0.051'i "marginally significant" diye raporlama!
- Sadece p-değeri vermek (etki büyüklüğü YOK)
- Anlamsız sonuçları gizlemek (publication bias)
- Varsayımları kontrol etmeden parametrik test yapmak
📚 2024 Güncel Trendler
- Açık Bilim: Veri ve analiz kodunu paylaş (OSF, GitHub)
- Pre-registration: Analiz planını önceden kaydet
- Effect Size Zorunlu: APA 7, CONSORT 2024 standartları
- Bayesci yaklaşım: Tamamlayıcı analiz olarak kabul görüyor
🔄 Paradigma Değişimi: Power → Precision
Geleneksel olarak örneklem büyüklüğü, "p<0.05 için yeterli güce ulaşmak" amacıyla hesaplanır (power analysis). Ancak yeni istatistik paradigmasında örneklem planlaması, "yeterince dar güven aralığı elde etmek" amacıyla yapılmaktadır (precision-based planning). Bu yaklaşım, tahmin hassasiyetine odaklanır ve negatif sonuçları bile değerli bilgi haline getirir.
⚖️ Power vs Precision Karşılaştırması
| Özellik | Power-Based | Precision-Based |
|---|---|---|
| Araştırma Sorusu | "p<0.05 elde etmek için kaç kişi gerekli?" | "CI genişliği ±X için kaç kişi gerekli?" |
| Odak | İstatistiksel anlamlılık (hypothesis testing) | Tahmin hassasiyeti (estimation accuracy) |
| Hedef | %80 power (Type II error = %20) | CI genişliği ≤ hedef değer (örn. ±0.3) |
| Negatif Sonuçlar | Değersiz (p>0.05 → "failed study") | Değerli (dar CI → "precise null finding") |
| Gerekli n | Genellikle daha küçük | Genellikle daha büyük (ama bilgi daha değerli!) |
🧮 Precision-Based Sample Size Hesaplama
Formül (Cohen's d için):
CI genişliği (width) = 2 × tcrit × SEd
SEd = √(2/n) × √(1 + d²/2)
Hedef: CI genişliğini belirli bir değerin altında tutmak (örn. width ≤ 0.6)
Yöntem: Farklı n değerleri için CI genişliği hesapla, hedef genişliğe ulaşana kadar artır
🏋️ Pratik Örnek Karşılaştırması
Araştırma: Yeni kuvvet antrenman protokolünün bench press 1RM üzerine etkisi
Beklenen ES: d = 0.50 (orta etki)
SD: 10 kg (literatürden tahmin)
❌ Power-Based Planning:
• Hedef: %80 power, α=0.05, d=0.50
• Gerekli n: Grup başına 64 sporcu (toplam 128)
• Sonuç: d = 0.48, %95 CI [-0.07, 1.03] (CI genişliği = 1.10!) → Çok belirsiz!
✅ Precision-Based Planning:
• Hedef: CI genişliği ≤ 0.60 (pratik yorumlama için yeterince dar)
• Gerekli n: Grup başına 88 sporcu (toplam 176)
• Sonuç: d = 0.48, %95 CI [0.18, 0.78] (CI genişliği = 0.60) → Kesin tahmin!
Yorum: Power-based n ile p<0.05 elde ettik ama sonuç çok belirsiz (CI geniş).
Precision-based n ile daha fazla katılımcı gerekti ama şimdi etkinin kesin olarak 0.18-0.78 aralığında
olduğunu biliyoruz → Pratik karar verebiliriz!
💡 Elit Sporcular İçin Neden Önemli?
Sorun: Elit sporcu sayısı az (n=10-15) → Power analizi "yetersiz" der, çalışma yapılamaz
Çözüm: Precision-based yaklaşım → "n=12 ile CI genişliği ±0.8 elde ederim, bu benim için yeterli"
Örnek: Elite sprint koçu için +0.02s fark bile önemli. CI [-0.01, +0.05] bile değerli bilgidir!
Power analizi: "n=200 gerekli" → İmkansız!
Precision analizi: "n=15 ile CI ±0.03 elde ederim" → Kabul edilebilir!
📚 Yazılım Araçları (2024)
R Paketi: MBESS::ss.aipe.smd() → Precision-based n hesaplama (effect size için)
ESCI (Cumming): Excel tabanlı, kullanıcı dostu → thenewstatistics.com
G*Power (3.1.9.7): "Precision" modu eklendi (2022 güncellemesiyle)
JAMOVI: ESCI modülü ile precision-based planning
Artık precision-based planning mainstream hale geldi!
✅ Öğrenci İçin Pratik Adımlar
- Hedef CI genişliğini belirle: "d için CI ±0.4 yeterli" gibi (literatür + pratik karar ihtiyacı)
- Beklenen ES ve SD tahmin et: Pilot çalışma veya literatür taraması
- Yazılım kullan: R-MBESS veya ESCI ile n hesapla
- Araştırma önerisinde belirt: "Power analizi değil, precision-based planning yaptım çünkü..."
- Sonuçları rapor et: "Hedef CI genişliği ±0.4 idi, elde edilen ±0.38 (başarılı!)"
📊 VARYASYON KATSAYISI (CV)
📖 CV Nedir ve Neden Kullanılır?
Varyasyon Katsayısı (Coefficient of Variation - CV), bir ölçümün göreli değişkenliğini
ifade eden istatistiksel bir göstergedir. Standart sapmayı ortalamaya bölerek hesaplanır ve yüzde (%) olarak
ifade edilir. Bu sayede, farklı ölçümlerin (kg, saniye, cm gibi) güvenilirliğini karşılaştırabilirsiniz.
Spor Bilimlerinde Kullanım Alanları:
• Test Güvenilirliği: Sprint testi ne kadar tutarlı sonuç veriyor?
• Sporcu İzleme: Bir sporcunun performansı ne kadar kararlı?
• Yöntem Karşılaştırması: GPS ile el kronometresi hangisi daha güvenilir?
• Bireysel Değişkenlik: Elit sporcular daha tutarlı mı, amatörler daha değişken mi?
📐 CV Hesaplama Formülleri
Yöntem 1: Genel Değişkenlik (Between-Athlete Variability)
CV = (SD / Ortalama) × 100
• SD: Standart sapma (tüm katılımcıların ölçüm değerleri)
• Ortalama: Grup ortalaması
• Kullanım: Grup içi heterojenlik değerlendirmesi
Yöntem 2: Test Güvenilirliği (Within-Athlete Variability / Typical Error)
CV = (TE / Ortalama) × 100
TE = SDfark / √2
• TE: Tipik Hata (Typical Error)
• SDfark: Test-retest farkların standart sapması
• Kullanım: Testin tekrarlanabilirlik değerlendirmesi
🎯 CV Yorumlama Kriterleri (Hopkins, 2000)
| CV Değeri (%) | Değerlendirme | Spor Örneği |
|---|---|---|
| < 5% | Mükemmel (Excellent) | Sprint zamanı (elit), CMJ yüksekliği |
| 5-10% | İyi (Good) | 1RM squat, Yo-Yo IR1 testi |
| 10-15% | Orta (Moderate) | GPS koşu hızı, teknik beceri testleri |
| > 15% | Zayıf (Poor) | Subjektif değerlendirmeler, amatör testler |
🏃 Örnek 1: 40m Sprint CV Hesaplama (Elit Futbolcular)
📋 Veri
Grup: 15 elit futbolcu
Test: 40m sprint (elektronik kapı)
Ölçümler: 2 deneme (1 hafta arayla)
Sonuçlar (saniye):
• Test 1 Ortalama: 5.20 s, SD: 0.15 s
• Test 2 Ortalama: 5.18 s, SD: 0.14 s
• Birleştir genel ortalama: 5.19 s
🧮 Adım Adım Hesaplama
| Adım | İşlem | Sonuç |
|---|---|---|
| 1 | Her sporcunun farkını hesapla (Test2 - Test1) | 15 fark değeri |
| 2 | Farkların SD'sini hesapla | SDfark = 0.12 s |
| 3 | TE = SDfark / √2 | TE = 0.12 / 1.414 = 0.085 s |
| 4 | CV = (TE / Ortalama) × 100 | CV = (0.085 / 5.19) × 100 = 1.64% |
✅ Yorum: CV = 1.64% → Mükemmel güvenilirlik! (Hopkins kriteri: <5%)
Pratik Anlam: 40m sprint testi elit futbolcularda çok tutarlı sonuçlar veriyor.
0.085 saniye (TE) çok küçük bir hata → Test gerçek performans değişimlerini tespit edebilir.
Antrenör İçin: 0.10 s'den fazla değişim gördüğümüzde, bu muhtemelen gerçek bir performans değişimidir (gürültü değil).
🏀 Örnek 2: CMJ Yüksekliği CV Hesaplama (Basketbolcular)
📋 Veri
Grup: 10 NCAA basketbolcu
Test: Countermovement Jump (contact mat)
Protokol: 3 deneme, en iyi değer alındı, 2 test günü (3 gün arayla)
Ham Veri (cm):
| Sporcu | Test 1 (cm) | Test 2 (cm) | Fark (cm) |
|---|---|---|---|
| S1 | 42.5 | 43.2 | +0.7 |
| S2 | 38.1 | 37.8 | -0.3 |
| S3 | 45.3 | 46.1 | +0.8 |
| S4 | 40.2 | 39.5 | -0.7 |
| S5-S10 | Benzer veri (+1.2, -0.5, +0.9, -0.4, +1.1, +0.6) | ||
Hesaplama:
• Genel ortalama: 41.8 cm
• SDfark = 0.78 cm
• TE = 0.78 / √2 = 0.55 cm
• CV = (0.55 / 41.8) × 100 = 1.32%
✅ Yorum: CV = 1.32% → Mükemmel güvenilirlik!
Pratik Karar: CMJ testi çok güvenilir. 1.1 cm'den fazla değişim (2×TE = 2×0.55) gerçek performans değişimini gösterir.
Örnek: Bir sporcu 42.5 cm'den 44.0 cm'ye çıktı (+1.5 cm) → Bu TE'nin 2.7 katı → Gerçek gelişim!
🏋️ Örnek 3: Squat 1RM CV Hesaplama (Halterciler)
📋 Veri
Grup: 12 halterci (6 erkek, 6 kadın)
Test: Back squat 1RM
Protokol: Maksimum ağırlık testi, 2 gün (7 gün arayla)
Sonuçlar: Ortalama 1RM = 120 kg, TE = 2.8 kg
CV Hesaplama:
CV = (TE / Ortalama) × 100
CV = (2.8 / 120) × 100
CV = 2.33%
✅ Yorum: CV = 2.33% → Mükemmel güvenilirlik! (Hopkins: <5%)
Pratik Anlam: 1RM squat testi haltercilerde çok güvenilir. 2.8 kg tipik hata göreceli olarak küçük.
MDC (Minimal Detectable Change): 1.96 × √2 × 2.8 = 7.8 kg
→ Bir haltercinin 1RM'si en az 7.8 kg artmalı ki %95 güvenle "gerçek değişim var" diyebilelim.
💨 Örnek 4: VO₂max CV Hesaplama (Dayanıklılık Sporcuları)
📋 Veri
Grup: 20 koşucu (orta mesafe)
Test: Koşu bandında kademeli maksimal test (VO₂max)
Protokol: 2 test (4 gün arayla, aynı saat, kontrollü diyet)
Test-Retest ICC: 0.95 (yüksek korelasyon)
Sonuçlar: Ortalama = 58.5 ml/kg/dk, SD = 4.2 ml/kg/dk
CV Hesaplama (ICC kullanarak):
TE = SD × √(1 - ICC)
TE = 4.2 × √(1 - 0.95)
TE = 4.2 × √0.05
TE = 4.2 × 0.224 = 0.94 ml/kg/dk
CV = (0.94 / 58.5) × 100 = 1.61%
✅ Yorum: CV = 1.61% → Mükemmel güvenilirlik!
Literatür Karşılaştırması: Hopkins (2000) literatür analizi VO₂max için tipik CV: 1.5-3.0%
Pratik Karar: 2.0 ml/kg/dk'den fazla değişim (2×TE = 2×0.94 = 1.88) anlamlı gelişimi gösterir.
Örnek: Sporcu 58 → 60.5 ml/kg/dk (+2.5) → Gerçek gelişim! 🎉
📊 CV Karşılaştırma Özeti
| Test | CV (%) | Değerlendirme | Antrenör İçin Mesaj |
|---|---|---|---|
| 40m Sprint | 1.64% | Mükemmel | Küçük değişimler bile tespit edilebilir |
| CMJ Yüksekliği | 1.32% | Mükemmel | En güvenilir patlayıcı güç testi |
| Squat 1RM | 2.33% | Mükemmel | Maksimal kuvvet güvenilir ölçülüyor |
| VO₂max | 1.61% | Mükemmel | Aerobik kapasite izleme için ideal |
Genel Sonuç: Tüm testler elit sporcularda mükemmel güvenilirlik gösteriyor (CV <5%). Bu testleri antrenman izleme ve performans değerlendirmesi için güvenle kullanabilirsiniz.
🧮 MODEL İSTATİSTİĞİ: HOPKINS METODOLOJİSİ
📖 Model İstatistiği Nedir?
Model İstatistiği (Model Statistic), Will Hopkins tarafından geliştirilen, bireysel sporcu performans
değişimlerinin anlamlılığını olasılıksal olarak değerlendiren bir yöntemdir. Geleneksel p-değeri yaklaşımının
aksine, bir değişimin "artış", "azalış" veya "önemsiz" olma olasılıklarını hesaplar.
Neden CV Yetersiz, Model İstatistiği Gerekli?
• CV: Sadece "değişim var mı yok mu?" sorusuna cevap verir (tespit gücü yüksek)
• Model İstatistiği: "Bu değişim rastgele mi, gerçek mi?" sorusunu yanıtlar (doğrulama gücü yüksek)
• İkisi birlikte: Hem tespit hem doğrulama → En güvenilir sonuç!
Kaynak: Hopkins, W.G. (2004). How to interpret changes in an athletic performance test. Sportscience, 8, 1-7.
📐 Model İstatistiği Hesaplama Adımları
Adım 1: Gözlenen Değişim ve Hata Hesaplama
Δ = Test2 - Test1 (gözlenen değişim)
SEΔ = TE × √2 (değişim standart hatası)
Adım 2: SWC (Smallest Worthwhile Change) Belirleme
SWC = 0.2 × SDbetween (Cohen 0.2 eşiği)
Veya: Pratikte önemli minimum değişim (koça danış!)
Adım 3: Olasılık Hesaplama
t = (Δ - SWC) / SEΔ (artış için t-istatistiği)
P(Artış) = t-dağılımından olasılık (tek kuyruk)
P(Azalma) = P(Δ < -SWC)
P(Önemsiz) = 100% - P(Artış) - P(Azalma)
Adım 4: Karar (Varsayılan Eşik: 10%)
P(Artış) > 90% → * (Very likely increase)
Her iki yön > 10% → ? (Unclear)
P(Önemsiz) > 90% → ~ (Trivial)
🎯 Karar Kriterleri ve Yorumlama
| Durum | Olasılık Kriteri | Sembol | Yorum |
|---|---|---|---|
| Very Likely Increase | P(Artış) > 90% | * | Gerçek performans artışı |
| Very Likely Decrease | P(Azalma) > 90% | * | Gerçek performans düşüşü |
| Trivial Change | P(Önemsiz) > 90% | ~ | Önemsiz değişim (gürültü) |
| Unclear | Her iki yön > 10% | ? | Belirsiz (daha fazla veri gerek) |
🏀 Örnek 1: Basketbolcu CMJ Takibi (Detaylı Hesaplama)
📋 Veri
Sporcu: NCAA Division 1 basketbolcu (Kadın)
Test: CMJ yüksekliği
Baseline: 42.3 cm (hafta 0)
Test 2: 46.2 cm (hafta 6)
TE (güvenirlik çalışmasından): 1.8 cm
SWC (grup SD = 4.5 cm): 0.2 × 4.5 = 0.9 cm
🧮 Adım Adım Hesaplama
Adım 1: Gözlenen Değişim
Δ = 46.2 - 42.3 = +3.9 cm
Adım 2: Değişim Standart Hatası
SEΔ = TE × √2
SEΔ = 1.8 × 1.414 = 2.55 cm
Adım 3: Artış İçin t-istatistiği
tartış = (Δ - SWC) / SEΔ
tartış = (3.9 - 0.9) / 2.55
tartış = 3.0 / 2.55 = 1.18
Adım 4: Olasılık (t-dağılımı, tek kuyruk)
P(Artış > SWC) = P(t > 1.18) ≈ 88%
Adım 5: Azalma ve Önemsiz Olasılıkları
tazalma = (Δ + SWC) / SEΔ = (3.9 + 0.9) / 2.55 = 1.88
P(Azalma < -SWC) = P(t < -1.88) ≈ 3%
P(Önemsiz) = 100% - 88% - 3% = 9%
⚠️ Karar: P(Artış) = 88% < 90% → ? (Unclear, ama çok yakın!)
Yorum: CV yöntemi "değişim var" derken (3.9 > 2×TE), Model İstatistiği "henüz %90 eşiğini aşmadı" diyor.
Pratik Karar: 88% yine de yüksek olasılık. Bir sonraki testte (hafta 8) muhtemelen %90'ı aşar.
Gerçek Sonuç (Hafta 8): 47.5 cm → Δ=+5.2 cm → P(Artış) = 95% → * (Confirmed!)
⚽ Örnek 2: Futbolcu Sprint Performansı (Sezon Takibi)
📋 Veri
Sporcu: Profesyonel futbolcu (kanat oyuncusu)
Test: 30m sprint
Ön-sezon: 4.12 s
Sezon ortası: 4.02 s
TE: 0.06 s (sezon başı güvenirlik testi)
SWC: 0.05 s (koç belirlemesi: 0.05s önemli fark)
Δ = 4.02 - 4.12 = -0.10 s (hızlanma!)
SEΔ = 0.06 × √2 = 0.085 s
tiyileşme = (|-0.10| - 0.05) / 0.085 = 0.05 / 0.085 = 0.59
P(İyileşme > SWC) ≈ 72%
P(Kötüleşme) ≈ 8%, P(Önemsiz) ≈ 20%
⚠️ Karar: ? (Unclear - %72 < %90)
Yorum: 0.10s gelişim gözlendi ama %90 güven seviyesine ulaşmadı.
Antrenör Aksiyonu: 2 hafta sonra tekrar test et. Eğer trend devam ederse kesinleşir.
2 Hafta Sonra: 3.98 s → Toplam Δ = -0.14 s → P(İyileşme) = 93% → * ✅
🏋️ Örnek 3: Halterci Koparma Performansı (Teknik Değişiklik)
📋 Senaryo
Sporcu: Ulusal düzey halterci
Test: Snatch (Koparma) 1RM
Eski teknik (4 hafta ortalama): 105 kg
Yeni teknik (2 hafta sonra): 108 kg
TE: 2.0 kg
SWC: 2.5 kg (kişisel rekor için minimum)
Δ = 108 - 105 = +3 kg
SEΔ = 2.0 × √2 = 2.83 kg
t = (3 - 2.5) / 2.83 = 0.5 / 2.83 = 0.18
P(Artış > SWC) ≈ 57%
P(Azalma) ≈ 38%, P(Önemsiz) ≈ 5%
⚠️ Karar: ? (Unclear - her iki yön de >10%)
Yorum: 3 kg artış var ama belirsiz. Hem iyileşme (%57) hem kötüleşme (%38) olasılığı yüksek.
Neden Belirsiz?: TE (2.0 kg) ile SWC (2.5 kg) çok yakın → Gürültü vs gerçek ayırt edilemiyor.
Koç Kararı: Yeni teknikle 2-3 hafta daha devam et, sonra yeniden değerlendir.
4 Hafta Sonra: 110 kg → Toplam Δ = +5 kg → P(Artış) = 91% → * Teknik değişikliği başarılı!
🏃 Örnek 4: Koşucu Tempo Koşusu (Performans Stabil mi?)
📋 Veri
Sporcu: Maraton koşucusu
Test: 10 km tempo koşusu (yarı-maksimal)
Hafta 1: 40:15 (dakika:saniye)
Hafta 4: 40:08
TE: 25 saniye (tempo koşusu değişkenliği yüksek)
SWC: 30 saniye (koç hedefi)
Δ = 40:08 - 40:15 = -7 saniye (iyileşme)
SEΔ = 25 × √2 = 35.4 s
t = (|-7| - 30) / 35.4 = -23 / 35.4 = -0.65
P(İyileşme > 30s) ≈ 26%
P(Kötüleşme) ≈ 18%, P(Önemsiz) ≈ 56%
✅ Karar: ~ (Trivial change - önemsiz)
Yorum: 7 saniyelik fark görünse de bu büyük olasılıkla (%56) gürültü.
Neden?: TE (25s) çok yüksek, 7s değişim TE'nin sadece %28'i.
Antrenör Mesajı: "Performansın stabil, endişelenme. Tempo koşuları günlük formdan etkilenir."
🏐 Örnek 5: Voleybolcu Dikey Sıçrama (Sakatlık Sonrası Dönüş)
📋 Senaryo
Sporcu: Profesyonel voleybolcu (orta oyuncu)
Test: Spike jump yüksekliği
Sakatlık öncesi (baseline): 325 cm
6 hafta rehabilitasyon sonrası: 318 cm
TE: 3 cm
SWC: 4 cm
Δ = 318 - 325 = -7 cm (düşüş)
SEΔ = 3 × √2 = 4.24 cm
tdüşüş = (|-7| - 4) / 4.24 = 3 / 4.24 = 0.71
P(Düşüş > SWC) ≈ 76%
P(İyileşme) ≈ 6%, P(Önemsiz) ≈ 18%
⚠️ Karar: ? (Unclear, ama düşüş olasılığı yüksek %76)
Klinik Yorum: 7 cm düşüş endişe verici ama istatistiksel olarak henüz kesin değil.
Fizyoterapist Aksiyonu:
• RTP (Return-to-Play) kriterini henüz karşılamadı (>90% baseline)
• 2 hafta daha kuvvetlendirme çalışması
• Yeniden test: 323 cm → Δ = -2 cm → P(Düşüş) = 28% → ~ Artık güvenli!
🎾 Örnek 6: Tenisçi Servis Hızı (Turnuva Öncesi)
📋 Veri
Sporcu: ATP 100-150 arası tenisçi
Test: Maksimal servis hızı (10 servisin ortalaması)
4 hafta önce: 185 km/h
Turnuva haftası: 191 km/h
TE: 4 km/h
SWC: 3 km/h (koç hedefi)
Δ = 191 - 185 = +6 km/h
SEΔ = 4 × √2 = 5.66 km/h
t = (6 - 3) / 5.66 = 3 / 5.66 = 0.53
P(Artış > SWC) ≈ 70%
P(Azalma) ≈ 12%, P(Önemsiz) ≈ 18%
⚠️ Karar: ? (Unclear - %70 < %90)
Yorum: 6 km/h artış olumlu ama kesin değil.
Koç Stratejisi: "Form yükselişte ama üzerine basa basa gidemeyiz. Muhafazakar oyna, riskli vuruşlarda temkinli ol."
Turnuva Sonrası Test: 193 km/h → Toplam Δ = +8 km/h → P(Artış) = 94% → * Form doruğa ulaştı!
📊 Model İstatistiği Özet Karşılaştırması
| Örnek | Δ | P(Ana Etki) | Karar | Antrenör Aksiyonu |
|---|---|---|---|---|
| Basketbol CMJ | +3.9 cm | 88% | ? | 2 hafta sonra tekrar test |
| Futbol Sprint | -0.10 s | 72% | ? | Trend takip et |
| Halter Koparma | +3 kg | 57% | ? | Yeni teknik devam et |
| Maraton Tempo | -7 s | 56% (önemsiz) | ~ | Stabil, endişelenme |
| Voleybol Sıçrama | -7 cm | 76% (düşüş) | ? | 2 hafta rehabilitasyon |
| Tenis Servis | +6 km/h | 70% | ? | Muhafazakar strateji |
Genel Gözlem: Model İstatistiği, CV'den daha muhafazakar karar verir. Bu, antrenörler için yanlış pozitif (sahte alarm) oranını düşürür. CV + Model İstatistiği birlikte kullanıldığında hem tespit hem doğrulama sağlanır.
💡 Antrenör ve Araştırmacılar İçin Pratik İpuçları
- 1. Threshold Esnekliği: %90 eşiği katı değil. Bazı durumlarda %75-80 bile anlamlı olabilir (koç deneyimi)
- 2. Trend Analizi: Tek bir "?" (unclear) karar yetersiz. 3-4 ölçümde trend arayın
- 3. TE vs SWC İlişkisi: TE > SWC ise tespit zor. Daha hassas ölçüm yöntemi arayın veya SWC'yi yükseltin
- 4. Bireyselleştirme: Her sporcunun kendi TE ve SWC değerleri olmalı (grup ortalaması yanıltıcı)
- 5. Yazılım Kullanımı: Excel şablonu (Hopkins Sportscience) veya R paketi (sportdatasci) ile otomatikleştirin
📏 ETKİ BÜYÜKLÜĞÜ GÜVEN ARALI KLARI
📖 Etki Büyüklüğü Güven Aralığı Nedir?
Etki büyüklüğü (Effect Size - ES) güven aralığı, hesaplanan ES değerinin ne kadar kesin olduğunu gösterir. P-değeri sadece "anlamlı mı?" sorusunu yanıtlarken, ES güven aralığı "etkinin büyüklüğü ne kadar kesin?" ve "pratik anlamlılık ne kadar güçlü?" sorularını yanıtlar. Modern istatistikte p-değerinden çok daha önemlidir.
🧮 Hesaplama Formülleri
1. Bağımsız Gruplar Cohen's d
CI95% = d ± 1.96 × SEd
SEd = √[(n₁ + n₂)/(n₁ × n₂) + d²/(2(n₁ + n₂))]
2. Hedge's g (Düzeltilmiş Cohen's d)
g = d × (1 - 3/(4N - 9))
CI95% = g ± 1.96 × SEg
3. Tekrarlayan Ölçümler (Paired Samples dz)
dz = (Mfark / SDfark) / √n
SEd_z = √[(1/n) + (dz²/(2n))]
CI95% = dz ± 1.96 × SEd_z
📊 Güven Aralığı Yorumlama Kriterleri
| CI Durumu | Pratik Anlamlılık | Karar | Örnek |
|---|---|---|---|
| Alt sınır > 0.5 | Büyük etki (kesin) | ✅ Müdahaleyi uygula | d = 1.2 [0.6, 1.8] |
| Alt sınır > 0.2 | Küçük-orta etki (kesin) | ✅ Dikkatlice uygula | d = 0.5 [0.25, 0.75] |
| CI sıfırı içeriyor | Belirsiz etki | ⚠️ Daha fazla veri gerekli | d = 0.3 [-0.1, 0.7] |
| Üst sınır < 0.2 | Önemsiz/ters etki (kesin) | ❌ Müdahaleyi uygulama | d = 0.1 [-0.2, 0.4] |
💡 Neden P-Değerinden Daha Önemli?
1. Kesinlik Bilgisi: p < 0.05 sadece "etki var" der, CI "etkinin aralığı 0.5-1.8" diyerek kesinlik verir.
2. Pratik Anlamlılık: CI sıfırı içeriyorsa, p anlamlı bile olsa etki belirsizdir.
3. Meta-Analiz Uygunluğu: Meta-analizler ES ve CI kullanır, p-değerleri birleştirilemez.
4. APA 7. Baskı Önerisi: "Always report ES with CI" - p-değeri isteğe bağlı.
🏀 Örnek 1: Pliometrik Antrenman → Dikey Sıçrama (12 Hafta)
📊 Veri
- n: 24 basketbolcu
- Ön-test: M = 52.3 cm, SD = 5.1 cm
- Son-test: M = 58.9 cm, SD = 5.4 cm
- Fark: Mfark = 6.6 cm, SDfark = 2.9 cm
🧮 Hesaplama
dz = 6.6 / 2.9 = 2.28
SEd_z = √[(1/24) + (2.28²/(2×24))] = 0.48
CI95% = 2.28 ± (1.96 × 0.48)
dz = 2.28 [1.34, 3.22]
💬 Yorumlama
- ✅ Alt sınır (1.34) > 0.8: Büyük etki kesindir
- ✅ CI sıfırı içermiyor: Etki pozitif yönde net
- ✅ CI dar aralık (1.88 birim): Kesinlik yüksek (n=24 yeterli)
- Pratik karar: Pliometrik antrenman basketbolcularda dikey sıçramayı güvenle artırır
- APA formatı: "Significant large effect, dz = 2.28, 95% CI [1.34, 3.22], p < .001"
🏋️ Örnek 2: Kuvvet Protokolleri Karşılaştırma (Yüksek Yük vs Düşük Yük)
📊 Veri
- Yüksek Yük (85% 1RM): n = 18, M = 12.4 kg artış, SD = 4.2 kg
- Düşük Yük (65% 1RM): n = 18, M = 8.7 kg artış, SD = 3.9 kg
- Pooled SD: SDp = 4.05 kg
🧮 Hesaplama
d = (12.4 - 8.7) / 4.05 = 0.91
SEd = √[(18+18)/(18×18) + 0.91²/(2×36)] = 0.35
g = 0.91 × (1 - 3/(4×36 - 9)) = 0.89
g = 0.89, 95% CI [0.31, 1.47]
💬 Yorumlama
- ⚠️ Alt sınır (0.31) > 0.2 ama < 0.5: Orta büyüklükte etki kesin
- ⚠️ CI geniş aralık (1.16 birim): Küçük örneklem nedeniyle kesinlik orta düzeyde
- ✅ CI sıfırı içermiyor: Yüksek yük üstündür ancak...
- Dikkat: Üst sınır (1.47) büyük etki, alt sınır (0.31) küçük etki → Heterojenite var
- Pratik karar: Yüksek yük muhtemelen daha etkili ama bireysel farklılıklar büyük. n artırılmalı.
- APA formatı: "Moderate-to-large effect, g = 0.89, 95% CI [0.31, 1.47], p = .003"
🏃 Örnek 3: Aerobik Antrenman → Laktat Eşiği (8 Hafta - Küçük Örneklem)
📊 Veri
- Deney Grubu: n = 12, M = 3.2 mmol/L artış, SD = 1.8 mmol/L
- Kontrol Grubu: n = 12, M = 2.4 mmol/L artış, SD = 1.6 mmol/L
- Pooled SD: SDp = 1.70 mmol/L
🧮 Hesaplama
d = (3.2 - 2.4) / 1.70 = 0.47
SEd = √[(12+12)/(12×12) + 0.47²/(2×24)] = 0.42
CI95% = 0.47 ± (1.96 × 0.42)
d = 0.47, 95% CI [-0.35, 1.29]
💬 Yorumlama
- ❌ CI sıfırı içeriyor [-0.35, 1.29]: Etki belirsiz!
- ❌ Alt sınır negatif (-0.35): Kontrol grubu daha iyi olabilir (küçük olasılık)
- ⚠️ Üst sınır büyük (1.29): Veya büyük etki olabilir - çok geniş aralık
- Neden belirsiz? n = 12 çok küçük → SE = 0.42 çok yüksek → CI çok geniş
- p-değeri yanıltıcı: p = 0.26 (anlamsız) ama nokta tahmini d = 0.47 (orta etki)
- Pratik karar: ❌ Şu haliyle karar verilemez. En az n = 30'a çıkılmalı (post-hoc power analizi)
- APA formatı: "Non-significant effect with wide CI, d = 0.47, 95% CI [-0.35, 1.29], p = .26. Study underpowered."
⚡ Örnek 4: Dirençli Sprint Antrenmanı → 10m Sprint Zamanı (6 Hafta)
📊 Veri
- n: 28 futbolcu
- Ön-test: M = 1.89 s, SD = 0.11 s
- Son-test: M = 1.78 s, SD = 0.10 s
- İyileşme: Mfark = -0.11 s, SDfark = 0.047 s
🧮 Hesaplama
dz = |-0.11| / 0.047 = 2.34
SEd_z = √[(1/28) + (2.34²/(2×28))] = 0.45
CI95% = 2.34 ± (1.96 × 0.45)
dz = 2.34, 95% CI [1.46, 3.22]
💬 Yorumlama
- ✅ Alt sınır (1.46) > 0.8: Büyük etki kesindir
- ✅ CI tamamen büyük etki aralığında: Tüm aralık > 0.8
- ✅ CI dar (1.76 birim): n = 28 yeterli, kesinlik yüksek
- Pratik anlam: 0.11 s iyileşme futbolda çok önemli (100m'de ~1.1 s fark demek)
- Cohen kriterlerine göre: d = 2.34 "çok büyük" (d > 1.2)
- Pratik karar: Dirençli sprint antrenmanı futbolcularda ivmelenme hızını güvenle artırır
- APA formatı: "Very large significant effect, dz = 2.34, 95% CI [1.46, 3.22], p < .001"
📊 Dört Örneğin Karşılaştırmalı Özeti
| Müdahale | n | ES | 95% CI | CI Genişliği | Karar |
|---|---|---|---|---|---|
| Pliometrik | 24 | dz = 2.28 | [1.34, 3.22] | 1.88 (dar) | ✅ Kesin büyük etki |
| Kuvvet (Yüksek Yük) | 18 vs 18 | g = 0.89 | [0.31, 1.47] | 1.16 (orta) | ⚠️ Orta etki kesin |
| Aerobik (8 hafta) | 12 vs 12 | d = 0.47 | [-0.35, 1.29] | 1.64 (çok geniş) | ❌ Belirsiz (n↑) |
| Dirençli Sprint | 28 | dz = 2.34 | [1.46, 3.22] | 1.76 (dar) | ✅ Kesin büyük etki |
💡 Öğrenilen Dersler
- 1. CI Genişliği ∝ 1/√n: Aerobik örneği (n=12) geniş CI, Dirençli sprint (n=28) dar CI
- 2. Nokta Tahmini Yeterli Değil: Aerobik d = 0.47 "orta etki" görünümü yanıltıcı, CI belirsizlik gösterir
- 3. Pratik Anlamlılık = Alt Sınır: Alt sınır > 0.5 ise büyük etki kesin (Pliometrik, Dirençli Sprint)
- 4. Heterojenite İşareti: Kuvvet örneğinde geniş CI → Bireysel farklılıklar büyük
- 5. Meta-Analiz Hazırlığı: Bu 4 örnek meta-analizde pooled ES hesabına girebilir (Forest plot)
🎯 Araştırmacılar İçin Pratik İpuçları
- 1. Hedef CI Genişliği: İyi planlı çalışmada CI genişliği < 1.5 olmalı (SE < 0.38)
- 2. Minimum n Hesabı: "Precision-based sample size" yaklaşımı kullanın (MBESS R paketi)
- 3. Pre-registration: ES ve CI'yı birincil outcome olarak belirtin (Open Science Framework)
- 4. Raporlama Formatı: "d = X.XX, 95% CI [LL, UL]" formatını kullanın (APA 7)
- 5. Yazılım: ESCI (Exploratory Software for CI) - Geoff Cumming'in Excel aracı (ücretsiz)
- 6. Görselleştirme: Forest plot yapın (4. örnekte gösterilecek)
🌲 FOREST PLOT YORUMLAMA VE META-ANALİZ
📖 Forest Plot Nedir ve Neden Önemlidir?
Forest plot (orman grafiği), birden fazla araştırmanın etki büyüklüğü ve güven aralıklarını tek bir grafikte gösteren meta-analiz görselleştirme aracıdır. Adını ağaç şeklindeki çizgilerin ormana benzemesinden alır. Modern spor bilimlerinde sistematik review ve meta-analizlerin vazgeçilmez unsurudur.
📊 Forest Plot Anatomisi
Temel Bileşenler
- 1. Çalışma Listesi (Sol): Her satır bir araştırmayı temsil eder (Yazar, Yıl, n)
- 2. Kare (Square): Nokta tahmin (point estimate) - büyüklüğü çalışmanın ağırlığını gösterir
- 3. Yatay Çizgi (Whisker): 95% güven aralığı - uzunluğu kesinliği gösterir
- 4. Dikey Çizgi (Null Line): "Etki yok" çizgisi (genellikle 0 veya 1)
- 5. Elmas (Diamond): Pooled (birleştirilmiş) etki büyüklüğü - meta-analiz sonucu
- 6. Sağ Tablo: ES değerleri, CI aralıkları, ağırlıklar (weights)
Yorumlama İlkeleri
- ✅ Elmas null çizgisini geçmiyor: Pooled etki istatistiksel olarak anlamlı
- ❌ Elmas null çizgisine değiyor/geçiyor: Pooled etki belirsiz veya anlamsız
- ⚠️ CI çizgileri birbirini kapsamıyor: Heterojenite var (I² yüksek)
- ✅ CI çizgileri örtüşüyor: Homojen çalışmalar (I² düşük)
- Kare büyüklüğü: Büyük kare = yüksek ağırlık = güvenilir çalışma (genellikle n büyük)
💡 I² İstatistiği: Heterojenite Ölçümü
I² = 0-25%: Düşük heterojenite - Çalışmalar tutarlı, fixed-effect model kullan
I² = 25-50%: Orta heterojenite - Moderatör analizi düşün
I² = 50-75%: Yüksek heterojenite - Random-effect model kullan, alt-grup analizi yap
I² > 75%: Çok yüksek heterojenite - Meta-analiz uygun değil, narrative review tercih et
🏀 Örnek 1: Pliometrik Antrenman → Dikey Sıçrama (k=8 çalışma)
📋 Meta-Analiz Bilgileri
- Dahil edilen çalışma sayısı (k): 8
- Toplam katılımcı (N): 214
- Yaş aralığı: 16-24 yaş basketbolcular
- Müdahale süresi: 8-12 hafta
- Pooled ES: d = 1.89, 95% CI [1.52, 2.26]
- Heterojenite: I² = 18% (düşük), Q = 8.5 (p = .29)
- Model: Fixed-effect (I² < 25%)
💬 Yorumlama
- ✅ Elmas null çizgisini (d=0) geçmiyor: Pooled etki kesin olarak pozitif
- ✅ Tüm CI'lar örtüşüyor: Çalışmalar tutarlı (I² = 18% düşük)
- ✅ Pooled d = 1.89 [1.52, 2.26]: Çok büyük etki (Cohen: d > 0.8)
- Fixed-effect uygun: I² < 25% olduğu için fixed-effect model kullanıldı
- Kare büyüklükleri benzer: Örneklem boyutları yakın (22-32 arası)
- Pratik sonuç: Pliometrik antrenman basketbolcularda dikey sıçramayı güvenle artırır (kanıt düzeyi: güçlü)
🏋️ Örnek 2: Kuvvet Antrenmanı → 1RM Squat (k=12 çalışma - Heterojen)
📋 Meta-Analiz Bilgileri
- k: 12 çalışma
- N: 348 sporcu
- Protokoller: Yüksek yük (85-90% 1RM) vs Düşük yük (60-70% 1RM)
- Süre: 6-12 hafta
- Pooled ES: g = 0.67, 95% CI [0.38, 0.96]
- Heterojenite: I² = 58% (yüksek), Q = 26.2 (p = .006)
- Model: Random-effect (I² > 50%)
💬 Yorumlama
- ⚠️ CI'lar çok farklı uzunluklarda: Bazı çalışmalar kesin (dar CI), bazıları belirsiz (geniş CI)
- ⚠️ Baker (2019) CI sıfırı içeriyor: Bu çalışma etki bulamadı → Heterojenite kaynağı
- ⚠️ I² = 58% (yüksek): Çalışmalar arası tutarsızlık var
- Random-effect gerekli: I² > 50% olduğu için random-effect model kullanıldı
- Pooled CI geniş [0.38, 0.96]: Heterojenite nedeniyle kesinlik düşük
- Moderatör analizi önerisi: Antrenman protokolü, yaş, deneyim düzeyi gibi moderatörler incelenmeli
- Pratik sonuç: Kuvvet antrenmanı ortalama orta-büyük etki gösterir ama bireysel/protokol farklılıkları büyük
🔍 Heterojenite Kaynaklarını Araştırmak
Alt-Grup Analizi Önerisi:
• Yüksek yük (>85% 1RM): k=6, g = 0.89 [0.62, 1.16], I² = 22%
• Düşük yük (<70% 1RM): k=6, g = 0.45 [0.18, 0.72], I² = 31%
Sonuç: Yüksek yük daha etkili ve daha homojen (I² düşük). Orijinal heterojenite protokol farklılığından kaynaklanıyor.
🏃 Örnek 3: Aerobik Antrenman → Laktat Eşiği (k=6 - Belirsiz Sonuç)
📋 Meta-Analiz Bilgileri
- k: 6 çalışma
- N: 128 atlet (küçük örneklemler)
- Protokol: Tempo koşuları (laktat eşiği yoğunluğunda)
- Süre: 6-10 hafta
- Pooled ES: d = 0.34, 95% CI [-0.08, 0.76]
- Heterojenite: I² = 42% (orta), Q = 8.6 (p = .13)
- Model: Random-effect
- ⚠️ Sorun: Pooled CI sıfırı içeriyor!
💬 Yorumlama
- ❌ Elmas sıfır çizgisini kesiyor: Pooled etki belirsiz (CI [-0.08, 0.76])
- ❌ Tüm bireysel çalışmalar da belirsiz: Hiçbirinin CI'sı sıfırdan ayrılmıyor
- ❌ p = .12 (anlamsız): İstatistiksel anlamlılık yok
- Neden belirsiz? Küçük örneklemler (n=18-24) → Geniş CI'lar
- Publication bias riski: Negatif sonuçlu çalışmalar yayınlanmamış olabilir (funnel plot gerekli)
- Pratik sonuç: ❌ Mevcut kanıt yetersiz. Daha büyük örneklemli çalışmalar gerekli.
- Meta-analiz sonuç cümlesi: "No significant effect of tempo training on lactate threshold (d = 0.34, 95% CI [-0.08, 0.76], p = .12, I² = 42%). Further research with larger samples needed."
🔬 Power Analizi: Ne Kadar n Gerekir?
Nokta tahmin d = 0.34 (küçük etki) varsayımıyla:
• 80% power, α = .05 için: Grup başına n = 140 gerekli
• Mevcut çalışmalar: Ortalama n = 21 → Ciddi underpowered
• Öneri: k = 6 çalışmayı birleştiren bir IPD (Individual Participant Data) meta-analizi yapılabilir
📊 Üç Meta-Analizin Karşılaştırması
| Özellik | Pliometrik | Kuvvet | Aerobik |
|---|---|---|---|
| k (çalışma) | 8 | 12 | 6 |
| N (toplam) | 214 | 348 | 128 |
| Pooled ES | d = 1.89 | g = 0.67 | d = 0.34 |
| 95% CI | [1.52, 2.26] | [0.38, 0.96] | [-0.08, 0.76] |
| I² | 18% (düşük) | 58% (yüksek) | 42% (orta) |
| Model | Fixed | Random | Random |
| p-değeri | < .001 | < .001 | .12 (ns) |
| Sonuç | ✅ Kesin büyük etki | ⚠️ Orta etki (değişken) | ❌ Belirsiz |
| Kanıt Düzeyi | Güçlü | Orta (moderatör gerekli) | Zayıf (daha fazla araştırma) |
💡 Meta-Analiz Raporlama İlkeleri
- 1. PRISMA Rehberi: Flow diagram, risk of bias assessment, funnel plot dahil edin
- 2. Heterojenite Raporu: I², Q, τ² (tau-squared) mutlaka belirtin
- 3. Sensitivity Analysis: Etkili çalışmaları (outliers) çıkarıp sonucu test edin
- 4. Publication Bias: Funnel plot asimetrisini Egger testi ile değerlendirin
- 5. GRADE Sistemi: Kanıt kalitesini değerlendirin (high, moderate, low, very low)
- 6. Forest Plot Kalitesi: R (metafor paketi) veya RevMan yazılımı kullanın
🛠️ Forest Plot Oluşturma Araçları
🔷 R Programlama
- metafor: En kapsamlı paket (forest plot, funnel plot, moderatör analizi)
- meta: Kullanıcı dostu, PRISMA entegrasyonu
- dmetar: Companion to Doing Meta-Analysis in R kitabı
- Kod örneği: library(metafor); forest(meta_model)
🔷 GUI Yazılımlar
- RevMan (Cochrane): Ücretsiz, sistematik review için endüstri standardı
- CMA (Comprehensive Meta-Analysis): Ücretli, kullanımı çok kolay
- JASP: Ücretsiz, SPSS alternatifi, Bayesian meta-analiz desteği
- MetaXL (Excel): Excel eklentisi, hızlı prototipleme