Bir Ölçme Aracında Bulunması Gereken Psikometrik Nitelikler Neler?

04 Ağustos 2022 Perşembe 19:52

Öğretmen haberleri ve gelişmelerden hemen haberdar olmak için Telegram kanalımıza katılın!

Doç. Dr. Güçlü ŞEKERCİOĞLU
Ölçme her zaman belirli bir amaç için yapılır. Amaç ölçmeye konu olan özellik bakımından kişiler hakkında değerlendirme yapmak ve elde edilen değerlendirme sonuçlarına göre belirli kararlar vermek için yapılır. Verilen kararların doğru ve isabetli olması, değerlendirmenin dayandığı ölçümün özellikle doğrudan ilgili ve olabildiğince az hatalı olmasına bağlıdır.
Psikolojik özelliklerin ölçülmesinde genellikle ölçme araçları kullanılır ve bu araçlardan elde edilen puanların hatasız ya da az hatalı olması ve bu araçların belirli psikometrik niteliklere sahip olması gerekir. Bunlar:
Geçerlilik ölçmek istenilen özelliğin, başka özelliklerle karıştırılmadan, doğru ve tam olarak ölçülebilmesidir. Diğer bir ifadeyle ölçme aracından elde edilen puanın amaca hizmet
etme derecesidir.
Güvenilirlik ölçme işleminden elde edilen puanların tesadüfi hatalardan arınık olma derecesidir. Diğer bir ifadeyle puanların kararlı, tutarlı ve duyarlı olmasıdır.
Kullanışlılık ise ölçme aracının geliştirilmesinin, uygulanmasının ve puanlanmasının kolay ve ekonomik (zaman, para, emek, araç gereç vb. açıdan) olması ile ilgilidir.
Bir ölçme aracından elde edilen puanların hatasız ya da az hatalı olması geçerli ve güvenilir ölçme yapmanın tek koşuludur. Ölçme işlemlerinde hataları en aza indirebilmek için
öncelikle hataların tanımlanması gerekir ki ölçme işlemini yapan kişi neye müdahale edeceğini, hangi durumlara karşı önlem alması gerektiğini bilsin.
2.1. HATA: Yalnızca eğitimde değil bütün bilim dallarında, hatta günlük yaşamımızda dahiyapılan ölçme işlemlerinde bile ölçme sonuçlarına hata karışma olasılığı vardır. Ölçme yapan kişilerin dikkati ve titizliği zamandan zamana değişebilir, ölçme aracına ilişkin bazı sorunlar söz konusu olabilir, ölçülen özelliğin doğası gereği bazı sıkıntılar olabilir, test katılımcısı yeterince güdülenmemiş olabilir, ölçme işleminin yapıldığı ortamdan kaynaklı sorunlar vb. olabilir.

Ölçmede gözlenen bir özelliğin gerçek değeri (sayı, sembol ya da sıfat) bulunmak istenir. Ancak ölçmeye karışan çeşitli hatalar nedeniyle gerçek değer (puan) ölçme yoluyla
doğrudan elde edilemez. Psikometride gerçek puan kuramı olarak ele alınan bu kavram basit bir
eşitlik ile gösterilir9
.
Bu çerçevede hatalar; kaynağı, yönü ve miktarı göz önünde tutularak sabit, sistematik ve tesadüfi olmak üzere üç türde incelenebilir:
2.1.1. Sabit Hata: Miktarı ölçmeden ölçmeye değişmeyen, diğer bir deyişle her ölçme işlemine aynı miktarda karışan hatalardır. Örneğin marketteki terazi, üzerinde herhangi bir nesne yokken terazi -120 g gösteriyorsa ne tartılırsa tartılsın 120 g eksik ölçülecektir. Bir öğretmen, sınavında herkese 10 puan fazla veriyorsa yine karışan hata sabit olacaktır.
2.1.2. Sistematik Hata: Ölçülen büyüklüğe, öğretmene ya da ölçme koşullarına göre miktarı değişen hatalardır. Örneğin marketteki terazi, her bir kilogramda 120 g eksik tartıyorsa üzerine konulan nesnenin ağırlığı arttıkça hata miktarı da artacaktır. Bir öğretmen, sınavında yazısı kötü olandan puan kırıyorsa yine karışan hata sistematik olacaktır.
Gerek sistematik gerekse sabit hatalarda ölçme sonuçlarına karışan hata miktarı, yönü ve kaynağı bellidir. Bu nedenle bu tür hataların ölçme sonuçlarına karışmasını engellemek ya da bu tür hataları düzeltmek görece daha kolaydır.
2.1.3. Tesadüfi (Rastlantısal) Hata: Şansla ortaya çıkan ne yönde ve ne ölçüde karıştığı genellikle bilinemeyen hatalardır. Ölçmelere tek yönlü olarak karışmaz, ölçme
sonuçlarına bazen pozitif bazense negatif yönde etki eder. Sabit ve tesadüfi olmayan hatalar, tesadüfi değişken olma özelliğine sahiptir. Bu nedenle psikometride hata kuramı tesadüfi hatalar üstüne kurulmuştur. Tesadüfi hataların genellikle dört kaynağı olduğu kabul edilir. Bunlar:
2.1.3.1. Ölçme işlemini yapan kişiden / öğretmenden kaynaklanan hata: Öğretmenin test etme sürecine ilişkin davranışlarını iki aşamada ele alabiliriz:
Ölçme işlemi sürecinde: Test katılımcısının dikkatini dağıtacak ve/veya kaygısını artıracak davranışlar vb.
Ölçme işlemi sonrasında: Puanlamadaki dikkat ve titizliğin zamandan zamana değişmesi, yorgunluk, öncelik-sonralık yanılgısı, maddi hata vb.
2.1.3.2. Ölçme aracından kaynaklanan hata: Ölçme araçları hazırlanırken maddelerin iyi ifade edilmemesi, test katılımcılarının yanlış anlamalarına ve dolayısıyla hataya neden
olacaktır. O nedenle hangi özellik ölçülürse ölçülsün, araçta kullanılan dilin dil bilgisi, imla kurallarına uygun olması; maddelerde anlatım bozukluğu bulunmaması, muğlâk ya da belirsiz (müphem) ifadelerin bulunmaması gerekir.
Ölçme aracından kaynaklanabilecek bir başka hata kaynağı ise aracın yapısı ile ilgilidir. Ölçtüğü özellik ve kapsam bakımından homojen (benzeşik) maddelerden oluşan bir
araç, heterojen (ayrışık) maddelerden oluşan bir testten daha güvenilirdir. Diğer taraftan ölçülecek özellikler evrenini yeterince temsil etmeyen maddelerden oluşan bir araçtan elde edilen puanlara da hata karışmaktadır. Ölçme aracının yapısıyla ilgili diğer bir konu ise aracın uzunluğudur. Madde sayısı ile
güvenilirlik arasında doğru orantılı bir ilişki vardır ancak bu sonsuz bir doğru orantı anlamına gelmez. Ölçme aracındaki madde sayısı arttıkça bireyde yorgunluk, dikkat azalması vb. etkenler nedeniyle hata miktarı artacaktır.
Ölçme aracıyla ilgili diğer bir faktör ise bilişsel özellikleri ölçen testlerde eğer seçenek verilmişse şans başarısı10 karışma olasılığıdır. Bu durum ölçülen özelliğin gerçekte olduğundan
yüksek görünmesine yol açmaktadır.
Bu kavram ve eşitlik güvenilirlik başlığı altında ele alınmıştır. 10 Salt tahminle doğru yanıtı bulma olasılığı

2.1.3.3. Bireyden / öğrenciden kaynaklanan hata: Bireylerin ölçme işlemi sürecinde içinde bulundukları fiziksel, fizyolojik ve psikolojik durumlar test puanına etki eder.
Uykusuzluk, açlık, hastalık, ağrı, motivasyon eksikliği, kaygı vb. faktörler nedeniyle bireyler gerçek puanlarından uzaklaşabilirler. Ayrıca grubun homojen ya da heterojen olması da hata kaynağını arttıran ya da azaltan bir etkiye sahiptir. Daha heterojen gruplarda güvenirlik katsayısı artarken daha homojen gruplarda güvenirlik katsayısı azalır.
2.1.3.4. Fiziksel ortamdan kaynaklanan hata: Ölçme işleminin gerçekleştiği fiziksel ortama ilişkin bazı etmenler de ölçme sonuçlarına hata karıştırabilir. Sıcaklık, ışık, ses, koku,
görsel uyarıcıların fazlalığı, ergonomi vb. etmenler hata miktarını artırabilir. Bu anlamda testler bireylere bu etmenler açısından eşit ve standart koşullar altında uygulanmalıdır, aksi takdirde hata miktarının artması kaçınılmazdır.
2.2. GEÇERLİLİK, GÜVENİLİRLİK VE HATA İLİŞKİSİ: Geçerlilik tüm hata kaynaklarından etkilenirken klasik test kuramına göre güvenilirlik yalnızca tesadüfi hatalardan
etkilenir.
Şekil 1: Geçerlilik, güvenilirlik ve hata ilişkisi
Bu nedenle güvenilirlik, geçerlilik için bir ön şart ancak yeterli şart değildir. Diğer bir ifade ile bir testin güvenilir olması onun geçerli olacağı anlamına gelmez ancak bir test geçerli
ise büyük olasılıkla güvenilirdir.
Bir ölçme aracının geçerliliği ve güvenilirliği diye bir şey yoktur, ölçme araçlarından elde edilen puanların geçerliliği ve güvenilirliği diye bir şey vardır. Ölçme araçlarının
psikometrik nitelikleri şu durumlara göre değişebilir: a. Ölçme amacının değişmesi, b. Uygulama grubunun değişmesi, c. Dilin eskimesi / değişmesi, d. Maddelerde ve/veya alt ölçeklerde yapılan değişiklikler, e. Farklı kültürler, f. Kuramsal bilgi birikiminde değişiklikler.
Geçerlilik ve güvenilirlik bir varlık-yokluk sorunu değil, derece sorunudur. Bu nedenle bir testten elde edilen puanlar yüksek düzeyde geçerli, orta düzeyde geçerli, düşük düzeyde
geçerli; yüksek düzeyde güvenilir, orta düzeyde güvenilir, düşük düzeyde güvenilir biçiminde
nitelendirilir.
Bir ölçme aracının puanlarından yapılan değerlendirmenin doğruluğu araştırmayı gerektirir. Bu puan gerçekten ölçmek istediğimiz özelliği gösteriyor mu? Aracın ölçmek istediğimizi ölçüp ölçmediği bir araştırma işidir. Araştırma ile değerlendirmenin doğruluğu incelenir. Bir testin şöhretli olması onun geçerli olduğu anlamına gelmez. Modern test kuramına
göre geliştirilen ölçekler eleştiriye açıktır. Böylece testlerin niteliği ve test bilgisi gelişir.
2.3. KORELASYON: Geçerlilik ve güvenilirliği belirlemeye yönelik yöntemler genellikle korelasyon temelli analizlere dayanır. Bu nedenle bu aşamada kısaca korelasyon kavramına
değinmek gerekmektedir. Korelasyon (co-relation), en az iki değişken arasında karşılıklı bir ilişki bulunup bulunmadığı, eğer ilişki varsa bu ilişkinin yönü ve miktarı hakkında bilgi veren istatistik bir tekniktir. “r” ile sembolize edilir.

Örneğin
• Öğrencilerin derse ilişkin tutumları ile ders başarıları arasında bir ilişki var mıdır?

• Öğretmenlerin ders saati yükleri ile iş doyumları arasında bir ilişki var mıdır?
• Saç uzunluğu ile zekâ arasında bir ilişki var mıdır?
Korelasyon -1 ile 1 arasında değer alır. Bu iki değer arasında matematiksel olarak sonsuz birim vardır ancak kullanışlılık açısından 100 birim negatif korelasyonda, 100 birim pozitif

korelasyonda, sıfır ile birlikte toplam 201 birimlik bir skala üzerinden değişkenler arasındaki ilişkinin yönü ve miktarı değerlendirilir.
Pozitif korelasyon iki değişken arasında doğru orantılı ilişki anlamına gelir. Örneğin ders çalışma süresi ile sınav notu ya da gelir ile tüketim arasında pozitif bir korelasyonun elde edilmesi beklenir. Negatif korelasyon, iki değişken arasında ters orantılı ilişki anlamına gelir. Örneğin ders süresi ile dikkat ya da yükseklik ile sıcaklık arasında negatif bir korelasyonun elde edilmesi beklenir. ∓1 mükemmel korelasyon anlamına gelir ancak 1 mükemmel doğru orantılı ilişki anlamına gelirken, -1 ise mükemmel ters orantılı ilişki anlamına gelir. Diğer taraftan sıfır korelasyon iki değişken arasında sistematik bir ilişkinin olmadığı anlamına gelir. Bu duruma mükemmel ilişkisizlik de denir. Örneğin öğretmenlerin boyları ile aylık ücretleri arasındaki korelasyonun sıfır olması beklenen bir durumdur.
Şekil 2: Korelasyonun temel kavramları
Korelasyon katsayısı hakkında kabaca iki tür belirleme yapmak gerekir. Bunlardan birincisi yön, diğeri ise miktardır. Yön, negatif ya da pozitif olarak değerlendirilirken miktar,
kabaca düşük, orta ya da yüksek olarak nitelendirilir. Miktar için kesin sınırlar olmamakla birlikte alanyazında genellikle kabul gören aralıklar Şekil 3’te gösterilmiştir.

Şekil 3: Korelasyonun miktarı
Not 1: Korelasyon mutlak değer olarak değerlendirilmelidir. Bir korelasyon katsayısının negatif ya da pozitif olması büyüklük-küçüklük belirtmez, yön bildirir.
Not 2: Korelasyon katsayısı ile neden-sonuç ilişkisi kurulamaz. Değişkenler arasında doğru ya da ters orantılı bir ilişki olması, söz konusu değişkenler arasında bir neden-sonuç
ilişkisinin varlığı anlamına gelmez.
2.4. GEÇERLİLİK SORGULAMA YÖNTEMLERİ: Geçerlilik sorgulama yöntemleri aşağıda Şekil 4’te gösterilmiştir.
Şekil 4: Geçerlilik yöntemleri sınıflaması
2.4.1. KAPSAM GEÇERLİLİĞİ: Kapsam geçerliliği özellikle başarı testlerinde aranan bir geçerlilik sorgulamasıdır. Eğitimde öğretmen bir program dâhilinde önceden belirlenen
davranışları kazandırmayı amaçlar. Belirli bir zaman sonra davranışların ne kadarının kazanıldığını belirlemek isteyen öğretmen, geliştirdiği testte öğretime konu olan içeriğin testte ne ölçüde temsil edildiğini belirlemek durumundadır. Bu anlamda kapsam geçerliliği bir testin ölçülmek istenen davranışları ne derece kapsadığıyla ilgilidir. Ne amaçla kullanılırsakullanılsın test, kapsamı açısından ölçmeye konu olan davranışları yeterli ve dengeli bir biçimde temsil etmelidir. Bir testin kapsam geçerliliğinin yüksek olduğunun söylenebilmesi için
1. Testteki soruların / maddelerin ölçülecek özellikler evrenini (konu kapsamını / içeriği) yeterli ve dengeli bir biçimde ölçüyor olması ve
2. Her bir sorunun / maddenin ölçmek istediği özelliği doğrudan ölçmesi, diğer bir deyişle kazanımla doğrudan ilgili olması gerekir.
Testin kapsam geçerliliğinin yüksek olduğunun söylenebilmesi için bu iki kriter birden sağlanmalıdır.
Kapsam geçerliliği sorgulama yöntemleri:
2.4.1.1. Mantıksal / rasyonel yöntemler: Bu yöntemler belirtke tablosu hazırlanması ve uzman görüşüne başvurulmasıdır.

Belirtke tablosunun hazırlanması: Bir kapsam geçerliliği sorgulamasında öncelikle ölçmeye konu olan kapsam dâhilinde davranışların belirlenmesi gerekir. Bu noktada en çok
kullanılan yöntemlerden biri belirtke tablosu hazırlamaktır. Öğretmen satırda davranışları, sütunda hedefleri yazar; belirlediği madde sayısı doğrultusunda davranış ve hedefleri yeterli ve dengeli bir biçimde temsil eden alanları seçer.
Uzman görüşüne başvurulması: Uygulamada uzman ile kastedilen öncelikle ölçme ve değerlendirme tekniklerini de bilen bir alan uzmanıdır. Uzmana belirtke tablosu ve maddeler
sunulur, uzmandan soruların / maddelerin konu kapsamını yeterli ve dengeli bir biçimde ölçme durumunu ve soruların / maddelerin kazanımlarla doğrudan ilgili olma durumunu
değerlendirmesi istenir.
2.4.1.2. İstatistiksel yöntemler: Uzmanlardan alınan dönütler betimsel / muhakemeye dayalı bir yolla çözümlenebilir ya da uzmanların “uygundur / uygun değildir” ya da “uygundur
/ düzeltme gerekir / soru kullanılmamalıdır” vb. biçimde değerlendirme yapması istenebilir. Eğer uzmandan ikinci yolla dönüt istenmişse uzmanlar arasında uyuşum olup olmadığı, çeşitli istatistiksel yöntemlerle test edilir. Alanda uzmanlar arasında uyumu test eden pek çok indeks
bulunmaktadır.
2.4.2. ÖLÇÜT DAYANAKLI GEÇERLİLİK: Ölçme aracından elde edilen puanların ölçüt bir puanla (testin tahmin etmeye çalıştığı ve geçerliliği yüksek bir puan) karşılaştırılarak geliştirilen ölçme aracının geçerliliğine ilişkin nitelendirme yapılır.
2.4.2.1. YORDAMA GEÇERLİLİĞİ: Yordama, tahmin demektir ancak her tahmin yordamadeğildir. Bir tahminin yordama olabilmesi için elde geçerli ve güvenilir bir veri olması ve bu verinin sınanabilir, sayısal nitelikte, belirli analizlere tabi tutuluyor olması gerekiyor. Diğer bir deyişle yordama, eldeki bu nitelikteki veriden yola çıkarak geleceğe, henüz gerçekleşmemiş bir olguya ilişkin yapılan tahmindir.
Ölçme araçlarının çoğunda bireylerin gelecekteki davranışlarının kestirilmesi söz
konusudur. Yordama geçerliliği, ölçme aracının bu kestirim işini ne ölçüde doğru ve isabetli yaptığı ile ilgili bir sorgulamadır. Özellikle iki amaçla uygulanan ölçme araçlarının yordama
geçerliliğinin yüksek olması istenir. Bunlar seçme ya da yönlendirme amaçlı kullanılan testlerdir.
Seçme amaçlı testlere YKS, KPSS, LGS vb. araçlar; diğer taraftan yönlendirme amaçlı testlere ise alan seçiminde ve/veya bir üst öğretim kurumuna yönlendirmek için uygulanan yetenek testleri, ilgi envanterleri, mesleki kişilik envanterleri vb. örnek olarak gösterilebilir.
Yordama geçerliliğinde ölçme aracından elde edilen puanlar, ölçme aracının tahmin ettiği puanla (ölçüt puan) karşılaştırılır ve tahminin ne ölçüde doğru olduğu belirlenmeye çalışılır.
Ölçüt puan testin tahmin etmeye çalıştığı özelliktir. Yordama geçerliliğinde ölçüt puan gelecekte belli olacağından beklemek gerekmektedir. Yordama geçerliliğinde geçerlilik katsayısının 0 ile 1 arasında değişmesi beklenir.
Şekil 5: Bir yordama geçerliliği çalışma örneği
Yordama geçerliliğinde en zor ve önemli nokta ölçütün doğru bir biçimde belirlenmesidir. Ölçütün belirlenmesinde şu noktalar dikkate alınmalıdır: Ölçüt(ün);
1. Ölçme aracının yordamaya çalıştığı değişkenle doğrudan ilgili olmalı, ölçme aracı hangi
özelliği kestirmeyi amaçlıyorsa onun doğrudan bir temsili olmalıdır.
2. Kararlı olmalı, günden güne değişmemelidir. Açıktır ki kendisi kararsız olan bir özellik hiçbir araçla yordanamaz.
3. Bireylerin özelliğini gerçekten yansıtan nesnel ve güvenilir bir ölçüt olmalıdır. Söz gelimi okulda alınan notlar bir ölçüt olarak alınmışsa öğrencilere verilen notlara başarının dışındaki etmenler etki etmemelidir.
4. Elde edilmesi kolay ve ekonomik olmalıdır.
2.4.2.2. ZAMANDAŞ GEÇERLİLİK: Bu geçerlilik türü alanyazında hâlihazır geçerlilik, benzer ölçekler geçerliliği, uygunluk geçerliliği adı ile de anılmaktadır.
Zamandaş geçerlilik sorgulamalarında ölçüt puan eş zamanlı olarak elde edilebilir.
Geliştirilen ölçme aracı ile ilişkili olabilecek nitelikleri ölçen ve geçerliliği yüksek bir aracın puanı ölçüt puan olarak ele alınabilir. Daha sonra geliştirilen ölçme aracı ve ölçüt araç aynı
zamanda uygulanıp iki araçtan elde edilen puanlar arasındaki ilişki incelenir.
Zamandaş geçerliliğinde geçerlilik katsayısının –1 ile 1 arasında değişmesi beklenir.
Ölçüte bağlı olarak geçerlilik katsayısı ∓1’e yaklaştıkça artar, 0’a yaklaştıkça düşer.
Şekil 7: Geçerlilik katsayısı
Zamandaş geçerlilikte de en zor ve önemli nokta ölçütün doğru bir biçimde belirlenmesidir. Ölçütün belirlenmesinde şu noktalar dikkate alınmalıdır: Ölçüt(ün);
1. Ölçme aracının ölçmeye yöneldiği özellikle doğrudan ilişkili olmalıdır. Bu ilişki doğru orantılı ya da ters orantılı olabilir.
2. Geçerliliği yüksek olmalıdır. Geçerliliği yüksek olmayan bir ölçüt puanla bakılacak korelasyonun düşük olması kaçınılmazdır.
2.4.3. YAPI GEÇERLİLİĞİ: Beşerî bilimlerde atılganlık, güvensizlik, içe dönüklük vb. özelliklerin ölçülmesi amacıyla ölçme aracı geliştirmek için önce, söz konusu olan özellik ya da özellikleri belirlemek yani yapıyı tanımlamak; daha sonra, tanımlanmış yapıdan sınanabilir denenceler çıkarmak ve çıkarılan denenceleri sınamak için deneysel ve istatistiksel çalışmalar yapmak gerekmektedir. Yapı, birbirleriyle ilgili olduğu düşünülen belli ögelerin ya da ögeler arasındaki ilişkilerin oluşturduğu bir örüntüdür. Bu anlamda, bir testin yapısını geçerleme süreci, temelde testin maddelerine verilen yanıtlar arasındaki ilişkilerin analizine dayanır.
Yapı geçerliliği, bir testin dayandığı kuramsal temelleri ne derece iyi örneklediğiyle ilgilidir. İnsan davranışları ve özellikleri çoğunlukla soyut bir yapıya sahiptir. Zekâ, sevgi, merak,
sosyal uyum ve ruh sağlığı gibi soyut kavramları psikolojik testlerle ölçebilmek için önce bu kavramların içeriğinin bilinmesi gerekir. Birey ne tür davranışlar gösterdiği zaman hangi
niteliklerin varlığına ya da yokluğuna karar verilebileceğine ilişkin ölçütler geliştirilmesi gerekmektedir. Yapı geçerliliği bir yandan testin ölçtüğü niteliklerin neler olduğunu araştırma,
diğer yandan testi alan kişilerin elde ettikleri puanların ne anlama geldiğini açıklama çabalarıyla ilgilidir. Örneğin bir kişi, geleneksel aile biçimi ile çocuk yetiştirme biçimi arasındaki ilişkiyi incelemek amacıyla bir ölçek geliştirip bu ölçeğin yapı geçerliliğini ortaya koymak istediğinde, geleneksel aile yapısı ve çocuk yetiştirme kavramlarının ne anlamlara geldiğini, ölçme aracındaki maddelerin bu anlamlara uygunluğunu araştırarak yapı geçerliliği konusunda karar verebilir.
2.5. GÜVENİLİRLİK:
Güvenilir bir ölçme aracı, aynı özellikle ilgili olarak arka arkaya yapılan ölçmelerde yaklaşık olarak aynı sayısal sonucu verir; diğer bir ifadeyle bir test, aynı gruba iki ya da üç kez
uygulandığında gruptaki her bir kişi bütün uygulamalarda yaklaşık olarak aynı puanı almalıdır.
Bir testin ölçmek istediği özelliği ölçebilmesi için o testin söz konusu olan özelliği kararlı olarak ölçmesi gerekir. Güvenirlik çalışmalarının odak noktası şudur: “Eğer kişi iki defa teste tabi tutulursa iki testten aldığı puanlar birbirine benzer midir ya da birbirine ne kadar yakındır?”
Bu noktada gözlenen puan, gerçek puan, ölçmenin standart hatası ve güvenirlik katsayısı kavramlarına değinmek gerekmektedir.
Örneğin Murat, üç dakikalık bir sözcük çalışmasında 162 sözcük ya da diğer bir ifadeyle dakikada 54 sözcük yazmıştır. Bu puan Murat’ın becerisini ne ölçüde yansıtmaktadır.
Varsayalım ki dakikada 50 sözcük yazılması yeterli kabul edilmektedir. Murat bu düzeyin gerçekten üzerinde midir? Murat geçen hafta dakikada 45 sözcük yazmıştır. Murat’ın bugünkü puanı olanı olan 54, onun kendisini geliştirdiğinin göstergesi midir ya da bir değişim dalgalanması mıdır?
İki ölçüm arasındaki uyumsuzluğun birçok nedeni olabilir. Bir hareketten diğerine, “dikkat ve çaba” değişebilir. Özellikle uzun periyotlarda puan değişmesi, fiziksel büyüme,
öğrenme ya da sağlık ve kişilikteki değişimlerden kaynaklanabilir. Yine ikinci ölçümde daha açık soruların kullanılması diğer bir faktör olabilir. İki ölçüm arasındaki puan farklarını yorumlayabilmek için gerçek puan kuramına bakalım.
Psikometride hata kavramı istenmeyen değişkene işaret eder. Ölçme hataları giderilene kadar sürdürülmeli ve böylece gerçek puan elde edilmelidir. Ancak davranış örneği
sınırlı olduğu için gözlenen puan gerçek puandan farklılık gösterir. Buradaki farklılık ölçme
hatasıdır. Geleneksel olarak hataların varlığı gözlenen puanın gerçek puandan yüksek ya da düşük olmasına neden olur.
Örneğin yarışlara hazırlanan bir koşucu, bir mesafeyi farklı zamanlarda 23.7, 24.0,
24.2,... 25.1, 25.2 saniyelerde koşmuş olsun. Bu ölçümlerin ortalaması 24.7 ise gerçek puanı
24.7’dir. Koşucu bu puana daha önce 23.7 saniyede koştuğu ölçümü göstererek itiraz edebilir.
Bu durumda koşucuya 23.7 ve 25.2 saniyede koştuğu durumlara birçok faktörün etkisinin olabileceği ve 23.7 saniyede tekrar koşmasının belki de hiç olanaklı olamayacağını, gerçek
puanının 24.7 olduğunu söyleyebiliriz. Bu söylem gerçek puan kuramına dayanır.
X = T + E
X = Bireylerin ölçme aracından elde ettiği gözlenen puanı
T = Bireylerin gözlenemeyen gerçek puanı
E = Ölçmeye karışan hata miktarı
Varsayımsal olarak bir ölçme işleminde hata miktarı sıfır ise eşitlik X = T + 0 ve dolayısıyla X = T olmuş olur. Diğer bir ifade ile gözlenen puan, gerçek puana eşit olmuş olur.
Ölçme işleminde hata miktarı arttıkça gözlenen puanın gerçek puana olan farkı artmaya başlar.
Ölçmenin standart hatası formülü ile bulunur.
Sh= Ölçmenin standart hatası
s= Standart sapma
rx= Güvenilirlik katsayısı
Bir ölçme işleminde standart hatanın düşük olması, formülden de anlaşılacağı üzere, güvenilirlik katsayısının yüksek, standart sapmanın görece düşük olmasına bağlıdır. Örnek: Bir
ölçme işleminde s=8 ve rx=.75 ise Sh=8√1 − .75=4. Bu sonuç bireylerin puanlarına –/+ 4 puan hata karıştığı anlamına mı gelir? Gerçek puanın tahmin edilmesinde genellikle üç olasılık değeri kullanılır. Bunlar yaklaşık %68, %95 ve %99’dur. %68 olasılık için bireyin puanından bir standart hata çıkarılır ve puanına eklenirken %95 olasılık için bireyin puanından iki standart hata çıkarılır ve puanına eklenir, son olarak %99 olasılık için bireyin puanından üç standart hata çıkarılır ve puanına eklenir.
%68 olasılık için X ∓ 1×Sh
%95 olasılık için X ∓ 2×Sh
%99 olasılık için X ∓ 3×Sh
Dolayısıyla bir kişi 100 üstünden 50 puan almış ve Sh=4 ise
%68 olasılık: X∓1×Sh⇒50∓1×4=Bireyin gerçek puanı %68 olasılıkla 46-54 arasında değişir.
%95 olasılık için X∓2×Sh⇒50∓2×4=Bireyin gerçek puanı %95 olasılıkla 42-58 arasında
değişir.
%99 olasılık için X∓3×Sh⇒50∓3×4=Bireyin gerçek puanı %99 olasılıkla 38-62 arasında
değişir.
Ölçmenin standart hatası yükseldikçe ölçme işlemi bireylere rastgele puan vermekten farklı olmayacaktır. Bu nedenle ölçme işlemlerinde güvenilirliğin kestirilmesi çok önemlidir.
Güvenilirlik katsayısı 0 ile 1 arasında değişir. Güvenilirlik katsayısı için alanyazında genellikle 0.70 ve üstü ölçütü kabul edilir. Ancak bu değerin de çok yüksek bir değer olmadığı,
0.70-0.80 arası güvenilirliğin ancak ön bilgi elde etmek amacıyla kullanılabileceği ifade edilir.
Genel yetenek gibi bilişsel özellikleri ölçen testlerde güvenilirlik katsayısının 0.90 ve üzerinde olması arzu edilir.
Şekil 8: Güvenilirlik katsayısı
Güvenilirlik, genellikle birden çok uygulamaya dayalı yöntemler ve tek uygulamaya
dayalı yöntemler başlıkları altında ele alınır. Birden çok uygulamaya dayalı yöntemler altında test-tekrar test ve eşdeğer (paralel) testler yöntemleri, tek uygulamaya dayalı yöntemler altında ise eşdeğer yarılar, KR-20, KR-21, Cronbach alfa, Hoyt’un varyans analizi, McDonald omega
vb. yöntemler yer almaktadır.
84
Şekil 9: Güvenilirlik kestirim yöntemleri
2.5.1. TEST-TEKRAR TEST YÖNTEMİ: Bu yöntem ile test güvenilirliğini test etmek için bir test, aynı gruba, belli bir zaman aralığıyla iki kez uygulanır. Daha sonra bireylerin birinci
uygulamadan aldıkları puanlarla ikinci uygulamadan aldıkları puanlar arasındaki korelasyon hesaplanır. Elde edilen korelasyon katsayısına kararlılık (devamlılık / istikrarlılık) katsayısı
adı verilir.
Şekil 10: Test-tekrar test yöntemi çalışma örneği
Güvenilirliğin kararlılık, tutarlılık ve duyarlılık sorunu olduğuna daha önce değinilmişti. Bu yöntemle elde edilen güvenilirlik kanıtı, güvenilirliğin yalnızca kararlılık
boyutuna karşılık gelir; güvenilirliğe ilişkin tümel bir sonuç ortaya koymaz. Bu nedenle bir ölçme aracının güvenilirliğine ilişkin kanıt toplamak isteyen bir kişi kararlılığın yanı sıra tutarlılığa ve duyarlılığa ilişkin sorgulamaları yapmak durumundadır.
Bu yöntem, ölçülen özelliğin kararlı olduğu durumlarda uygulanması gereken bir yöntemdir. Testin ölçtüğü özellik sürekli değişkenlik gösteriyorsa bu yöntemle testin güvenirliği hesaplanmamalıdır. Diğer bir deyişle bu yöntem daha çok iki uygulama arasında kolaylıkla
değişmeyen özellikleri ölçen testler için uygundur. Örneğin genel zihin yetenekleri, kişilik testleri, ilgi envanterleri, tutum ölçekleri vb. gibi testlerin kararlılık bağlamında güvenilirlikleri bu yöntemle hesaplanabilir.
Bu yolla test güvenilirliğini kestirmede karşılaşılan önemli bir sorun, testin iki uygulanışı arasındaki zaman aralığının ne kadar olması gerektiğidir. Bu soruya kesin bir yanıt
vermek olanaksızdır. Aradan geçen zaman, hem ölçme aracının ölçtüğü özellik bakımından yanıtlayıcıların önemli ölçüde değişmelerine hem de birinci uygulamada verilmiş olan yanıtların hatırlanmasına izin vermeyecek bir uzunlukta olmalıdır. Diğer bir ifadeyle iki uygulama arasındaki zamanın belirlenmesindeki temel ilke şudur: “Birinci uygulamada maddeleri hatırlamayacak kadar uzun, ölçülen özellikte köklü değişimler oluşmayacak kadar kısa olmalıdır.”
Aradaki zamanın belirlenmesinde dikkat edilmesi gereken bir başka nokta, özelliğin değişim hızıdır. Bazı özellikler daha hızlı değişime açıkken bazıları ise daha zor değişir.

Örneğin ;bireylerin genel yetenek düzeylerinin kısa bir zamanda değişmesi pek olanaklı değilken tutumu görece daha kolay değişebilir. Dolayısıyla bir genel yetenek testi için aradaki zaman daha uzun tutulabilirken tutum ölçeği için daha kısa tutulabilir.
Ayrıca özelliklerin değişimi yaşla da ilişkilidir. Bazı özellikler belli yaşlarda daha durağanken bazı yaşlarda daha değişkendir. Örneğin yaşamın ilk evrelerinde çocukların gelişimi
daha hızlı iken yaşın ilerlemesi ile birlikte gelişim yavaşlayabilir. Dolayısıyla bebeklik döneminde uygulanacak bir gelişim envanteri için sürenin daha kısa tutulması gerekebilir.
Test-tekrar test yöntemi, başarı testleri için çok tercih edilmemektedir. Çünkü kısa
vadede başarı kolay değişebilen, kararsızlık gösterebilen bir özelliktir. Bu yöntem daha çok yetenek testleri, kişilik envanterleri vb. psikolojik ölçme araçlarından elde edilen puanların
güvenilirlik kanıtlarını üretmek için tercih edilmektedir.
Birden çok uygulamaya dayalı yöntemler alanyazında genellikle benzer ölçekler geçerliliği, hâlihazır geçerlilik, uygunluk geçerliliği olarak da geçer.
Birden çok uygulamaya dayalı yöntemlerle güvenilirlik kanıtı elde etmek biraz zahmetlidir. Test-tekrar test yönteminde testi farklı zamanda ikinci kez uygulamak için grup
bulmak bazen zor olabilir. Ayrıca katılımcı kaybı yaşamak da olasıdır. Tek uygulamaya dayalı yöntemler tek bir test, tek bir grup ve tek bir uygulama gerektirmektedir. Dolayısıyla güvenilirlik kanıtı elde etmek daha pratiktir (Özellikle kararlılık katsayısının hesaplanmadığı durumlarda güvenilirliğin bir boyutu tabii ki eksik kalır.). Bir test bir gruba, bir kez uygulanıyorsa test kendi içinde değerlendirilecek demektir.
Güvenilirliğin bir boyutu da testin tutarlılığıdır. Tek uygulamaya dayalı güvenilirlik sorgulama yöntemleri ile “Test kendi içinde tutarlı bir bütün oluşturur mu?” sorusuna yanıt aranır. Bu nedenle bu yöntemlerin tümünden elde edilen katsayı iç tutarlılık katsayısı olarak
adlandırılır.
2.5.2. TEST YARILAMA (EŞDEĞER YARILAR / İKİ YARI GÜVENİLİRLİĞİ)
YÖNTEMİ: Bu yöntemle güvenilirliği tahmin etmede uygulanmış bir test iki eşdeğer yarıya bölünür ve bireylerin iki yarıdan aldıkları puanlar arasındaki tutarlılık incelenir. Buradaki en
temel sorunlardan biri testin iki eşdeğer yarıya nasıl bölünmesi gerektiği ile ilgilidir. En sık başvurulan yöntemler: a) ilk yarı ve son yarı b) tek ve çift ve c) rastlantısaldır. İlk ve son yarı yöntemi her test için uygun değildir. Uygun olmadığı durumlar: Testteki
• maddeler basitten zora doğru sıralanmış ise
• maddeler konu içeriklerine ya da faktörlere göre kümelenerek yerleştirilmiş ise
• madde sayısı çok fazla ise

Şekil 11: Test yarılama yöntemi çalışma örneği
Bu yöntemle güvenilirliği tahmin etmede, uygulanmış bir test iki eşdeğer yarıya bölünür ve bireylerin iki yarıdan aldıkları puanlar arasındaki tutarlılık incelenir. Şekil 11’de de
görüldüğü üzere iki eşdeğer yarıdan alınan toplam puanlar arasında korelasyon hesaplanır ancak elde edilen katsayı korelasyonun yarı puanlar üzerinden elde edilmesi nedeniyle testin tamamına ilişkin bir tutarlılık bilgisi vermez, yarısına ilişkin verir. Diğer bir ifadeyle elde edilen katsayı eşdeğer yarılardan birinin güvenilirliği olarak kabul edilir. Testin tümüne ilişkin bir güvenilirlik katsayısı Spearman-Brown formülü aracılığıyla hesaplanır. Elde edilen katsayı testin tamamına ilişkin iç tutarlılık bağlamındaki güvenilirlik katsayısı olarak kabul edilir.
2.5.3. KUDER-RICHARDSON 20 VE 21 YÖNTEMLERİ: Kuder-Richarson 20 ve 21 ya da kısaca KR-20 ve KR-21, testin kendi içinde tutarlı bir bütün oluşturup oluşturmadığı ile ilgili
bilgi verir. Bu nedenle her iki yöntemle de testin iç tutarlılığı değerlendirildiğinden bu yöntemlerden elde edilen katsayıya iç tutarlılık katsayısı adı verilir.
KR-20 ve KR-21 ile güvenilirlik kestirimi, puanlamanın kategorik olduğu ölçme araçları için uygundur. Puanlamanın kategorik olması, doğru yanıtlara 1 puan, yanlış ve boş
bırakılan maddelere 0 puan vererek puanlamanın yapıldığı ya da maddenin yanıtının iki seçenekli verildiği durumlardır. Eğer testteki maddeler farklı ağırlıklarla puanlanmışsa ya da test puanları şans başarısı için düzeltilmişse bu formüller kullanılmaz.
2.5.4. CRONBACH ALFA YÖNTEMİ: Eğer ölçme aracının puanlaması çok kategorili ise KR20 ile aynı mantık üzerine kurulu Cronbach alfa hesaplanır. Elde edilen katsayının ismi yine iç tutarlılık katsayısıdır. Derecelendirme ölçekleri puanlamanın çok kategorili olduğu araçlara
örnek verilebilir.
2.6. GÜVENİLİRLİĞİ VE GEÇERLİLİĞİ ARTIRMA YOLLARI:
Güvenilirlik temelde tesadüfi hatalardan arınık olma durumu ise şüphesiz ki tesadüfi hata kaynaklarını azaltmaya yönelik eylemler güvenilirliği artıracaktır. Ancak bu noktada
güvenilirliği artıran temel kavramlar ve eylemler konusunun ayrıntılarına girelim:
1. Bir testteki madde sayısı arttıkça birimler küçüldüğünden duyarlılık artar, bu nedenle hata miktarı azalacağından güvenilirlik artar.
2. Bir ölçme işleminde genel bir ilke olarak puanlayıcı sayısı arttıkça güvenilirlik artar. Birden çok kişinin yaptığı puanlamanın ortalamasını almak, bir kişinin verdiği puandan daha
güvenilir olma eğilimindedir.

3. Puanlama nesnelliği, güvenilirliği büyük ölçüde etkiler. Bir testin farklı kişiler tarafından puanlanması ya da aynı kişinin farklı zamanlarda verdiği puanlar arasındaki tutarlılığa
puanlama güvenilirliği adı verilir. Bir testten elde edilen puan, puanlayıcıya ya da zamana göre değişmiyorsa testin güvenilirliği artar. Elbette kullanılan ölçme aracının puanlamasının nesnel ve öznel olması bu noktada çok önemlidir. Çoktan seçmeli, derecelendirme ölçeği, kontrol listeleri gibi araçlar puanlaması nesnel araçlara örnek iken açık uçlu sorulardan oluşan araçlar, mülakatlar vb. ise puanlaması öznel araçlara örnek olarak verilebilir. Öznel araçların puanlama biçiminin mümkün olduğunca standartlaştırılarak nesnel hâle getirilmesi güvenilirlik açısından önemlidir.
4. KR-20 ve KR-21 yöntemlerinde bahsedildiği gibi testteki maddeler açısından benzeşiklik (homojenlik) arttıkça güvenilirliğin artması, diğer taraftan ayrışıklık (heterojenlik) arttıkça
güvenilirliğin düşmesi beklenen bir durumdur.
5. Testten elde edilen puanların güvenilirlik kestirimi için veri elde edilecek grubun (örneklem) büyüklüğü arttıkça grubun heterojenleşmesinden dolayı güvenilirlik artar.
6. Aslında bir üst maddeyle de paralel bir biçimde maksimum performansı ölçen testlerde ortalama güçlüğe yaklaştıkça (