Bahan ujian atau soal yang bermutu dapat membantu pendidik meningkatkan pembelajaran dan memberikan informasi dengan tepat tentang peserta didik mana yang belum atau sudah mencapai kompetensi. Salah satu ciri soal yang bermutu adalah bahwa soal itu dapat membedakan setiap kemampuan peserta didik. Semakin tinggi kemampuan peserta didik dalam memahami materi pembelajaran, semakin tinggi pula peluang menjawab benar soal atau mencapai kompetensi yang ditetapkan. Makin rendah kemampuan peserta didik dalam memahami materi pembelajaran, makin kecil pula peluang menjawab benar soal untuk mengukur pencapaian kompetensi yang ditetapkan.
Syarat soal yang bermutu
adalah bahwa soal harus sahih (valid), dan handal. Sahih maksudnya bahwa setiap
alat ukur hanya mengukur satu dimensi/aspek saja. Mistar
hanya mengukur panjang,
timbangan hanya mengukur
berat, bahan ujian atau soal PKn hanya mengukur materi pembelajaran PKn
bukan mengukur
keterampilan/kemampuan
materi yang lain.
Handal maksudnya bahwa setiap
alat ukur harus
dapat memberikan hasil
pengukuran yang tepat, cermat,
dan ajeg. Untuk
dapat menghasilkan soal
yang sahih dan handal, penulis soal harus merumuskan
kisi-kisi dan menulis soal berdasarkan kaidah
penulisan soal yang
baik (kaidah penulisan
soal bentuk objektif/pilihan
ganda, uraian, atau praktik).
Bagiamana Pedoman
Menyusun Soal yang Bermutu ? Linn
dan Gronlund (1995:
47) menyatakan bahwa
tes yang baik
harus memenuhi tiga karakteristik, yaitu:
validitas, reliabilitas, dan
usabilitas. Validitas
artinya ketepatan interpretasi
hasil prosedur pengukuran, reliabilitas artinya konsistensi
hasil pengukuran, dan usabilitas artinya praktis prosedurnya. Di samping itu,
Cohen dkk. (1992: 28) juga menyatakan bahwa tes
yang baik adalah
tes yang valid
artinya mengukur apa
yang hendak diukur. Nitko (1996 :
36) menyatakan bahwa validitas berhubungan denganinterpretasi atau
makna dan penggunaan
hasil pengukuran peserta
didik.
Messick (1993:
13) menjelaskan bahwa
validitas tes merupakan suatu integrasi pertimbangan
evaluatif derajat keterangan
empiris yang mendasarkan
pemikiran teoritis yang mendukung ketepatan dan kesimpulan berdasarkan pada
skor tes. Adapun
validitas dalam model
Rasch adalah sesuai atau fit
dengan model (Hambleton dan Swaminathan, 1985: 73).
Messick (1993:
16) menyatakan bahwa
validitas secara tradisional
terdiri dari: (1) validitas
isi, yaitu ketepatan
materi yang diukur
dalam tes; (2) validitas criterion-related, yaitu
membandingkan tes dengan satu atau lebih variabel
atau kriteria, (3)
valitidas prediktif, yaitu
ketepatan hasil pengukuran dengan
alat lain yang dilakukan kemudian; (4) validitas serentak (concurrent), yaitu
ketepatan hasil pengukuran dengan dua alat ukur lainnya yang dilakukan
secara serentak; (5)
validitas konstruk, yaitu
ketepatan konstruksi teoretis yang mendasari disusunnya tes. Linn dan
Gronlund (1995 : 50) menyatakan hahwa
valilitas terdiri dari:
(1) konten. (2) test-criterion relationship, (3)
konstruk, dan (4)
consequences, yaitu ketepatan penggunaan hasil pengukuran.
Sedangkan menurut Oosterhof (190 : 23) yang mengutip berdasarkan
"Standards for Educational and Psychological Testing, 1985" yang didukung
oleh Ebel dan Frisbie (1991
: 102-109), serta Popham (1995 : 43) bahwa tipe validitas
adalah validitas: (1) content, (2) criterion, dan (3) construction.
Di samping
validitas, informasi tentang
reliabilitas tes sangat
diperlukan. Nitko (1999 :
62) dan Popham
(1995 : 21)
menyatakan bahwa reliabilitas berhubungan dengan
konsistensi hasil pengukuran.
Pernyataan ini didukung oleh Cohen
dkk, yaitu bahwa
reliabilitas merupakan persamaan dependabilitas atau
konsistensi (Cohen dkk : 192 :
132) karena tes yang memiliki
konsistensi/reliabilitas tinggi, maka
tesnya adalah akurat, reproducible; dan gereralizable
terhadap kesempatan testing dan instrumen tes
yang sama. (Ebel
dan Frisbie (1991
: 76). Faktor
yang mempengaruhi reliabilitas yang
berhubungan dengan tes
adalah: (1) banyak
butir, (2) homogenitas materi
tes, (3) homogenitas
karakteristik butir, dan
(4) variabilitas skor. Reliabilitas
yang berhubungan dengan
peserta didik dipengaruhi oleh faktor:
(1) heterogenitas kelompok, (2) pengalaman peserta didik mengikuti tes, dan (3)
motivasi peserta didik. Sedangkan faktor yang mempengaruhi reliabilitas
yang berhubungan dengan
administrasi adalah batas waktu
dan kesempatan menyontek (Ebel dan Frisbie, 1991: 88-93).
Linn dan
Gronlund menyatakan bahwa
metode estimasi dapat dilakukan dengan mempergunakan: (1)
metode test-retest, yaitu diberikan
tes yang sama dua kali pada
kelompok yang sama dengan interval waktu; tujuannya adalah pengukuran
stabilitas; (2) metode equivalent form,
yaitu diberikan dua tes paralel
pada kelompok yang sama dan waktu yang sama; tujuannya adalah pengukuran
menjadi ekuivalen; (3)
metode test-retest dengan equivalen form,
yaitu diberikan dua
tes paralel pada
kelompok yang sama dengan
interval waktu; tujuannya
adalah pengukuran stabilitas
dan ekuivalensi; (4) metode split-half, yaitu diberikan tes sekali,
kemudian skor pada butir yang ganjil dan genap dkorelasikan dengan menggunakan
rumusSpearman-Brown; tujuannya adalah
pengukuran konsistensi internal;
(5) metode Kuder-Richardson
dan koefisien Alfa,
yaitu diberikan tes
sekali kemudian skor total tes dihitung dengan rumus Kuder-Richardson,
tujuannya adalah pengukuran konsistensi
internal; (6) metode
inter-rater, yaitu diberikan satu
set jawaban peserta didik untuk diskor/judgement oleh 2 atau lebih rater;
tujuannya adalah pengukuran
konsistensi rating. Menurut Popham (1995: 22), reliabilitas
terdiri dari 3 jenis yaitu: (1) stabilitas, yaitu konsistensi hasil
di antara kesempatan
testing yang berbeda,
(2) format bergantian (alternate
form), yaitu konsistensi hasil di antara dua atau lebih tes yang
berbeda, (3) internal
konsistensi, yaitu konsistensi
melalui suatu pengukuran fungsi
butir instrumen.
Reliabilitas skor
tes dalam teori
respon butir adalah
penggunaan fungsi informasi tes.
Menurut Hambleton dan Swaminathan (1985: 236), pengukuran fungsi informasi
tes lebih akurat
bila dibandingkan dengan
penggunaan reliabilitas karena:
(1) bentuknya tergantung hanya
pada butir-butir dalam tes, (2)
mempunyai estimasi kesalahan pengukuran pada setiap level abilitas. Pernyataan ini didukung oleh
Gustafson (1981 : 41), yaitu
bahwa konsep reliabilitas dalam
model Rasch memerankan bagian subordinate sebab model pengukuran ini
diorientasikan pada estimasi kemampuan individu.
Untuk meningkatkan
validitas dan reliabilitas
tes perlu dilakukan
analisis butir soal. Kegunaan
analisis butir soal
di antaranya adalah:
(1) dapat membantu para pengguna
tes dalam evaluasi atas tes yang diterbitkan, (2) sangat relevan bagi
penyusunan tes informal dan lokal seperti kuis, ulangan yang disiapkan guru
untuk peserta didik di kelas, (3) mendukung penulisan butir soal yang efektif,
(4) secara materi dapat memperbaiki tes di kelas, (5) meningkatkan validitas
soal dan reliabilitas (Anastasi dan Urbina, 1997: 172).
Referensi:
Anastasi. Anne and Urbina,
Susana. (1997). Psicoholological
Testing. (Seventh Edition). New Jersey: Prentice-Hall, Inc.
Linn, Robert L. and
Gronlund, Norman E. (1995). Measurement and Assessment in Teaching. (Seventh
Edition). Ohio: Prentice-Hall, Inc.
Nitko, Anthony J. (1996).
Educational Assessment of Students, Second Edition. Ohio: Merrill an imprint of
Prentice Hall Englewood Cliffs.
Cohen, Louis.
(1976). Educational Research in
Classrooms and Schools:
A Manual of Materials and Methods. London: Harper & Row Publishers.
Hambleton, Ronald
K. and Swaminathan,
Hariharan. (1985). Item Response Theory, Principles, and Aplications.
Boston: Kluwer. Nijhoff Publishing.
Messick, Samuel. (1993).
“Validity”, Educational Measurement, Third Edition, ed. Robert
L. Linn. New
York: American Council
on Education and Macmillan Publishing Company, A Division
of Macmillan, Inc.
Oosterhof, Alberth
C (1990). Classroom
Applications of Educational Measurement. Ohio Merril
Publishing Company.
Ebel, Robert
L. and Frisbie,
David A. (1991).
Essentials of Education Measurement. New Jersey: Prentice
Hall.
No comments
Post a Comment