MAKALAH EVALUASI PEMBELAJARAN PENGUKURAN DAN MONITORING LUARAN PROGRAM
BAB I PENDAHULUAN
A.
Latar Belakang
Tujuan akhir dari dilaksanakannya sebuah program tidak
hanya mengarah pada program yang berfungsi dengan baik, tetapi program membawa
perubahan untuk mempengaruhi beberapa masalah atau kondisi sosial dengan cara
yang bermanfaat juga menjadi hal penting yang harus dipertimbangkan dengan
hati-hati. Kondisi yang berubah tersebut merupakan outcome atau produk yang diharapkan dari program. Dalam hal ini,
fungsi utama evaluator adalah menilai sejauh mana sebuah program menghasilkan
luaran/outcome yang diharapkan dalam
program yang direncanakan.
Tujuannya dalam memperoleh outcome yang diharapkan dari program, banyak hal yang perlu
dilakukan sebelumnya. Kita perlu melakukan berbagai tahap dan langkah-langkah
sistematis sebagai panduan untuk menghasilkan outcome yang signifikan. Hal yang dilakukan biasanya dengan
mengidentifikasi dan mengukur outcome
program dengan berbagai pertimbangan didalamnya.
Tidak hanya mengidentifikasi dan mengukur outcome program, pemantauan outcome yang berkelanjutan dapat penting
bagi pengelolaan program yang efektif. Namun, menafsirkan hasil pengukuran dan
pemantauan outcome, menghadirkan
tantangan bagi pemangku kepentingan karena serangkaian outcome dapat dihasilkan oleh faktor-faktor selain proses program.
Makalah ini akan membahas bagaimana outcome
program dapat diidentifikasi, bagaimana merancang langkah-langkah pengukuran outcome program, bagaimana prosedur
pemantauannya, dan bagaimana hasilnya dapat ditafsirkan dengan benar.
B. Rumusan Masalah
Adapun masalah yang akan
dibahas dalam penulisan makalah ini yaitu:
1. Apa
konsep dari outcome program?
2. Bagaimana
cara mengidentifikasi outcome yang
relevan?
3. Bagaimana
prosedur pengukuran outcome program?
4. Bagaimana
prosedur monitoring/pemantauan outcome program?
5. Bagaimana
hasil outcome dapat ditafsirkan
dengan benar?
C.
Tujuan
Berdasarkan rumusan masalah diatas,
maka tujuan dalam penulisan makalah ini yaitu:
1. Memahami
konsep outcome program.
2. Mengetahui
cara mengidentifikasi outcome yang
relevan.
3. Mengetahui
prosedur pengukuran outcome program.
4. Mengetahui
prosedur monitoring/pemantauan outcome program.
5. Mengetahui
prosedur penafsiran program dengan benar.
BAB II PEMBAHASAN
A. Konsep
Outcome Program
Outcome atau
hasil dalam sebuah program dimaknai sebagai suatu keadaan dimana keadaan
populasi sasaran atau kondisi sosial yang diharapkan sebuah program telah
mengalami perubahan. Dalam bukunya, Rossi dan kawan kawan memberikan beberapa
contoh outcome program misalnya,
jumlah perokok di kalangan remaja setelah terpapar kampanye anti rokok di
sekolah menengah, kesiapan sekolah setelah anak-anak mengikuti program
prasekolah, berat badan orang-orang yang menyelesaikan program penurunan berat
badan, keterampilan manajemen personil bisnis setelah program pelatihan
manajemen, dan jumlah polutan di sungai setempat setelah dilakukan tindakan
keras oleh badan perlindungan lingkungan setempat.
Dari berbagai contoh yang dipaparkan diatas ditemukan dua
hal penting yang tesirat yaitu pertama outcome
atau hasil diamati dari karakteristik populasi sasaran atau kondisi sosial,
bukan program, dan definisi suatu hasil tidak membuat referensi langsung
terhadap tindakan program. Meskipun layanan yang diberikan kepada peserta
program sering digambarkan sebagai output program, seperti yang telah
didefinisikan, outcome harus terkait
dengan manfaat produk atau layanan bagi peserta. Dengan demikian, memberikan
makanan kepada 100 orang tua yang tidak berpengalaman bukanlah merupakan outcome program. Hal tersebut adalah
pemberian layanan, yang merupakan aspek proses program. Disisi lain, manfaat
nutrisi dari makanan yang diberikan untuk kesehatan orang tua tersebut
merupakan outcome, seperti juga
peningkatan semangat kerja mereka, kualitas hidup yang dirasakan, dan risiko
cedera akibat usaha memasak untuk diri mereka sendiri. Dengan kata lain, outcome selalu mengacu pada
karakteristik yang pada prinsipnya dapat diamati untuk individu atau situasi
yang belum menerima layanan program. Misalnya, kita bisa menilai jumlah
perokok, kesiapan sekolah, berat badan, keterampilan manajemen, dan polusi air
dalam situasi yang relevan dimana tidak ada intervensi program. Kita dapat
mengukur outcome dalam dalam situasi
untuk dibandingkan dengan program yang disampaikan.
Kedua, konsep sebuah hasil atau outcome, seperti yang telah definisikan tidak semua target program
benar-benar telah berubah atau bahwa program tersebut telah menyebabkan mereka
berubah dengan cara tertentu. Jumlah perokok remaja sekolah menengah mungkin
tidak berubah sejak kampanye anti rokok dimulai, dan tidak ada seorangpun yang
mengalami penurunan berat badan selama partisipasi mereka dalam program diet.
Sebagai alternatif, mungkin terdapat perubahan tapi berlawanan dengan arah yang
diharapkan misalnya, remaja mungkin telah meningkatkan kebiasaan merokok
mereka, dan peserta program mungkin telah bertambah berat badannya.
Selanjutnya, apapun yang terjadi mungkin dihasilkan dari sesuatu selain
pengaruh program. Mungkin program penurunan berat badan berlangsung selama
musim liburan ketika orang-orang cenderung terlalu banyak menikmati permen,
atau mungkin remaja tersebut menurunkan kebiasaan merokok mereka sebagai reaksi
atas berita tentang kematian selebriti musik rock yang terkait dengan merokok.
Tantangan untuk evaluator adalah menilai tidak hanya outcome yang benar-benar diperoleh tetapi juga sejauh mana
perubahan dalam outcome disebabkan
oleh program itu sendiri.
a. Level Outcome, Perubahan Outcome, dan Efek menguntungkan
Pertimbangan diatas
menyebabkan perbedaan penting dalam penggunaan istilah outcome:
1. Level
outcome atau tingkat hasil merupakan
status outcome pada beberapa titik di
suatu waktu.
2. Perubahan
outcome atau hasil adalah perbedaan
antara tingkat hasil pada berbagai titik di suatu waktu.
3. Efek
program adalah bagian dari perubahan hasil yang dapat dikaitkan secara unik
dengan sebuah program yang bertentangan dengan pengaruh beberapa faktor
lainnya.

Grafik 1. Level Outcome, Perubahan Outcome, dan Efek Program
Grafik 1 menunjukkan pem-plotan tingkat ukuran outcome dari waktu ke waktu. Sumbu
vertikal mewakili variabel outcome
yang relevan dengan program yang ingin kita evaluasi. Variabel outcome adalah karakteristik atau
kondisi yang dapat diukur dari populasi sasaran program yang dapat terpengaruh
oleh tindakan program seperti jumlah perokok, berat badan, kesiapan sekolah,
tingkat pencemaran air, atau outcome
lainnya. Sumbu horizontal mewakili waktu, khususnya periode mulai dari sebelum
program dikirim ke populasi sasarannya sampai beberapa saat sesudahnya. Garis
solid dalam grafik menunjukkan tingkat hasil rata-rata kelompok individu yang
menerima layanan program. Status dari outcome
tresebut tidak digambarkan sebagai garis horizontal lurus dari waktu ke waktu
namun, digambarkan dengan garis yang bergelombang. Hal ini untuk menunjukkan
bahwa perokok, kesiapan sekolah, keterampilan manajemen, dan dimensi outcome lainnya diperkirakan tidak akan
tetap konstan, outcome berubah
sebagai akibat dari berbagai sebab dan keadaan alam yang asing bagi program. Misalnya perilaku merokok
cenderung meningkat dari usia dini hingga remaja, kemudian tingkat pencemaran
air dapat berfluktuasi sesuai dengan aktivitas industri di wilayah dan kondisi
cuaca, misalnya hujan deras yang mencairkan konsentrasinya.
Jika kita mengukur variabel outcome, kita dapat menentukan seberapa tinggi atau rendah kelompok
sasaran sehubungan dengan variabel tersebut, misalnya seberapa banyak perokok
atau kesiapan sekolah yang ditunjukkan. Hal tersebut menunjukkan level outcome atau secara sederhana sering
hanya disebut outcome. Apabila diukur
setelah populasi sasaran menerima layanan program, hal tersebut menujukkan
bagaimana populasi tersebut melakukan seperti
berapa banyak remaja merokok, tingkat rata-rata kesiapan sekolah di antara
anak-anak prasekolah, berapa banyak polutan yang ada di air. Jika semua remaja
merokok, kita mungkin akan kecewa, dan sebaliknya, jika tidak ada yang merokok,
mungkin kita senang. Level outcome
ini tidak menjelaskan tentang seberapa efektif program, meskipun hal itu dapat
membatasi kemungkinannya. Jika semua remaja merokok, misalnya, kita bisa yakin
bahwa program anti merokok itu tidak sukses besar dan mungkin malah
kontraproduktif. Jika tidak ada remaja yang merokok, temuannya adalah petunjuk
kuat bahwa program tersebut berhasil karena kami tidak mengharapkan mereka
semua berhenti secara spontan sendiri. Tentu saja, hasil ekstrem seperti itu
jarang ditemukan dan dalam kebanyakan kasus, level outcome saja tidak dapat ditafsirkan sebagai indikator keberhasilan
atau kegagalan sebuah program.
Jika kita mengukur outcome
pada populasi target sebelum dan sesudah mereka berpartisipasi dalam program,
tidak hanya menggambarkan level outcome,
tetapi kita juga dapat membedakan perubahan outcome.
Jika grafik 1 menggambarkan kesiapan sekolah anak-anak dalam program
prasekolah, maka akan menunjukkan bahwa anak-anak kurang menunjukkan kesiapan
sebelum berpartisipasi dalam program dan kesiapan yang lebih besar sesudahnya,
sebuah perubahan positif. Bahkan jika kesiapan sekolah mereka setelah program
tidak setinggi yang diharapkan guru prasekolah, arah perubahan
sebelumnya-setelah menunjukkan bahwa terdapat perbaikan. Tentu saja, dari
informasi ini, kita sebenarnya tidak mengetahui bahwa program prasekolah ada
kaitannya dengan peningkatan kesiapan anak dalam sekolah. Anak-anak usia
prasekolah berada dalam masa perkembangan ketika kemampuan kognitif dan motorik
mereka meningkat dengan cepat melalui proses pematangan normal. Faktor lain
mungkin juga bekerja; misalnya, orang tua mereka mungkin sedang membaca dan
mendukung perkembangan intelektual mereka dan persiapan untuk memasuki sekolah
yang menjadi factor menguntungkan bagi anak-anak.
Garis putus-putus pada grafik 1 menunjukkan lintasan pada
variabel outcome yang akan diamati
jika peserta program tidak menerima program. Bagi anak-anak prasekolah,
misalnya, garis putus-putus menunjukkan bagaimana kesiapan sekolah mereka
meningkat jika mereka tidak mengikuti program prasekolah. Garis solid
menunjukkan bagaimana kesiapan sekolah berkembang saat mereka mengikuti program
ini. Perbandingan kedua jalur tersebut menunjukkan bahwa kesiapan sekolah akan
meningkat bahkan tanpa terpapar program, namun tidak sebanyak itu.
Perbedaan antara level outcome
dicapai dengan partisipasi dalam program dan apa yang dicapai individu yang
sama seandainya mereka tidak berpartisipasi adalah bagian dari perubahan outcome yang dihasilkan program. Hal
terebut merupakan nilai tambah atau keuntungan bersih dari outcome yang tidak akan terjadi tanpa program.
Estimasi dampak program, atau penilaian dampak, adalah
tugas penelitian evaluasi yang paling dituntut. Kesulitan disorot dalam grafik
1, dimana efek program ditunjukkan sebagai perbedaan antara outcome yang benar-benar terjadi dan outcome yang akan terjadi tanpa adanya
program. Secara simultan tidak dimungkinkan mengamati outcome pada orang yang sama (atau entitas lain) dalam kondisi
ketika mereka menerima dan tidak menerima sebuah program. Oleh karena itu, kita
harus mengamati outcome setelah
partisipasi program dan kemudian memperkirakan bagaimana outcome tersebut tanpa program. Karena hasil akhir adalah hipotesis
bagi individu yang menerima program ini, hal itu harus disimpulkan setelah
diukur atau diamati. Mengembangkan kesimpulan yang valid dalam keadaan ini
menjadi tantangan bagi evaluator. Meskipun level outcome dan perubahan outcome
memiliki penggunaan yang sangat terbatas untuk menentukan dampak program, namun
juga bernilai bagi manajer dan sponsor untuk memantau kinerja program.
B. Mengidentifikasi Outcome yang Relevan
Langkah pertama dalam mengembangkan pengukuran outcome program adalah mengidentifikasi
secara khusus outcome apa yang
menjadi kandidat relevan untuk
pengukuran. Untuk melakukan hal ini,
evaluator harus mempertimbangkan perspektif pemangku kepentingan mengenai outcome yang diharapkan, outcome yang ditentukan dalam teori
dampak program, dan penelitian terdahulu yang relevan. Evaluator juga perlu
memberi perhatian pada outcome yang
tidak diinginkan yang mungkin dihasilkan oleh program.
a. Perspektif
Pemangku Kepentingan
Berbagai pemangku kepentingan program memiliki pemahaman
tersendiri tentang apa yang seharusnya dicapai program danoutcome apa yang diharapkan akan terjadi. Sumber informasi langsung
tentang outcome yang diharapkan ini
biasanya adalah tujuan, sasaran, dan misi program yang dinyatakan. Proposal
pendanaan dan hibah atau kontrak untuk layanan dari sponsor luar juga sering
mengidentifikasi outcome yang
diharapkan oleh program tersebut.
Kesulitan yang ditemukan dengan adanya informasi dari
sumbersumber trsebut adalah kurangnya spesifisitas dan kekonkretan yang
diperlukan untuk mengidentifikasi secara jelas ukuran outcome secara spesifik. Dengan demikian evaluator berkewajiban
untuk menerjemahkan masukan dari para pemangku kepentingan ke dalam bentuk yang
dapat dilaksanakan dan bernegosiasi dengan para pemangku kepentingan untuk
memastikan bahwa ukuran outcome yang
dihasilkan sesuai dengan yang diharapkan.
Untuk tujuan evaluator, deskripsi outcome harus menunjukkan karakteristik, perilaku, atau kondisi
yang sesuai yang diharapkan program akan berubah. Namun, spesifikasi dan
diferensiasi lebih lanjut mungkin diperlukan saat evaluator bergerak dari
deskripsi ini untuk memilih atau mengembangkan ukuran outcome ini. Contoh outcome
yang dijelaskan secara spesifik cukup untuk diukur adalah kesiapan sekolah.
Kemampuan anak belajar saat mereka masuk sekolah; khususnya pengembangan
kesehatan dan perkembangan fisik, perkembangan sosial dan emosional, kemampuan
bahasa dan komunikasi, dan keterampilan kognitif dan pengetahuan umum yang
memungkinkan seorang anak memperoleh manfaat dari partisipasi dalam pendidikan
formal.
b. Teori
Dampak Program
Artikulasi penuh teori dampak program, seperti yang
dijelaskan pada Bab 5, sangat berguna untuk mengidentifikasi dan mengatur outcome program. Teori dampak
mengungkapkan outcome program sosial
sebagai bagian dari model logika yang menghubungkan aktivitas program dengan outcome proksimal (langsung) yang pada
gilirannya,diharapkan mengarah pada outcome
lain yang lebih distal. Jika dijelaskan, serangkaian hubungan yang saling
terkait di antara outcome ini
merupakan asumsi program tentang langkah kritis antara layanan program dan
manfaat sosial utama yang ingin dihasilkan program. Oleh karena itu, sangat
penting bagi evaluator untuk memanfaatkan bagian teori program ini ketika
mengidentifikasi outcome yang harus
dipertimbangkan untuk pengukuran.

Gambar 1. Contoh teori dampak program menampilkan dampak program yang
diharapkan pada hasil proksimal dan distal
Contoh di atas menunjukkan beberapa dari bagian model
logika program yang menggambarkan teori dampak. Untuk tujuan penilaian outcome, teori dampak berguna untuk
mengenali karakter yang berbeda dari outcome
yang lebih proksimal dan lebih distal dalam urutan. Hasil proksimal adalah
layanan program yang diharapkan dapat mempengaruhi secara langsung. Hal
tersebut dapat dianggap sebagai outcome
"take away" yang dialami
peserta program sebagai akibat langsung dari partisipasi mereka dan membawanya
pergi. Untuk sebagian besar program sosial, outcome proksimal ini adalah sikap
psikologis, pengetahuan, kesadaran, keterampilan, motivasi, niat perilaku, dan
kondisi lain yang rentan terhadap pengaruh yang relatif langsung oleh proses
dan layanan program.
Outcome proksimal
bukan merupakan outcome akhir dari
program yang ingin dihasilkan, seperti yang dapat dilihat pada contoh di gambar
1. Dalam hal ini, bukan outcome yang
menjadi hal terpenting dari perspektif sosial atau kebijakan, tetapi tidak
boleh diabaikan dalam evaluasi. Outcome
ini adalah program yang memiliki kemampuan terbaik untuk mempengaruhi, sebagai
sumber informatif untuk mengetahui apakah hasil program telah tercapai. Jika
program gagal menghasilkan outcome
secara langsung, dan teori program benar, maka outcome yang lebih distal dalam urutan tidak mungkin terjadi.
Selain itu, outcome proksimal umumnya
paling mudah diukur dan dikaitkan dengan usaha program. Outcome yang lebih distal, yang lebih sulit diukur dan diatributkan
serta dapat menghasilkan outcome yang
ambigu. Outcome tersebut akan lebih
seimbang dan dapat ditafsirkan jika informasi tersedia mengenai apakah outcome proksimal tercapai.
Outcome yang
lebih distal yang biasanya digunakan dalam kepentingan praktis dan politis
terbesar. Oleh karena itu, sangat penting untuk mengidentifikasi dan
menggambarkan hal-hal yang dapat diharapkan dan dihasilkan dari kegiatan
program. Nilai pengembangan teori dampak yang dirancang memberikan dasar untuk
menilai outcome apa yang logis
digunakan sebenarnya.
Umumnya, sebuah program memiliki pengaruh yang tidak
langsung terhadap outcome distal
dalam teori dampaknya. Selain itu, outcome
distal juga dipengaruhi oleh banyak faktor lain diluar kendali program. Keadaan
ini sangat penting untuk menentukan outcome
distal yang diharapkan dengan cara yang selaras semaksimal mungkin dengan aspek
kondisi sosial yang dapat mempengaruhi aktivitas program. Misalnya program les
untuk anak-anak sekolah dasar yang berfokus terutama pada membaca, dengan
maksud untuk meningkatkan prestasi belajar. Hasil pencapaian pendidikan yang
ditetapkan untuk evaluasi program ini harus membedakan antara yang terkait erat
dengan keterampilan membaca dan bidang-bidang tersebut, seperti matematika,
yang cenderung tidak dipengaruhi oleh program yang sebenarnya sedang dilakukan.
c. Penelitian
Awal (Prior Research)
Dalam mengidentifikasi dan menentukan outcome, evaluator harus benar-benar memeriksa
penelitian-penelitian sebelumnya mengenai isu-isu yang berkaitan dengan program
yang sedang dievaluasi, terutama penelitian evaluasi mengenai program serupa.
Mempelajari outcome mana yang telah
diteliti dalam penelitian lain dapat menjadi perhatian pada outcome yang relevan. Hal tersebut juga
akan berguna untuk menentukan bagaimana berbagai outcome telah didefinisikan dan diukur dalam penelitian
sebelumnya.
d. Hasil
yang tidak disengaja (Unintended Outcomes)
Pertimbangan bagaimana mengidentifikasi dan menentukan outcome yang diharapkan oleh para
pemangku kepentingan untuk diproduksi dan program yang terbukti dalam teori
dampak program. Tetapi kemungkinan terdapat outcome
program yang tidak diinginkan dan tidak diharapkan. Outcome ini mungkin positif atau negatif, namun karakter khasnya
adalah bahwa hal itu muncul melalui beberapa proses yang bukan merupakan bagian
dari rancangan program dan maksud langsungnya. Fitur itu, tentunya membuat outcome yang tidak diharapkan sangat
sulit diantisipasi. Oleh karena itu, evaluator harus sering melakukan upaya
khusus untuk mengidentifikasi hasil potensial yang tidak diharapkan yang dapat
menjadi signifikan untuk menilai dampak program terhadap kondisi sosial yang
dialaminya.
Penelitian sebelumnya seringkali sangat berguna untuk
menangani masalah ini. Mungkin terdapat outcome
yang ditemukan peneliti lain dalam situasi serupa yang dapat mengingatkan
evaluator terhadap kemungkinan dampak program yang tidak diantisipasi. Dalam
hal ini, bukan hanya penelitian evaluasi lain yang relevan namun juga
penelitian mengenai dinamika kondisi sosial dimana program tersebut ikut campur
tangan didalamnya.
Seringkali, informasi yang penting tentang kemungkinan outcome yang tidak diharapkan dapat
ditemukan dalam laporan langsung orangorang yang berada dalam posisi untuk
mengamati outcome tersebut. Untuk
itu, penting bagi evaluator memiliki hubungan yang substansial dengan personil
program di semua tingkat, peserta program, dan informan kunci lainnya yang
memiliki perspektif mengenai program dan pengaruhnya. Jika outcome yang tidak diinginkan sama sekali konsekuensial, harus ada
seseorang di sistem yang menyadarinya dan dapat mengingatkan evaluator terkait
kendala tersebut. Personel yang terlibat ini mungkin tidak menyajikan informasi
dalam bahasa outcome yang tidak
diinginkan, namun uraian mereka tentang apa yang mereka lihat dan alami dalam
kaitannya dengan program akan dapat ditafsirkan jika evaluator hati-hati
terhadap adanya kemungkinan dampak program yang tidak diartikulasikan dalam
logika program atau yang dimaksudkan oleh pemangku kepentingan inti.
C. Pengukuran Outcome Program
Setelah dilakukan pemilahan dan telah ditentukan outcome program, langkah selanjutnya
yaitu mengukur outcome program
tersebut. Pengukuran outcome adalah
penyajian keadaan yang ditetapkan sebagai outcome
dengan menggunakan indikator yang dapat diamati variasinya secara sistematis
dengan perubahan pada kondisi tersebut. Sebagai contoh kecil, pengukuran dampak
program K3 di suatu industri. Dilakukan pengamatan penggunaan kacamata oleh
para pekerja di tempat kerja. Pengamatan dapat dilakukan melihat dengan apakah
semua pekerja menggunakan kacamata, dan pengamatan lainnya dengan secara
periodik mengamati frekuensi penggunaan kacamata oleh para pekerja.
Banyak outcome
program yang penting, tidak sesederhana contoh kasus program K3 oleh pekerja
tersebut. Untuk sepenuhnya mewakili sebuah outcome,
perlu untuk memandangnya sebagai multidimensi dan membedakan banyak aspek
darinya yang relevan dengan efek yang ingin dihasilkan oleh program ini.
Sebagian besar outcome bersifat
multidimensional. Artinya bahwa dampak tersebut memiliki berbagai aspek atau
komponen yang mungkin perlu dipertimbangkan evaluator. Evaluator umumnya harus
memikirkan outcome seefisien mungkin
untuk memastikan bahwa tidak ada dimensi penting yang diabaikan. Ini tidak
berarti bahwa semua harus mendapat perhatian yang sama atau bahkan semua harus
disertakan dalam cakupan ukuran hasil yang dipilih. Intinya adalah, evaluator
harus mempertimbangkan keseluruhan dimensi yang berpotensi relevan sebelum menentukan
ukuran akhir yang akan digunakan.
Salah satu implikasi dari beberapa dimensi outcome program adalah bahwa pengukuran outcome tunggal mungkin tidak cukup
untuk mewakili karakter penuh mereka. Dalam kasus pelanggaran kenakalan remaja
misalnya, evaluasi dapat menggunakan pengukuran ukuran frekuensi pelanggaran,
tingkat keparahan, waktu untuk pelanggaran pertama setelah intervensi, dan
jenis pelanggaran sebagai serangkaian tindakan hasil yang akan berusaha untuk
sepenuhnya mewakili hasil ini. Memang, pengukuran berulang pada program penting
membantu evaluator menjaga hilangnya pencapaian program penting karena strategi
pengukuran sempit yang menyisakan dimensi outcome
yang relevan.
Pengukuran diversifikasi juga dapat menghindarkan evaluator
outcome kemungkinan tindakan yang
berkinerja buruk yang akan menghasilkan dampak yang kurang tepat dan tidak
mengukur aspek outcome yang paling
banyak dipengaruhi program, membuat program ini terlihat kurang efektif
daripada sebenarnya. Untuk outcome
yang bergantung pada pengamatan, misalnya, menggunakan lebih dari satu pengamat
berguna untuk menghindari bias. Misalnya, seorang evaluator yang menilai
perilaku agresif anak-anak dengan teman sebayanya mungkin juga perlu melakukan
observasi pada orang tua, pengamatan guru, dan orang-orang dari orang lain
dalam posisi untuk melihat sebagian besar perilaku anak tersebut. Contoh
beberapa tindakan disajikan dalam tabel berikut.
Tabel 1. Pengukuran Ganda
pada Outcome
Intervensi
masyarakat untuk mencegah penggunaan tembakau remaja di Oregon mencakup
aktivitas anti-tembakau remaja (mis., Hadiah poster dan kaus) dan kegiatan
komunikasi keluarga (mis., Pamflet kepada orang tua). Dalam penilaian outcome, hasil diukur dengan berbagai
cara:
|
Hasil untuk pemuda
• Sikap
terhadap penggunaan tembakau
• Pengetahuan
tentang tembakau
• Laporan
percakapan tentang tembakau dengan orang tua
• Menilai
niat untuk merokok atau mengunyah tembakau
• Apakah
merokok atau mengunyah tembakau di bulan lalu dan, kalau begitu, berapa
banyakkah
|
Hasil untuk orang tua
• Pengetahuan
tentang tembakau
• Sikap
terhadap pencegahan penggunaan tembakau oleh masyarakat
• Sikap
terhadap penggunaan tembakau
• Niat
untuk berbicara dengan anak-anak tentang tidak menggunakan tembakau
• Laporan
pembicaraan dengan anak-anak mereka tentang tidak menggunakan tembakau
|
SUMBER : Diadaptasi dari A. Biglan, D. Ary, H. Yudelson, T. E. Duncan, D.
Hood, L.James, V. Koehn, Z. Wright, C. Black, D. Levings, S. Smith, dan E.
Gaiser,"Evaluasi Eksperimental Pendekatan Modular untuk Memobilisasi
Antitobacco Pengaruh Peer and Parents," American Journal of Community
Psychology, 1996, 24 (3): 311-339.
Pengukuran ganda terhadap outcome penting dapat memberikan cakupan konsep yang lebih luas dan
memungkinkan penguatan terhadap satu pengukuran untuk mengimbangi kelemahan
pengukuran lainnya. Mungkin juga secara statistik menggabungkan beberapa
pengukuran menjadi ukuran komposit tunggal yang lebih kuat dan valid yang lebih
baik daripada pengukuran individual yang diambil sendiri. Dalam sebuah program
untuk mengurangi kesuburan keluarga misalnya, perubahan ukuran keluarga yang
diinginkan, penerapan praktik kontrasepsi, dan jumlah anak yang diinginkan
rata-rata mungkin diukur dan digunakan dalam kombinasi untuk menilai outcome program. Bahkan ketika tindakan
harus dibatasi pada jumlah yang lebih kecil daripada cakupan komprehensif
mungkin diperlukan, sangat berguna bagi evaluator untuk menguraikan semua
dimensi dan variasi agar dapat membuat pilihan yang bijaksana dari alternatif
yang layak.
1. Prosedur Pengukuran
dan Karakteristik Pengukuran
Data outcome
program pada umumnya didapatkan menggunakan alat pengukuran seperti pengamatan,
rekaman, tanggapan terhadap wawancara dan kuesioner, tes standar, alat ukur
fisik, dan sejenisnya. Informasi dari sumber tersebut menjadi pengukuran saat
dioperasionalkan, yaitu dihasilkan melalui serangkaian operasi atau prosedur
yang spesifik dan sistematis. Pengukuran berbagai variabel hasil dalam evaluasi
menggunakan prosedur dan instrumen yang telah ditetapkan dan diterima untuk
tujuan tersebut di masing-masing bidang program. Hal ini berlaku untuk hasil
yang lebih distal dan relevan dengan kebijakan. Dalam perawatan kesehatan
misalnya, tingkat kesakitan, kematian dan kejadian penyakit atau masalah
kesehatan diukur dengan cara yang relatif standar yang berbeda terutama menurut
sifat masalah kesehatan yang dipermasalahkan. Kinerja akademik diukur secara konvensional
dengan tes prestasi standar dan rata-rata nilai. Pekerjaan dan status pekerjaan
biasanya dinilai dengan menggunakan tindakan yang dikembangkan oleh Biro
Sensus.
Untuk outcome
lain, berbagai instrumen pengukuran atau prosedur siap pakai mungkin tersedia,
namun dengan sedikit konsensus tentang mana yang paling tepat untuk tujuan
evaluasi. Hal ini terutama berlaku untuk outcome
psikologis seperti depresi, harga diri, sikap, kemampuan kognitif, dan
kecemasan. Dalam situasi ini, tugas evaluator umumnya membuat pilihan yang
tepat dari pilihan yang ada. Pertimbangan praktis, seperti bagaimana instrumen
diberikan dan berapa lama waktu yang dibutuhkan, harus dipertimbangkan dalam
keputusan ini. Pertimbangan yang paling penting adalah seberapa baik ukuran siap
pakai sesuai dengan apa yang ingin diukur evaluator. Dengan memiliki deskripsi
yang cermat tentang outcome yang akan
diukur, akan sangat membantu dalam membuat keputusan ini. Ini juga akan
membantu jika evaluator telah membedakan dimensi berbeda dari outcome yang relevan.
Bila instrumen pengukuran siap pakai digunakan, sangat
penting untuk memastikan bahwa produk tersebut sesuai untuk mewakili outcome penting. Mengukur tidak harus
tepat hanya karena nama instrument atau label yang diberikan untuk konstruksi
itu ukurannya mirip dengan label yang diberikan outcome yang diminati. Instrumen pengukuran yang berbeda untuk
konstruksi "sama" (mis., Harga diri, sikap lingkungan) seringkali
memiliki konten dan orientasi teoritis yang berbeda, yang memberi mereka
karakter yang mungkin atau mungkin tidak sesuai dengan outcome program yang diminati begitu hasil tersebut dijelaskan
dengan cermat.
Bagi beberapa outcome
penting untuk evaluator, tidak ada ukuran yang mapan atau serangkaian tindakan
siap pakai yang dapat dipilih. Dalam kasus ini, evaluator harus mengembangkan
ukurannya. Sayangnya tidak tersedianya waktu dan sumber daya yang mencukupi
untuk melakukan ini dengan benar. Beberapa prosedur pengukuran khusus, seperti
mengekstraksi informasi spesifik yang relevan dari catatan resmi dengan
kualitas yang diketahui, cukup mudah untuk memenuhi syarat sebagai praktik
pengukuran yang dapat diterima tanpa demonstrasi lebih lanjut. Prosedur
pengukuran lainnya, seperti kuesioner, skala sikap, tes pengetahuan, dan skema
pengkodean observasional yang sistematis, tidak begitu mudah. Dengan membangun
ukuran tersebut mereka mengukur apa yang seharusnya mereka lakukan secara
konsisten seringkali tidak mudah. Oleh karena itu, terdapat prosedur
pengembangan pengukuran yang terdefinisi untuk dilakukan sehingga melibatkan
sejumlah pertimbangan teknis dan pada umumnya memerlukan sejumlah besar
pengujian, analisis, revisi, dan validasi uji coba sebelum ukuran yang baru
dikembangkan dapat digunakan dengan percaya diri. Ketika seorang evaluator
harus mengembangkan sebuah ukuran tanpa melalui langkah-langkah dan pengecekan
ini, ukuran yang dihasilkan mungkin masuk akal di permukaan namun tidak akan
berjalan dengan baik untuk tujuan menilai secara akurat outcome program.
Bila tindakan khusus harus dikembangkan untuk evaluasi
tanpa adanya kesempatan pengembangan tersebut dilakukan secara sistematis dan
teknis, sangat penting agar properti pengukuran dasar diperiksa sebelum diberi
bobot pada mereka dalam sebuah evaluasi. Memang, bahkan dalam kasus tindakan
siap pakai dan prosedur yang diterima untuk menilai outcome tertentu untuk memastikan bahwa tindakan masing-masing
berjalan dengan baik untuk situasi spesifik yang akan diterapkan. Terdapat tiga
sifat pengukuran yang menjadi perhatian khusus yaitu reliabilitas, validitas,
dan sensitivitas.
a. Reliabilitas
(Keandalan)
Keandalan suatu ukuran adalah sejauh mana ukuran tersebut
menghasilkan outcome yang sama bila
digunakan berulang kali untuk mengukur hal yang sama. Variasi outcome tersebut merupakan kesalahan
pengukuran. Jadi misalnya skala pos dapat diandalkan sejauh melaporkan
"skor" (berat) yang sama untuk amplop yang sama pada kesempatan yang
berbeda. Tidak ada alat ukur, skema klasifikasi, atau prosedur penghitungan yang
sangat dapat diandalkan, namun berbagai jenis ukuran memiliki masalah keandalan
pada tingkat yang berbeda-beda. Pengukuran karakteristik fisik dimana alat ukur
standar tersedia, seperti tinggi dan berat, umumnya akan lebih konsisten
daripada pengukuran karakteristik psikologis, seperti kecerdasan yang diukur
dengan tes IQ. Ukuran kinerja, seperti tes IQ standar, pada gilirannya,
ternyata lebih dapat diandalkan daripada pengukuran mengandalkan recall,
seperti laporan pengeluaran rumah tangga untuk barang konsumsi. Bagi evaluator,
sumber utama yang tidak dapat diandalkan terletak pada sifat instrumen
pengukuran yang didasarkan pada tanggapan peserta terhadap pertanyaan tertulis
atau lisan yang diajukan oleh peneliti. Perbedaan dalam pengujian atau
pengukuran situasi, perbedaan pengamat atau pewawancara dalam administrasi
pengukuran, dan bahkan perubahan mood responden berkontribusi terhadap
ketidakandalan.
Efek tidak dapat diandalkan dalam tindakan adalah untuk
mencairkan dan mengaburkan perbedaan nyata. Intervensi yang benarbenar efektif,
hasilnya dinilai tidak efektif, tampaknya kurang efektif daripada sebenarnya.
Cara paling mudah bagi evaluator untuk memeriksa reliabilitas ukuran kandidat outcome adalah dengan memberikannya
setidaknya dua kali dalam keadaan ketika outcome
yang diukur tidak berubah antara administrasi ukuran. Secara teknikal, indeks
konvensional dari reliabilitas pengujian ulang tes ini adalah statistik yang
dikenal sebagai korelasi product moment antara dua set skor, yang bervariasi
antara 0,00 dan 1,00. Namun, untuk banyak hasil pemeriksaan ini sulit dilakukan
karena hasilnya mungkin akan berubah antara aplikasi pengukuran yang jaraknya
tidak terlalu dekat. Misalnya, item kuesioner yang menanyakan kepada siswa
seberapa baik mereka menyukai sekolah dapat dijawab berbeda sebulan kemudian,
bukan karena pengukurannya tidak dapat diandalkan, tetapi karena peristiwa
intervensi telah membuat siswa merasa berbeda tentang sekolah. Bila mengukur
melibatkan tanggapan dari orang-orang, di sisi lain, tindakan jarak jauh
terkontaminasi karena responden mengingat tanggapan sebelumnya daripada
memberikannya kembali. Bila pengukuran tidak dapat diulang sebelum hasilnya
dapat berubah, reliabilitas biasanya diperiksa dengan memeriksa konsistensi di
antara item serupa dalam ukuran multi item yang diberikan pada saat bersamaan
(disebut sebagai reliabilitas konsistensi internal). Untuk banyak tindakan siap
pakai yang digunakan evaluator, informasi keandalan sudah tersedia dari
penelitian lain atau dari laporan perkembangan awal pengukuran. Kehandalan
dapat bervariasi sesuai dengan sampel responden dan keadaan pengukuran,
bagaimanapun, jadi tidak selalu aman untuk mengasumsikan bahwa ukuran yang
telah terbukti dapat diandalkan dalam aplikasi lain akan dapat diandalkan bila
digunakan dalam evaluasi.
Tidak ada aturan baku tentang tingkat reliabilitas yang
dapat diterima. Sejauh mana kesalahan pengukuran dapat mengaburkan outcome program yang berarti sangat
bergantung pada besarnya hasil tersebut. Sebagai aturan praktis, para peneliti
pada umumnya menggunakan ukuran dengan koefisien reliabilitas 0,90 atau di
atas, rentang yang menjaga kesalahan pengukuran relatif kecil terhadap semua
namun hasil yang paling kecil. Untuk banyak ukuran outcome yang diterapkan dalam situasi karakteristik evaluasi
program, standar ini relatif tinggi. b. Validitas (Keabsahan)
Masalah validitas pengukuran lebih sulit daripada masalah
reliabilitas. Validitas ukuran adalah sejauh mana tindakan mengukur ukurannya.
Misalnya, catatan penangkapan remaja memberikan ukuran kenakalan yang valid
hanya sejauh mereka secara akurat mencerminkan berapa banyak remaja yang
terlibat dalam pelanggaran yang dikenakan biaya. Sejauh mereka juga
mencerminkan praktik penangkapan polisi, tindakan tersebut tidak valid terhadap
perilaku nakal remaja yang ditangkap. Meskipun konsep validitas dan
kepentingannya mudah dipahami, biasanya sulit untuk menguji apakah ukuran
tertentu sesuai dengan karakteristik minat. Dengan ukuran outcome yang digunakan untuk evaluasi, validitas ternyata sangat
bergantung pada apakah ukuran diterima sesuai dengan pemangku kepentingan yang
sesuai. Mengkonfirmasi bahwa ini mewakili outcome
yang dimaksudkan oleh program bila outcome
tersebut dijelaskan secara lengkap dan hati-hati dapat memberikan beberapa
kepastian validitas untuk tujuan evaluasi.
Demonstrasi empiris tentang validitas suatu tindakan
bergantung pada beberapa perbandingan yang menunjukkan bahwa ukuran tersebut
menghasilkan outcome yang diharapkan
jika memang benar. Misalnya, ketika ukuran diterapkan bersamaan dengan ukuran
alternatif dari hasil yang sama, seperti yang digunakan oleh evaluator lain,
hasilnya kira-kira sama. Demikian pula, ketika ukuran diterapkan pada situasi
yang dikenali berbeda pada hasil yang dipermasalahkan, hasilnya harus berbeda.
Dengan demikian, ukuran sikap lingkungan harus secara tajam membedakan anggota
Sierra Club setempat dari anggota asosiasi sepeda motor offroad. Validitas juga
ditunjukkan dengan menunjukkan bahwa outcome
pada pengukuran berhubungan dengan atau "memprediksi" karakteristik
lain yang diharapkan terkait dengan hasilnya. Misalnya, ukuran sikap lingkungan
harus dikaitkan dengan bagaimana tanggapan responden terhadap kandidat politik
dengan posisi yang berbeda mengenai masalah lingkungan.
c. Sensitivitas
(Kepekaan)
Fungsi utama dari ukuran outcome adalah untuk mendeteksi perubahan atau perbedaan outcome yang mewakili efek program.
Untuk mencapai hal ini dengan baik, ukuran outcome
harus peka terhadap efek tersebut. Sensitivitas suatu ukuran adalah sejauh mana
nilai pada ukuran berubah saat ada perubahan atau perbedaan dalam hal yang
diukur. Misalnya kita mengukur berat badan sebagai outcome untuk program penurunan berat badan. Skala yang dikalibrasi
halus dari jenis yang digunakan di kantor dokter mungkin mengukur berat badan
dalam beberapa ons dan, dengan demikian, dapat mendeteksi penurunan berat badan
dalam rentang tersebut. Sebaliknya, timbangan yang digunakan untuk menimbang
truk di jalan raya antarnegara juga merupakan ukuran berat yang valid dan dapat
diandalkan, namun tidak sensitif terhadap perbedaan yang lebih kecil dari
beberapa ratus pound. Skala yang tidak sensitif terhadap fluktuasi berarti
dalam bobot pelaku diet dalam program penurunan berat badan akan menjadi
pilihan yang buruk untuk mengukur outcome
tersebut.
Ada dua cara utama di mana jenis ukuran outcome yang sering digunakan dalam
evaluasi program dapat menjadi tidak sensitif terhadap perubahan atau perbedaan
besaran yang mungkin dihasilkan oleh program. Pertama, ukuran itu mungkin mencakup
unsur-unsur yang berhubungan dengan sesuatu selain dari apa yang diharapkan
program ini dapat berubah. Ini mencairkan konsentrasi unsur yang responsif dan
membungkam respons keseluruhan dari ukuran. Hal yang perlu dipertimbangkan
misalnya sebuah program les matematika untuk anak-anak sekolah dasar yang
berkonsentrasi pada pecahan dan masalah pembagian yang panjang untuk sebagian
besar tahun ajaran. Evaluator mungkin memilih tes prestasi matematika off-the-shelf sebagai ukuran hasil yang
masuk akal. Tes semacam itu, akan mencakup item yang mencakup masalah
matematika yang lebih luas daripada pecahan dan pembagian panjang. Keuntungan
besar yang dimiliki anak-anak di area akhir ini mungkin dikaburkan oleh item
pada topik lain yang dirata-ratakan ke skor akhir. Ukuran yang lebih sensitif,
jelas, akan menjadi topik yang hanya membahas topik matematika yang benar-benar
diajarkan oleh program.
Kedua, ukuran outcome
mungkin tidak peka terhadap jenis perubahan atau perbedaan yang disebabkan oleh
program ketika mereka dikembangkan sebagian besar untuk tujuan diagnostik,
yaitu untuk mendeteksi perbedaan individual. Tujuan dari pengukuran ini adalah
untuk menyebarkan skor dengan cara yang membedakan individu yang memiliki
karakteristik kurang dari karakteristik yang diukur. Sebagian besar ukuran
psikologis terstandardisasi seperti ini, termasuk ukuran kepribadian, ukuran
gejala klinis (depresi, kecemasan, dll.), ukuran kemampuan kognitif, dan skala
sikap. Langkah-langkah ini umumnya baik untuk menentukan siapa yang tinggi atau
rendah pada karakteristik yang diukur, dan dengan demikian sangat membantu
untuk menilai kebutuhan atau tingkat keparahan masalah. Namun, bila diterapkan
pada sekelompok individu yang berbeda secara luas pada karakteristik terukur
sebelum berpartisipasi dalam sebuah program, mereka dapat menghasilkan variasi
skor yang begitu beragam setelah partisipasi bahwa peningkatan perbaikan yang
dialami setiap individu akan hilang di tengah perbedaan antara individu. Dari
sudut pandang pengukuran, perbedaan individu yang mengukur respons ini dengan
baik merupakan suara yang tidak relevan untuk mendeteksi perbedaan perubahan
atau kelompok dan cenderung mengaburkan efek tersebut.
Cara terbaik untuk menentukan apakah ukuran kandidat outcome cukup sensitif untuk digunakan
dalam evaluasi adalah untuk menemukan penelitian yang berhasil digunakan untuk
mendeteksi perubahan atau perbedaan pada urutan besarnya yang diharapkan
evaluator dari program yang sedang dievaluasi. Bukti paling jelas berasal dari
evaluasi program serupa dimana perubahan atau perbedaan signifikan ditemukan
dengan menggunakan ukuran outcome.
Menilai bukti ini juga harus mempertimbangkan ukuran sampel dari studi evaluasi
sebelumnya, karena ukuran sampel mempengaruhi kemampuan untuk mendeteksi efek.
Pendekatan analog untuk menyelidiki sensitivitas ukuran outcome adalah menerapkannya pada
kelompok yang diketahui perbedaannya, atau situasi perubahan yang diketahui,
dan menentukan seberapa responsifnya. Perhatikan contoh program les matematika
yang telah disebutkan sebelumnya. Evaluator mungkin ingin mengetahui apakah tes
prestasi matematika standar yang diberikan oleh sistem sekolah setiap tahun
akan cukup sensitif untuk digunakan sebagai ukuran outcome. Tetapi masih diragukan mengingat les hanya berfokus pada
beberapa topik matematika, sementara tes pencapaian mencakup rentang yang luas.
Untuk memeriksa sensitivitas sebelum menggunakan tes ini untuk mengevaluasi
program, evaluator pertama-tama dapat memberikan tes ke ruang kelas anak-anak
sebelum dan sesudah mereka mempelajari pecahan dan pembagian panjang. Jika tes
tersebut terbukti cukup sensitif untuk mendeteksi perubahan selama periode
ketika hanya topik-topik yang diajarkan, namun tes ini memberikan kepastian
bahwa hal itu akan responsif terhadap efek program les matematika saat
digunakan dalam evaluasi.
2. Pilihan Pengukuran Outcome
Memilih langkah terbaik untuk menilai outcome adalah masalah pengukuran kritis dalam evaluasi (Rossi,
1997). Kami merekomendasikan agar evaluator menginvestasikan waktu dan sumber
daya yang diperlukan untuk mengembangkan dan menguji ukuran outcome yang sesuai (Bukti 7-F
memberikan contoh instruktif). Ukuran outcome
yang dikonsep oleh konsepsi yang kurang baik mungkin tidak mewakili tujuan dan
sasaran program dengan tepat untuk dievaluasi, yang mengarah ke pertanyaan
tentang keabsahan ukurannya. Ukuran outcome
yang tidak dapat diandalkan atau kurang memadai kemungkinan keefektifan program
diragukan dan dapat menyebabkan kesimpulan yang salah mengenai dampak program.
Singkatnya, ukuran yang dipilih dengan buruk atau kurang dipahami benar-benar
dapat melemahkan nilai penilaian outcome
dengan menghasilkan perkiraan yang menyesatkan. Hanya jika ukuran hasil yang
valid, dapat diandalkan, dan tepat sensitif dapat mempengaruhi perkiraan
dianggap dapat dipercaya.
D. Monitoring/Pemantauan
Outcome Program
Dengan prosedur pengukuran yang memadai untuk mendapatkan outcome program yang signifikan,
berbagai pendekatan untuk mempelajari sesuatu tentang hasil tersebut dapat
dilakukan oleh evaluator atau manajer program. Pendekatan yang paling sederhana
adalah pemantauan/monitoring outcome,
pemantauan digunakan sebagai pengukuran
dan pelaporan indikator indikator status kondisi sosial yang berkesinambungan
agar program dapat dipertanggungjawabkan. Hal ini serupa dengan pemantauan
program, dengan perbedaan bahwa informasi yang dikumpulkan secara teratur dan
ditinjau berkaitan dengan outcome
program tidak hanya pada proses dan kinerja program. Pemantauan outcome untuk program pelatihan kerja,
misalnya, mungkin melibatkan peserta yang menelepon secara rutin enam bulan
setelah menyelesaikan program untuk menanyakan apakah mereka dipekerjakan dan,
jika demikian, pekerjaan apa yang mereka miliki dan upah apa yang harus dibayar
mereka. Diskusi terperinci mengenai pemantauan outcome dapat ditemukan di Affholter (1994) dan Hatry (1999).
Pemantauan outcome
mensyaratkan bahwa indikator diidentifikasi untuk outcome program penting yang praktis dikumpulkan secara rutin dan
informatif mengenai keefektifan program. Kebutuhan yang terakhir sangat sulit.
Pengukuran outcome sederhana hanya
memberikan informasi tentang status atau tingkat hasilnya, seperti jumlah
anak-anak dalam kemiskinan, prevalensi penyalahgunaan obat terlarang, tingkat
pengangguran, atau kemampuan membaca siswa sekolah dasar. Kesulitannya adalah
mengidentifikasi perubahan dalam status itu dan menghubungkan perubahan itu
secara khusus dengan upaya program untuk menilai efek atau dampak program.
Kesulitan ini biasanya berpengaruh pada kondisi sosial yang
tidak berada di bawah kendali program. Dengan demikian, tingkat kemiskinan,
penggunaan narkoba, pengangguran, nilai membaca, dan sebagainya dapat berubah
karena sejumlah alasan yang berkaitan dengan ekonomi, tren sosial, dan dampak
dari program dan kebijakan lainnya. Dalam keadaan seperti ini, menemukan
indikator outcome yang melakukan
pekerjaan yang masuk akal untuk mengisolasi outcome
yang berkaitan dengan program yang dimaksud bukanlah masalah yang mudah.
Semua yang mengatakan hasil pemantauan memberikan informasi
yang berguna dan relatif murah tentang efek program, biasanya dalam jangka
waktu yang wajar. Sedangkan penilaian dampak mungkin memakan waktu
bertahun-tahun untuk diselesaikan, hasil pemantauan outcome mungkin dapat dilihat dalam beberapa bulan. Selanjutnya,
penilaian dampak biasanya memerlukan pengeluaran yang besarnya lebih besar
daripada yang dibutuhkan untuk sistem pemantauan outcome. Karena keterbatasannya, pemantauan outcome terutama merupakan teknik untuk menghasilkan umpan balik
untuk membantu manajer program mengelola dan memperbaiki program mereka dengan
lebih baik, tidak hanya untuk menilai dampak program terhadap kondisi sosial
yang dimaksudkan untuk mendapatkan keuntungan. Skema pemantauan yang baik juga
mencakup indikator tingkat kekompleks-an masalah awal, keterpaparan terhadap
pengaruh penting lainnya, dan faktor relevan lainnya. Sementara tidak memiliki
penilaian dampak formal, interpretasi yang masuk akal dan perbandingan pola
indikator tersebut dan, terutama, dari tren indikator tersebut sebagai program
yang berusaha memperbaiki keefektifannya, dapat memberikan indikasi yang
berguna mengenai efektivitas program.
1.
Indikator untuk Pemantauan Outcome
Indikator yang akan digunakan untuk pemantauan outcome harus responsif terhadap efek
program. Misalnya, indikator outcome
harus diukur hanya pada anggota populasi sasaran yang benar-benar menerima layanan
program. Ini berarti bahwa indikator sosial yang tersedia untuk area geografis
yang dilayani oleh program ini, seperti saluran sensus, kode pos, atau
kotamadya, bukanlah pilihan yang baik untuk pemantauan outcome jika mencakup jumlah orang yang tidak benar-benar dilayani
oleh program tersebut.
Indikator outcome
yang paling mudah ditafsirkan dan tidak ada evaluasi dampak adalah variabel
yang melibatkan variabel yang hanya dapat mempengaruhi tingkat keberhasilan
apapun. Bila variabel-variabel ini juga mewakili outcome yang penting bagi misi program, mereka membuat sebuah
sistem pemantauan outcome yang sangat
informatif.
Indikator outcome
yang paling mudah untuk dihubungkan langsung dengan tindakan program adalah
kepuasan klien, semakin sering disebut kepuasan pelanggan bahkan dalam program
layanan manusia. Penilaian langsung oleh penerima manfaat yang mereka percaya
bahwa program yang diberikan kepada mereka merupakan salah satu bentuk
penilaian outcome. Informasi yang
lebih penting berasal dari laporan peserta tentang apakah manfaat yang sangat
spesifik dihasilkan dari layanan yang diberikan oleh program ini. Keterbatasan
indikator tersebut adalah peserta program mungkin tidak selalu berada dalam
posisi untuk mengenali atau mengetahui manfaat program, seperti dalam kasus
pecandu narkoba yang didorong untuk menggunakan jarum suntik steril. Sebagai
alternatif, peserta mungkin dapat melaporkan manfaat namun enggan tampil kritis
dan dengan demikian mengalahkan mereka.
2.
Kesalahan dalam Pemantauan Dampak
Karena sifat dinamis dari kondisi sosial yang biasanya
diusahakan oleh program tipikal, keterbatasan indikator outcome, dan tekanan pada lembaga program, ada banyak kendala yang
terkait dengan pemantauan outcome
program. Dengan demikian, indikator outcome
dapat menjadi sumber informasi bagi pengambil keputusan program.
Salah satu pertimbangan penting adalah setiap indikator outcome dimana penyandang dana program
atau pengambil keputusan berpengaruh lainnya juga mendapat perhatian serius
dari staf program dan manajer. Jika indikator outcome tidak sesuai atau gagal untuk mencakup semua outcome penting, upaya untuk memperbaiki
kinerja yang dicerminkan dapat merusak aktivitas program. Affholter (1994)
menggambarkan situasi di mana sebuah negara menggunakan jumlah rumah asuh baru
yang dilisensikan sebagai indikator peningkatan penempatan untuk anak-anak
dengan banyak masalah. Pekerja menanggapi dengan perekrutan dan perizinan rumah
baru dengan kuat walaupun orang tua asuh tidak memiliki keterampilan yang
dibutuhkan untuk bekerja dengan anak-anak ini. Akibatnya, indikator terus
bergerak ke atas, namun penempatan sebenarnya anak-anak di rumah asuh yang
tepat tidak membaik. Di bidang pendidikan, respons ini disebut "pengajaran
untuk tes." Indikator outcome
yang baik, sebaliknya, harus "menguji pengajaran."
Masalah yang terkait adalah "indikator
korupibilitas." Ini mengacu pada kecenderungan alami bagi mereka yang
kinerjanya dievaluasi untuk memfilter dan memberi indikator bila memungkinkan
untuk membuat penampilan mereka terlihat lebih baik daripada sebelumnya.
Potensi masalah lain ada kaitannya dengan interpretasi hasil pada indikator outcome. Dengan berbagai faktor selain
kinerja program yang dapat mempengaruhi indikator tersebut, interpretasi yang
dibuat dari konteks dapat menyesatkan dan, walaupun dengan konteks yang tepat,
hal itu dapat menjadi sulit. Untuk memberikan konteks penafsiran yang sesuai,
indikator outcome umumnya harus
disertai dengan informasi lain yang memberikan dasar yang relevan untuk
perbandingan atau penjelasan hasil yang ditemukan pada indikator tersebut.
E. Menafsirkan Data Outcome
Data outcome yang dikumpulkan sebagai bagian dari pemantauan outcome rutin sangat sulit untuk
ditafsirkan jika tidak disertai informasi tentang perubahan dalam campuran
klien, tren demografi dan ekonomi yang relevan, dan sejenisnya. Data outcome biasanya lebih mudah ditafsirkan
bila disertai informasi tentang proses program dan pemanfaatan layanan. Tidak
adil apabila membentuk penilaian negatif terhadap satu unit program yang lebih
rendah pada indikator outcome
daripada unit program lainnya tanpa mempertimbangkan apakah kasus tersebut
ditangani dengan kasus yang lebih sulit.
Penting juga untuk interpretasi data
pemantauan outcome adalah
pengembangan kerangka kerja yang memberikan beberapa standar untuk menilai apa
yang merupakan outcome yang lebih
baik atau lebih buruk dalam keterbatasan data yang harus dibuat penghakiman ini.
Salah satu kerangka kerja yang berguna, jika berlaku, adalah perbandingan
status hasil dengan status preprogram pada ukuran hasil untuk mengungkapkan
jumlah perubahan yang telah terjadi. Salah satu pendekatan terhadap indikator
has outcome il adalah untuk
menentukan "ambang sukses" bagi peserta program dan melaporkan berapa
banyak yang bergerak dari bawah ambang di atas setelah menerima layanan.
Perbandingan pra-pos (sebelum dan
sesudah) yang sederhana seperti ini tidak perlu menjadi bagian dari pemantauan outcome rutin. Hal itu juga bisa
dilakukan oleh evaluator sebagai bagian dari hasil penilaian. Kelemahan utama
dari desain ini adalah bahwa perbedaan antara ukuran sebelum dan sesudah tidak
dapat dipercaya dianggap berasal dari efek program karena proses lain yang
bekerja pada periode intervensi dapat mempengaruhi perbedaan pra-pos.
Tren lain juga bisa mempengaruhi
perubahan pasca-posting. Secara umum, perbandingan pra-pos dapat memberikan
umpan balik yang berguna kepada administrator program sebagai bagian dari
pemantauan outcome, namun biasanya
tidak memberikan temuan yang dapat dipercaya tentang efek program. Pengecualian
yang jarang terjadi adalah ketika hampir tidak ada kejadian atau tren yang
mungkin masuk akal untuk mengetahui perbedaan pra-pos.
Informasi yang dihasilkan dari
pengukuran variabel outcome program,
atau perubahan pada variabel tersebut, umumnya harus diinterpretasikan
berdasarkan penilaian administrator program, pemangku kepentingan, atau ahli
terkait dengan harapan akan kinerja yang baik dan yang buruk. Penilaian ini
paling mudah dilakukan pada tingkat ekstrem ketika hasil lebih positif daripada
yang mungkin terjadi karena alasan yang tidak terkait dengan program, atau
sangat negatif sehingga kegagalan program kecil dapat menjelaskannya.
BAB III KESIMPULAN
Program dirancang untuk mempengaruhi beberapa masalah atau
kebutuhan dengan cara yang positif. Evaluator menilai sejauh mana sebuah
program menghasilkan perbaikan tertentu dengan mengukur outcome, Outcome
merupakan keadaan populasi sasaran atau kondisi sosial yang diharapkan
programnya telah berubah. Outcome
dipengaruhi oleh kejadian dan pengalaman yang independen terhadap suatu
program, perubahan level outcome
tidak dapat ditafsirkan secara langsung sebagai efek program.
Untuk menentukan outcome
program, kita perlu mengidentifikasi outcome
yang relevan dengan sebuah program dengan menggali informasi dari para pemangku
kepentingan, tinjauan dokumen program, dan artikulasi teori dampak yang
terkandung dalam logika program. Evaluator juga harus mempertimbangkan
penelitian sebelumnya yang relevan dan mempertimbangkan kemungkinan outcome yang tidak diinginkan.
Untuk menghasilkan outcome
yang dapat dipercaya, ukuran outcome
harus memenuhi kriteria antara lain reliabel, valid, dan cukup sensitif untuk
mendeteksi perubahan level outcome
dari urutan besarnya yang diharapkan oleh program ini. Selain itu, sering
disarankan untuk menggunakan beberapa ukuran atau variabel outcome untuk mencerminkan outcome
multidimensional dan untuk memperbaiki kemungkinan kelemahan dalam satu atau
beberapa tindakan.
Dengan prosedur pengukuran yang memadai untuk mendapatkan outcome program yang signifikan,
pemantauan/monitoring outcome dapat
menjadi pendekatan yang paling disarankan. Pemantauan digunakan sebagai pengukuran dan pelaporan indikator
indikator status kondisi sosial yang berkesinambungan agar program dapat
dipertanggungjawabkan. Pemantauan outcome
dapat melayani manajer program dan pemangku kepentingan lainnya dengan
memberikan temuan tepat waktu dan relatif murah yang dapat memandu penyesuaian
dan penyempurnaan program. Pemantauan outcome
yang efektif memerlukan pilihan indikator yang cermat serta interpretasi yang
cermat terhadap data yang dihasilkan. Interpretasi ukuran outcome dan perubahan dalam ukuran tersebut sulit dilakukan.
Interpretasi yang bertanggung jawab
memerlukan pertimbangan lingkungan program, kejadian yang terjadi selama sebuah
program, dan perubahan alami yang dialami oleh target waktu. Interpretasi pada
umumnya harus bergantung pada penilaian ahli dari apa yang merupakan kinerja
yang baik.
DAFTAR PUSTAKA
Rossi, Peter H. Freeman, Howard E. and
Lipsey, Mark W. (2004). Evaluation: a
systematic approach - 7th ed. California. Sage Publications, Inc.
0 Response to "MAKALAH EVALUASI PEMBELAJARAN PENGUKURAN DAN MONITORING LUARAN PROGRAM"
Posting Komentar