MAKALAH EVALUASI PEMBELAJARAN PENGUKURAN DAN MONITORING LUARAN PROGRAM


BAB I PENDAHULUAN

A. Latar Belakang

Tujuan akhir dari dilaksanakannya sebuah program tidak hanya mengarah pada program yang berfungsi dengan baik, tetapi program membawa perubahan untuk mempengaruhi beberapa masalah atau kondisi sosial dengan cara yang bermanfaat juga menjadi hal penting yang harus dipertimbangkan dengan hati-hati. Kondisi yang berubah tersebut merupakan outcome atau produk yang diharapkan dari program. Dalam hal ini, fungsi utama evaluator adalah menilai sejauh mana sebuah program menghasilkan luaran/outcome yang diharapkan dalam program yang direncanakan.
Tujuannya dalam memperoleh outcome yang diharapkan dari program, banyak hal yang perlu dilakukan sebelumnya. Kita perlu melakukan berbagai tahap dan langkah-langkah sistematis sebagai panduan untuk menghasilkan outcome yang signifikan. Hal yang dilakukan biasanya dengan mengidentifikasi dan mengukur outcome program dengan berbagai pertimbangan didalamnya.
Tidak hanya mengidentifikasi dan mengukur outcome program, pemantauan outcome yang berkelanjutan dapat penting bagi pengelolaan program yang efektif. Namun, menafsirkan hasil pengukuran dan pemantauan outcome, menghadirkan tantangan bagi pemangku kepentingan karena serangkaian outcome dapat dihasilkan oleh faktor-faktor selain proses program. Makalah ini akan membahas bagaimana outcome program dapat diidentifikasi, bagaimana merancang langkah-langkah pengukuran outcome program, bagaimana prosedur pemantauannya, dan bagaimana hasilnya dapat ditafsirkan dengan benar. 

B. Rumusan Masalah

Adapun masalah yang akan dibahas dalam penulisan makalah ini yaitu:
1.      Apa konsep dari outcome program?
2.      Bagaimana cara mengidentifikasi outcome yang relevan?
3.      Bagaimana prosedur pengukuran outcome program?

4.      Bagaimana prosedur monitoring/pemantauan outcome program?
5.      Bagaimana hasil outcome dapat ditafsirkan dengan benar?

C. Tujuan

Berdasarkan rumusan masalah diatas, maka tujuan dalam penulisan makalah ini yaitu:
1.      Memahami konsep outcome program.
2.      Mengetahui cara mengidentifikasi outcome yang relevan.
3.      Mengetahui prosedur pengukuran outcome program.
4.      Mengetahui prosedur monitoring/pemantauan outcome program.
5.      Mengetahui prosedur penafsiran program dengan benar.

BAB II PEMBAHASAN

A.    Konsep Outcome Program

Outcome atau hasil dalam sebuah program dimaknai sebagai suatu keadaan dimana keadaan populasi sasaran atau kondisi sosial yang diharapkan sebuah program telah mengalami perubahan. Dalam bukunya, Rossi dan kawan kawan memberikan beberapa contoh outcome program misalnya, jumlah perokok di kalangan remaja setelah terpapar kampanye anti rokok di sekolah menengah, kesiapan sekolah setelah anak-anak mengikuti program prasekolah, berat badan orang-orang yang menyelesaikan program penurunan berat badan, keterampilan manajemen personil bisnis setelah program pelatihan manajemen, dan jumlah polutan di sungai setempat setelah dilakukan tindakan keras oleh badan perlindungan lingkungan setempat. 
Dari berbagai contoh yang dipaparkan diatas ditemukan dua hal penting yang tesirat yaitu pertama outcome atau hasil diamati dari karakteristik populasi sasaran atau kondisi sosial, bukan program, dan definisi suatu hasil tidak membuat referensi langsung terhadap tindakan program. Meskipun layanan yang diberikan kepada peserta program sering digambarkan sebagai output program, seperti yang telah didefinisikan, outcome harus terkait dengan manfaat produk atau layanan bagi peserta. Dengan demikian, memberikan makanan kepada 100 orang tua yang tidak berpengalaman bukanlah merupakan outcome program. Hal tersebut adalah pemberian layanan, yang merupakan aspek proses program. Disisi lain, manfaat nutrisi dari makanan yang diberikan untuk kesehatan orang tua tersebut merupakan outcome, seperti juga peningkatan semangat kerja mereka, kualitas hidup yang dirasakan, dan risiko cedera akibat usaha memasak untuk diri mereka sendiri. Dengan kata lain, outcome selalu mengacu pada karakteristik yang pada prinsipnya dapat diamati untuk individu atau situasi yang belum menerima layanan program. Misalnya, kita bisa menilai jumlah perokok, kesiapan sekolah, berat badan, keterampilan manajemen, dan polusi air dalam situasi yang relevan dimana tidak ada intervensi program. Kita dapat mengukur outcome dalam dalam situasi untuk dibandingkan dengan program yang disampaikan. 
Kedua, konsep sebuah hasil atau outcome, seperti yang telah definisikan tidak semua target program benar-benar telah berubah atau bahwa program tersebut telah menyebabkan mereka berubah dengan cara tertentu. Jumlah perokok remaja sekolah menengah mungkin tidak berubah sejak kampanye anti rokok dimulai, dan tidak ada seorangpun yang mengalami penurunan berat badan selama partisipasi mereka dalam program diet. Sebagai alternatif, mungkin terdapat perubahan tapi berlawanan dengan arah yang diharapkan misalnya, remaja mungkin telah meningkatkan kebiasaan merokok mereka, dan peserta program mungkin telah bertambah berat badannya. Selanjutnya, apapun yang terjadi mungkin dihasilkan dari sesuatu selain pengaruh program. Mungkin program penurunan berat badan berlangsung selama musim liburan ketika orang-orang cenderung terlalu banyak menikmati permen, atau mungkin remaja tersebut menurunkan kebiasaan merokok mereka sebagai reaksi atas berita tentang kematian selebriti musik rock yang terkait dengan merokok. Tantangan untuk evaluator adalah menilai tidak hanya outcome yang benar-benar diperoleh tetapi juga sejauh mana perubahan dalam outcome disebabkan oleh program itu sendiri.
a. Level Outcome, Perubahan Outcome, dan Efek menguntungkan
Pertimbangan      diatas   menyebabkan perbedaan        penting            dalam penggunaan istilah outcome:
1.      Level outcome atau tingkat hasil merupakan status outcome pada beberapa titik di suatu waktu.
2.      Perubahan outcome atau hasil adalah perbedaan antara tingkat hasil pada berbagai titik di suatu waktu. 
3.      Efek program adalah bagian dari perubahan hasil yang dapat dikaitkan secara unik dengan sebuah program yang bertentangan dengan pengaruh beberapa faktor lainnya.


Grafik 1. Level Outcome, Perubahan Outcome, dan Efek Program

Grafik 1 menunjukkan pem-plotan tingkat ukuran outcome dari waktu ke waktu. Sumbu vertikal mewakili variabel outcome yang relevan dengan program yang ingin kita evaluasi. Variabel outcome adalah karakteristik atau kondisi yang dapat diukur dari populasi sasaran program yang dapat terpengaruh oleh tindakan program seperti jumlah perokok, berat badan, kesiapan sekolah, tingkat pencemaran air, atau outcome lainnya. Sumbu horizontal mewakili waktu, khususnya periode mulai dari sebelum program dikirim ke populasi sasarannya sampai beberapa saat sesudahnya. Garis solid dalam grafik menunjukkan tingkat hasil rata-rata kelompok individu yang menerima layanan program. Status dari outcome tresebut tidak digambarkan sebagai garis horizontal lurus dari waktu ke waktu namun, digambarkan dengan garis yang bergelombang. Hal ini untuk menunjukkan bahwa perokok, kesiapan sekolah, keterampilan manajemen, dan dimensi outcome lainnya diperkirakan tidak akan tetap konstan, outcome berubah sebagai akibat dari berbagai sebab dan keadaan alam yang  asing bagi program. Misalnya perilaku merokok cenderung meningkat dari usia dini hingga remaja, kemudian tingkat pencemaran air dapat berfluktuasi sesuai dengan aktivitas industri di wilayah dan kondisi cuaca, misalnya hujan deras yang mencairkan konsentrasinya.

Jika kita mengukur variabel outcome, kita dapat menentukan seberapa tinggi atau rendah kelompok sasaran sehubungan dengan variabel tersebut, misalnya seberapa banyak perokok atau kesiapan sekolah yang ditunjukkan. Hal tersebut menunjukkan level outcome atau secara sederhana sering hanya disebut outcome. Apabila diukur setelah populasi sasaran menerima layanan program, hal tersebut menujukkan bagaimana populasi tersebut melakukan seperti berapa banyak remaja merokok, tingkat rata-rata kesiapan sekolah di antara anak-anak prasekolah, berapa banyak polutan yang ada di air. Jika semua remaja merokok, kita mungkin akan kecewa, dan sebaliknya, jika tidak ada yang merokok, mungkin kita senang. Level outcome ini tidak menjelaskan tentang seberapa efektif program, meskipun hal itu dapat membatasi kemungkinannya. Jika semua remaja merokok, misalnya, kita bisa yakin bahwa program anti merokok itu tidak sukses besar dan mungkin malah kontraproduktif. Jika tidak ada remaja yang merokok, temuannya adalah petunjuk kuat bahwa program tersebut berhasil karena kami tidak mengharapkan mereka semua berhenti secara spontan sendiri. Tentu saja, hasil ekstrem seperti itu jarang ditemukan dan dalam kebanyakan kasus, level outcome saja tidak dapat ditafsirkan sebagai indikator keberhasilan atau kegagalan sebuah program.
Jika kita mengukur outcome pada populasi target sebelum dan sesudah mereka berpartisipasi dalam program, tidak hanya menggambarkan level outcome, tetapi kita juga dapat membedakan perubahan outcome. Jika grafik 1 menggambarkan kesiapan sekolah anak-anak dalam program prasekolah, maka akan menunjukkan bahwa anak-anak kurang menunjukkan kesiapan sebelum berpartisipasi dalam program dan kesiapan yang lebih besar sesudahnya, sebuah perubahan positif. Bahkan jika kesiapan sekolah mereka setelah program tidak setinggi yang diharapkan guru prasekolah, arah perubahan sebelumnya-setelah menunjukkan bahwa terdapat perbaikan. Tentu saja, dari informasi ini, kita sebenarnya tidak mengetahui bahwa program prasekolah ada kaitannya dengan peningkatan kesiapan anak dalam sekolah. Anak-anak usia prasekolah berada dalam masa perkembangan ketika kemampuan kognitif dan motorik mereka meningkat dengan cepat melalui proses pematangan normal. Faktor lain mungkin juga bekerja; misalnya, orang tua mereka mungkin sedang membaca dan mendukung perkembangan intelektual mereka dan persiapan untuk memasuki sekolah yang menjadi factor menguntungkan bagi anak-anak.  
Garis putus-putus pada grafik 1 menunjukkan lintasan pada variabel outcome yang akan diamati jika peserta program tidak menerima program. Bagi anak-anak prasekolah, misalnya, garis putus-putus menunjukkan bagaimana kesiapan sekolah mereka meningkat jika mereka tidak mengikuti program prasekolah. Garis solid menunjukkan bagaimana kesiapan sekolah berkembang saat mereka mengikuti program ini. Perbandingan kedua jalur tersebut menunjukkan bahwa kesiapan sekolah akan meningkat bahkan tanpa terpapar program, namun tidak sebanyak itu.
Perbedaan antara level outcome dicapai dengan partisipasi dalam program dan apa yang dicapai individu yang sama seandainya mereka tidak berpartisipasi adalah bagian dari perubahan outcome yang dihasilkan program. Hal terebut merupakan nilai tambah atau keuntungan bersih dari outcome yang tidak akan terjadi tanpa program.  
Estimasi dampak program, atau penilaian dampak, adalah tugas penelitian evaluasi yang paling dituntut. Kesulitan disorot dalam grafik 1, dimana efek program ditunjukkan sebagai perbedaan antara outcome yang benar-benar terjadi dan outcome yang akan terjadi tanpa adanya program. Secara simultan tidak dimungkinkan mengamati outcome pada orang yang sama (atau entitas lain) dalam kondisi ketika mereka menerima dan tidak menerima sebuah program. Oleh karena itu, kita harus mengamati outcome setelah partisipasi program dan kemudian memperkirakan bagaimana outcome tersebut tanpa program. Karena hasil akhir adalah hipotesis bagi individu yang menerima program ini, hal itu harus disimpulkan setelah diukur atau diamati. Mengembangkan kesimpulan yang valid dalam keadaan ini menjadi tantangan bagi evaluator. Meskipun level outcome dan perubahan outcome memiliki penggunaan yang sangat terbatas untuk menentukan dampak program, namun juga bernilai bagi manajer dan sponsor untuk memantau kinerja program. 

B. Mengidentifikasi Outcome yang Relevan

Langkah pertama dalam mengembangkan pengukuran outcome program adalah mengidentifikasi secara khusus outcome apa yang menjadi kandidat  relevan untuk pengukuran. Untuk melakukan  hal ini, evaluator harus mempertimbangkan perspektif pemangku kepentingan mengenai outcome yang diharapkan, outcome yang ditentukan dalam teori dampak program, dan penelitian terdahulu yang relevan. Evaluator juga perlu memberi perhatian pada outcome yang tidak diinginkan yang mungkin dihasilkan oleh program.
a.       Perspektif Pemangku Kepentingan
Berbagai pemangku kepentingan program memiliki pemahaman tersendiri tentang apa yang seharusnya dicapai program danoutcome apa yang diharapkan akan terjadi. Sumber informasi langsung tentang outcome yang diharapkan ini biasanya adalah tujuan, sasaran, dan misi program yang dinyatakan. Proposal pendanaan dan hibah atau kontrak untuk layanan dari sponsor luar juga sering mengidentifikasi outcome yang diharapkan oleh program tersebut.
Kesulitan yang ditemukan dengan adanya informasi dari sumbersumber trsebut adalah kurangnya spesifisitas dan kekonkretan yang diperlukan untuk mengidentifikasi secara jelas ukuran outcome secara spesifik. Dengan demikian evaluator berkewajiban untuk menerjemahkan masukan dari para pemangku kepentingan ke dalam bentuk yang dapat dilaksanakan dan bernegosiasi dengan para pemangku kepentingan untuk memastikan bahwa ukuran outcome yang dihasilkan sesuai dengan yang diharapkan.
Untuk tujuan evaluator, deskripsi outcome harus menunjukkan karakteristik, perilaku, atau kondisi yang sesuai yang diharapkan program akan berubah. Namun, spesifikasi dan diferensiasi lebih lanjut mungkin diperlukan saat evaluator bergerak dari deskripsi ini untuk memilih atau mengembangkan ukuran outcome ini. Contoh outcome yang dijelaskan secara spesifik cukup untuk diukur adalah kesiapan sekolah. Kemampuan anak belajar saat mereka masuk sekolah; khususnya pengembangan kesehatan dan perkembangan fisik, perkembangan sosial dan emosional, kemampuan bahasa dan komunikasi, dan keterampilan kognitif dan pengetahuan umum yang memungkinkan seorang anak memperoleh manfaat dari partisipasi dalam pendidikan formal.
b.      Teori Dampak Program
Artikulasi penuh teori dampak program, seperti yang dijelaskan pada Bab 5, sangat berguna untuk mengidentifikasi dan mengatur outcome program. Teori dampak mengungkapkan outcome program sosial sebagai bagian dari model logika yang menghubungkan aktivitas program dengan outcome proksimal (langsung) yang pada gilirannya,diharapkan mengarah pada outcome lain yang lebih distal. Jika dijelaskan, serangkaian hubungan yang saling terkait di antara outcome ini merupakan asumsi program tentang langkah kritis antara layanan program dan manfaat sosial utama yang ingin dihasilkan program. Oleh karena itu, sangat penting bagi evaluator untuk memanfaatkan bagian teori program ini ketika mengidentifikasi outcome yang harus dipertimbangkan untuk pengukuran. 

Gambar 1. Contoh teori dampak program menampilkan dampak program yang diharapkan pada hasil proksimal dan distal

Contoh di atas menunjukkan beberapa dari bagian model logika program yang menggambarkan teori dampak. Untuk tujuan penilaian outcome, teori dampak berguna untuk mengenali karakter yang berbeda dari outcome yang lebih proksimal dan lebih distal dalam urutan. Hasil proksimal adalah layanan program yang diharapkan dapat mempengaruhi secara langsung. Hal tersebut dapat dianggap sebagai outcome "take away" yang dialami peserta program sebagai akibat langsung dari partisipasi mereka dan membawanya pergi. Untuk sebagian besar program sosial, outcome proksimal ini adalah sikap psikologis, pengetahuan, kesadaran, keterampilan, motivasi, niat perilaku, dan kondisi lain yang rentan terhadap pengaruh yang relatif langsung oleh proses dan layanan program.  
Outcome proksimal bukan merupakan outcome akhir dari program yang ingin dihasilkan, seperti yang dapat dilihat pada contoh di gambar 1. Dalam hal ini, bukan outcome yang menjadi hal terpenting dari perspektif sosial atau kebijakan, tetapi tidak boleh diabaikan dalam evaluasi. Outcome ini adalah program yang memiliki kemampuan terbaik untuk mempengaruhi, sebagai sumber informatif untuk mengetahui apakah hasil program telah tercapai. Jika program gagal menghasilkan outcome secara langsung, dan teori program benar, maka outcome yang lebih distal dalam urutan tidak mungkin terjadi. Selain itu, outcome proksimal umumnya paling mudah diukur dan dikaitkan dengan usaha program. Outcome yang lebih distal, yang lebih sulit diukur dan diatributkan serta dapat menghasilkan outcome yang ambigu. Outcome tersebut akan lebih seimbang dan dapat ditafsirkan jika informasi tersedia mengenai apakah outcome proksimal tercapai.
Outcome yang lebih distal yang biasanya digunakan dalam kepentingan praktis dan politis terbesar. Oleh karena itu, sangat penting untuk mengidentifikasi dan menggambarkan hal-hal yang dapat diharapkan dan dihasilkan dari kegiatan program. Nilai pengembangan teori dampak yang dirancang memberikan dasar untuk menilai outcome apa yang logis digunakan sebenarnya.
Umumnya, sebuah program memiliki pengaruh yang tidak langsung terhadap outcome distal dalam teori dampaknya. Selain itu, outcome distal juga dipengaruhi oleh banyak faktor lain diluar kendali program. Keadaan ini sangat penting untuk menentukan outcome distal yang diharapkan dengan cara yang selaras semaksimal mungkin dengan aspek kondisi sosial yang dapat mempengaruhi aktivitas program. Misalnya program les untuk anak-anak sekolah dasar yang berfokus terutama pada membaca, dengan maksud untuk meningkatkan prestasi belajar. Hasil pencapaian pendidikan yang ditetapkan untuk evaluasi program ini harus membedakan antara yang terkait erat dengan keterampilan membaca dan bidang-bidang tersebut, seperti matematika, yang cenderung tidak dipengaruhi oleh program yang sebenarnya sedang dilakukan.
c.       Penelitian Awal (Prior Research)
Dalam mengidentifikasi dan menentukan outcome, evaluator harus benar-benar memeriksa penelitian-penelitian sebelumnya mengenai isu-isu yang berkaitan dengan program yang sedang dievaluasi, terutama penelitian evaluasi mengenai program serupa. Mempelajari outcome mana yang telah diteliti dalam penelitian lain dapat menjadi perhatian pada outcome yang relevan. Hal tersebut juga akan berguna untuk menentukan bagaimana berbagai outcome telah didefinisikan dan diukur dalam penelitian sebelumnya. 
d.      Hasil yang tidak disengaja (Unintended Outcomes)
Pertimbangan bagaimana mengidentifikasi dan menentukan outcome yang diharapkan oleh para pemangku kepentingan untuk diproduksi dan program yang terbukti dalam teori dampak program. Tetapi kemungkinan terdapat outcome program yang tidak diinginkan dan tidak diharapkan. Outcome ini mungkin positif atau negatif, namun karakter khasnya adalah bahwa hal itu muncul melalui beberapa proses yang bukan merupakan bagian dari rancangan program dan maksud langsungnya. Fitur itu, tentunya membuat outcome yang tidak diharapkan sangat sulit diantisipasi. Oleh karena itu, evaluator harus sering melakukan upaya khusus untuk mengidentifikasi hasil potensial yang tidak diharapkan yang dapat menjadi signifikan untuk menilai dampak program terhadap kondisi sosial yang dialaminya.
Penelitian sebelumnya seringkali sangat berguna untuk menangani masalah ini. Mungkin terdapat outcome yang ditemukan peneliti lain dalam situasi serupa yang dapat mengingatkan evaluator terhadap kemungkinan dampak program yang tidak diantisipasi. Dalam hal ini, bukan hanya penelitian evaluasi lain yang relevan namun juga penelitian mengenai dinamika kondisi sosial dimana program tersebut ikut campur tangan didalamnya. 
Seringkali, informasi yang penting tentang kemungkinan outcome yang tidak diharapkan dapat ditemukan dalam laporan langsung orangorang yang berada dalam posisi untuk mengamati outcome tersebut. Untuk itu, penting bagi evaluator memiliki hubungan yang substansial dengan personil program di semua tingkat, peserta program, dan informan kunci lainnya yang memiliki perspektif mengenai program dan pengaruhnya. Jika outcome yang tidak diinginkan sama sekali konsekuensial, harus ada seseorang di sistem yang menyadarinya dan dapat mengingatkan evaluator terkait kendala tersebut. Personel yang terlibat ini mungkin tidak menyajikan informasi dalam bahasa outcome yang tidak diinginkan, namun uraian mereka tentang apa yang mereka lihat dan alami dalam kaitannya dengan program akan dapat ditafsirkan jika evaluator hati-hati terhadap adanya kemungkinan dampak program yang tidak diartikulasikan dalam logika program atau yang dimaksudkan oleh pemangku kepentingan inti.

C. Pengukuran Outcome Program

Setelah dilakukan pemilahan dan telah ditentukan outcome program, langkah selanjutnya yaitu mengukur outcome program tersebut. Pengukuran outcome adalah penyajian keadaan yang ditetapkan sebagai outcome dengan menggunakan indikator yang dapat diamati variasinya secara sistematis dengan perubahan pada kondisi tersebut. Sebagai contoh kecil, pengukuran dampak program K3 di suatu industri. Dilakukan pengamatan penggunaan kacamata oleh para pekerja di tempat kerja. Pengamatan dapat dilakukan melihat dengan apakah semua pekerja menggunakan kacamata, dan pengamatan lainnya dengan secara periodik mengamati frekuensi penggunaan kacamata oleh para pekerja.
Banyak outcome program yang penting, tidak sesederhana contoh kasus program K3 oleh pekerja tersebut. Untuk sepenuhnya mewakili sebuah outcome, perlu untuk memandangnya sebagai multidimensi dan membedakan banyak aspek darinya yang relevan dengan efek yang ingin dihasilkan oleh program ini. Sebagian besar outcome bersifat multidimensional. Artinya bahwa dampak tersebut memiliki berbagai aspek atau komponen yang mungkin perlu dipertimbangkan evaluator. Evaluator umumnya harus memikirkan outcome seefisien mungkin untuk memastikan bahwa tidak ada dimensi penting yang diabaikan. Ini tidak berarti bahwa semua harus mendapat perhatian yang sama atau bahkan semua harus disertakan dalam cakupan ukuran hasil yang dipilih. Intinya adalah, evaluator harus mempertimbangkan keseluruhan dimensi yang berpotensi relevan sebelum menentukan ukuran akhir yang akan digunakan.
Salah satu implikasi dari beberapa dimensi outcome program adalah bahwa pengukuran outcome tunggal mungkin tidak cukup untuk mewakili karakter penuh mereka. Dalam kasus pelanggaran kenakalan remaja misalnya, evaluasi dapat menggunakan pengukuran ukuran frekuensi pelanggaran, tingkat keparahan, waktu untuk pelanggaran pertama setelah intervensi, dan jenis pelanggaran sebagai serangkaian tindakan hasil yang akan berusaha untuk sepenuhnya mewakili hasil ini. Memang, pengukuran berulang pada program penting membantu evaluator menjaga hilangnya pencapaian program penting karena strategi pengukuran sempit yang menyisakan dimensi outcome yang relevan.
Pengukuran diversifikasi juga dapat menghindarkan evaluator outcome kemungkinan tindakan yang berkinerja buruk yang akan menghasilkan dampak yang kurang tepat dan tidak mengukur aspek outcome yang paling banyak dipengaruhi program, membuat program ini terlihat kurang efektif daripada sebenarnya. Untuk outcome yang bergantung pada pengamatan, misalnya, menggunakan lebih dari satu pengamat berguna untuk menghindari bias. Misalnya, seorang evaluator yang menilai perilaku agresif anak-anak dengan teman sebayanya mungkin juga perlu melakukan observasi pada orang tua, pengamatan guru, dan orang-orang dari orang lain dalam posisi untuk melihat sebagian besar perilaku anak tersebut. Contoh beberapa tindakan disajikan dalam tabel berikut.
Tabel 1. Pengukuran Ganda pada Outcome
Intervensi masyarakat untuk mencegah penggunaan tembakau remaja di Oregon mencakup aktivitas anti-tembakau remaja (mis., Hadiah poster dan kaus) dan kegiatan komunikasi keluarga (mis., Pamflet kepada orang tua). Dalam penilaian outcome, hasil diukur dengan berbagai cara:
Hasil untuk pemuda
      Sikap terhadap penggunaan tembakau
      Pengetahuan tentang tembakau
      Laporan percakapan tentang tembakau dengan orang tua
      Menilai niat untuk merokok atau mengunyah tembakau
      Apakah merokok atau mengunyah tembakau di bulan lalu dan, kalau begitu, berapa banyakkah
Hasil untuk orang tua
      Pengetahuan tentang tembakau
      Sikap terhadap pencegahan penggunaan tembakau oleh masyarakat
      Sikap terhadap penggunaan tembakau
      Niat untuk berbicara dengan anak-anak tentang tidak menggunakan tembakau
      Laporan pembicaraan dengan anak-anak mereka tentang tidak menggunakan tembakau
SUMBER : Diadaptasi dari A. Biglan, D. Ary, H. Yudelson, T. E. Duncan, D. Hood, L.James, V. Koehn, Z. Wright, C. Black, D. Levings, S. Smith, dan E. Gaiser,"Evaluasi Eksperimental Pendekatan Modular untuk Memobilisasi Antitobacco Pengaruh Peer and Parents," American Journal of Community Psychology, 1996, 24 (3): 311-339.

Pengukuran ganda terhadap outcome penting dapat memberikan cakupan konsep yang lebih luas dan memungkinkan penguatan terhadap satu pengukuran untuk mengimbangi kelemahan pengukuran lainnya. Mungkin juga secara statistik menggabungkan beberapa pengukuran menjadi ukuran komposit tunggal yang lebih kuat dan valid yang lebih baik daripada pengukuran individual yang diambil sendiri. Dalam sebuah program untuk mengurangi kesuburan keluarga misalnya, perubahan ukuran keluarga yang diinginkan, penerapan praktik kontrasepsi, dan jumlah anak yang diinginkan rata-rata mungkin diukur dan digunakan dalam kombinasi untuk menilai outcome program. Bahkan ketika tindakan harus dibatasi pada jumlah yang lebih kecil daripada cakupan komprehensif mungkin diperlukan, sangat berguna bagi evaluator untuk menguraikan semua dimensi dan variasi agar dapat membuat pilihan yang bijaksana dari alternatif yang layak.
1. Prosedur Pengukuran dan Karakteristik Pengukuran
Data outcome program pada umumnya didapatkan menggunakan alat pengukuran seperti pengamatan, rekaman, tanggapan terhadap wawancara dan kuesioner, tes standar, alat ukur fisik, dan sejenisnya. Informasi dari sumber tersebut menjadi pengukuran saat dioperasionalkan, yaitu dihasilkan melalui serangkaian operasi atau prosedur yang spesifik dan sistematis. Pengukuran berbagai variabel hasil dalam evaluasi menggunakan prosedur dan instrumen yang telah ditetapkan dan diterima untuk tujuan tersebut di masing-masing bidang program. Hal ini berlaku untuk hasil yang lebih distal dan relevan dengan kebijakan. Dalam perawatan kesehatan misalnya, tingkat kesakitan, kematian dan kejadian penyakit atau masalah kesehatan diukur dengan cara yang relatif standar yang berbeda terutama menurut sifat masalah kesehatan yang dipermasalahkan. Kinerja akademik diukur secara konvensional dengan tes prestasi standar dan rata-rata nilai. Pekerjaan dan status pekerjaan biasanya dinilai dengan menggunakan tindakan yang dikembangkan oleh Biro Sensus.
Untuk outcome lain, berbagai instrumen pengukuran atau prosedur siap pakai mungkin tersedia, namun dengan sedikit konsensus tentang mana yang paling tepat untuk tujuan evaluasi. Hal ini terutama berlaku untuk outcome psikologis seperti depresi, harga diri, sikap, kemampuan kognitif, dan kecemasan. Dalam situasi ini, tugas evaluator umumnya membuat pilihan yang tepat dari pilihan yang ada. Pertimbangan praktis, seperti bagaimana instrumen diberikan dan berapa lama waktu yang dibutuhkan, harus dipertimbangkan dalam keputusan ini. Pertimbangan yang paling penting adalah seberapa baik ukuran siap pakai sesuai dengan apa yang ingin diukur evaluator. Dengan memiliki deskripsi yang cermat tentang outcome yang akan diukur, akan sangat membantu dalam membuat keputusan ini. Ini juga akan membantu jika evaluator telah membedakan dimensi berbeda dari outcome yang relevan.
Bila instrumen pengukuran siap pakai digunakan, sangat penting untuk memastikan bahwa produk tersebut sesuai untuk mewakili outcome penting. Mengukur tidak harus tepat hanya karena nama instrument atau label yang diberikan untuk konstruksi itu ukurannya mirip dengan label yang diberikan outcome yang diminati. Instrumen pengukuran yang berbeda untuk konstruksi "sama" (mis., Harga diri, sikap lingkungan) seringkali memiliki konten dan orientasi teoritis yang berbeda, yang memberi mereka karakter yang mungkin atau mungkin tidak sesuai dengan outcome program yang diminati begitu hasil tersebut dijelaskan dengan cermat.
Bagi beberapa outcome penting untuk evaluator, tidak ada ukuran yang mapan atau serangkaian tindakan siap pakai yang dapat dipilih. Dalam kasus ini, evaluator harus mengembangkan ukurannya. Sayangnya tidak tersedianya waktu dan sumber daya yang mencukupi untuk melakukan ini dengan benar. Beberapa prosedur pengukuran khusus, seperti mengekstraksi informasi spesifik yang relevan dari catatan resmi dengan kualitas yang diketahui, cukup mudah untuk memenuhi syarat sebagai praktik pengukuran yang dapat diterima tanpa demonstrasi lebih lanjut. Prosedur pengukuran lainnya, seperti kuesioner, skala sikap, tes pengetahuan, dan skema pengkodean observasional yang sistematis, tidak begitu mudah. Dengan membangun ukuran tersebut mereka mengukur apa yang seharusnya mereka lakukan secara konsisten seringkali tidak mudah. Oleh karena itu, terdapat prosedur pengembangan pengukuran yang terdefinisi untuk dilakukan sehingga melibatkan sejumlah pertimbangan teknis dan pada umumnya memerlukan sejumlah besar pengujian, analisis, revisi, dan validasi uji coba sebelum ukuran yang baru dikembangkan dapat digunakan dengan percaya diri. Ketika seorang evaluator harus mengembangkan sebuah ukuran tanpa melalui langkah-langkah dan pengecekan ini, ukuran yang dihasilkan mungkin masuk akal di permukaan namun tidak akan berjalan dengan baik untuk tujuan menilai secara akurat outcome program.
Bila tindakan khusus harus dikembangkan untuk evaluasi tanpa adanya kesempatan pengembangan tersebut dilakukan secara sistematis dan teknis, sangat penting agar properti pengukuran dasar diperiksa sebelum diberi bobot pada mereka dalam sebuah evaluasi. Memang, bahkan dalam kasus tindakan siap pakai dan prosedur yang diterima untuk menilai outcome tertentu untuk memastikan bahwa tindakan masing-masing berjalan dengan baik untuk situasi spesifik yang akan diterapkan. Terdapat tiga sifat pengukuran yang menjadi perhatian khusus yaitu reliabilitas, validitas, dan sensitivitas.
a. Reliabilitas (Keandalan)
Keandalan suatu ukuran adalah sejauh mana ukuran tersebut menghasilkan outcome yang sama bila digunakan berulang kali untuk mengukur hal yang sama. Variasi outcome tersebut merupakan kesalahan pengukuran. Jadi misalnya skala pos dapat diandalkan sejauh melaporkan "skor" (berat) yang sama untuk amplop yang sama pada kesempatan yang berbeda. Tidak ada alat ukur, skema klasifikasi, atau prosedur penghitungan yang sangat dapat diandalkan, namun berbagai jenis ukuran memiliki masalah keandalan pada tingkat yang berbeda-beda. Pengukuran karakteristik fisik dimana alat ukur standar tersedia, seperti tinggi dan berat, umumnya akan lebih konsisten daripada pengukuran karakteristik psikologis, seperti kecerdasan yang diukur dengan tes IQ. Ukuran kinerja, seperti tes IQ standar, pada gilirannya, ternyata lebih dapat diandalkan daripada pengukuran mengandalkan recall, seperti laporan pengeluaran rumah tangga untuk barang konsumsi. Bagi evaluator, sumber utama yang tidak dapat diandalkan terletak pada sifat instrumen pengukuran yang didasarkan pada tanggapan peserta terhadap pertanyaan tertulis atau lisan yang diajukan oleh peneliti. Perbedaan dalam pengujian atau pengukuran situasi, perbedaan pengamat atau pewawancara dalam administrasi pengukuran, dan bahkan perubahan mood responden berkontribusi terhadap ketidakandalan.
Efek tidak dapat diandalkan dalam tindakan adalah untuk mencairkan dan mengaburkan perbedaan nyata. Intervensi yang benarbenar efektif, hasilnya dinilai tidak efektif, tampaknya kurang efektif daripada sebenarnya. Cara paling mudah bagi evaluator untuk memeriksa reliabilitas ukuran kandidat outcome adalah dengan memberikannya setidaknya dua kali dalam keadaan ketika outcome yang diukur tidak berubah antara administrasi ukuran. Secara teknikal, indeks konvensional dari reliabilitas pengujian ulang tes ini adalah statistik yang dikenal sebagai korelasi product moment antara dua set skor, yang bervariasi antara 0,00 dan 1,00. Namun, untuk banyak hasil pemeriksaan ini sulit dilakukan karena hasilnya mungkin akan berubah antara aplikasi pengukuran yang jaraknya tidak terlalu dekat. Misalnya, item kuesioner yang menanyakan kepada siswa seberapa baik mereka menyukai sekolah dapat dijawab berbeda sebulan kemudian, bukan karena pengukurannya tidak dapat diandalkan, tetapi karena peristiwa intervensi telah membuat siswa merasa berbeda tentang sekolah. Bila mengukur melibatkan tanggapan dari orang-orang, di sisi lain, tindakan jarak jauh terkontaminasi karena responden mengingat tanggapan sebelumnya daripada memberikannya kembali. Bila pengukuran tidak dapat diulang sebelum hasilnya dapat berubah, reliabilitas biasanya diperiksa dengan memeriksa konsistensi di antara item serupa dalam ukuran multi item yang diberikan pada saat bersamaan (disebut sebagai reliabilitas konsistensi internal). Untuk banyak tindakan siap pakai yang digunakan evaluator, informasi keandalan sudah tersedia dari penelitian lain atau dari laporan perkembangan awal pengukuran. Kehandalan dapat bervariasi sesuai dengan sampel responden dan keadaan pengukuran, bagaimanapun, jadi tidak selalu aman untuk mengasumsikan bahwa ukuran yang telah terbukti dapat diandalkan dalam aplikasi lain akan dapat diandalkan bila digunakan dalam evaluasi.
Tidak ada aturan baku tentang tingkat reliabilitas yang dapat diterima. Sejauh mana kesalahan pengukuran dapat mengaburkan outcome program yang berarti sangat bergantung pada besarnya hasil tersebut. Sebagai aturan praktis, para peneliti pada umumnya menggunakan ukuran dengan koefisien reliabilitas 0,90 atau di atas, rentang yang menjaga kesalahan pengukuran relatif kecil terhadap semua namun hasil yang paling kecil. Untuk banyak ukuran outcome yang diterapkan dalam situasi karakteristik evaluasi program, standar ini relatif tinggi. b. Validitas (Keabsahan)
Masalah validitas pengukuran lebih sulit daripada masalah reliabilitas. Validitas ukuran adalah sejauh mana tindakan mengukur ukurannya. Misalnya, catatan penangkapan remaja memberikan ukuran kenakalan yang valid hanya sejauh mereka secara akurat mencerminkan berapa banyak remaja yang terlibat dalam pelanggaran yang dikenakan biaya. Sejauh mereka juga mencerminkan praktik penangkapan polisi, tindakan tersebut tidak valid terhadap perilaku nakal remaja yang ditangkap. Meskipun konsep validitas dan kepentingannya mudah dipahami, biasanya sulit untuk menguji apakah ukuran tertentu sesuai dengan karakteristik minat. Dengan ukuran outcome yang digunakan untuk evaluasi, validitas ternyata sangat bergantung pada apakah ukuran diterima sesuai dengan pemangku kepentingan yang sesuai. Mengkonfirmasi bahwa ini mewakili outcome yang dimaksudkan oleh program bila outcome tersebut dijelaskan secara lengkap dan hati-hati dapat memberikan beberapa kepastian validitas untuk tujuan evaluasi. 
Demonstrasi empiris tentang validitas suatu tindakan bergantung pada beberapa perbandingan yang menunjukkan bahwa ukuran tersebut menghasilkan outcome yang diharapkan jika memang benar. Misalnya, ketika ukuran diterapkan bersamaan dengan ukuran alternatif dari hasil yang sama, seperti yang digunakan oleh evaluator lain, hasilnya kira-kira sama. Demikian pula, ketika ukuran diterapkan pada situasi yang dikenali berbeda pada hasil yang dipermasalahkan, hasilnya harus berbeda. Dengan demikian, ukuran sikap lingkungan harus secara tajam membedakan anggota Sierra Club setempat dari anggota asosiasi sepeda motor offroad. Validitas juga ditunjukkan dengan menunjukkan bahwa outcome pada pengukuran berhubungan dengan atau "memprediksi" karakteristik lain yang diharapkan terkait dengan hasilnya. Misalnya, ukuran sikap lingkungan harus dikaitkan dengan bagaimana tanggapan responden terhadap kandidat politik dengan posisi yang berbeda mengenai masalah lingkungan.
c. Sensitivitas (Kepekaan)
Fungsi utama dari ukuran outcome adalah untuk mendeteksi perubahan atau perbedaan outcome yang mewakili efek program. Untuk mencapai hal ini dengan baik, ukuran outcome harus peka terhadap efek tersebut. Sensitivitas suatu ukuran adalah sejauh mana nilai pada ukuran berubah saat ada perubahan atau perbedaan dalam hal yang diukur. Misalnya kita mengukur berat badan sebagai outcome untuk program penurunan berat badan. Skala yang dikalibrasi halus dari jenis yang digunakan di kantor dokter mungkin mengukur berat badan dalam beberapa ons dan, dengan demikian, dapat mendeteksi penurunan berat badan dalam rentang tersebut. Sebaliknya, timbangan yang digunakan untuk menimbang truk di jalan raya antarnegara juga merupakan ukuran berat yang valid dan dapat diandalkan, namun tidak sensitif terhadap perbedaan yang lebih kecil dari beberapa ratus pound. Skala yang tidak sensitif terhadap fluktuasi berarti dalam bobot pelaku diet dalam program penurunan berat badan akan menjadi pilihan yang buruk untuk mengukur outcome tersebut.
Ada dua cara utama di mana jenis ukuran outcome yang sering digunakan dalam evaluasi program dapat menjadi tidak sensitif terhadap perubahan atau perbedaan besaran yang mungkin dihasilkan oleh program. Pertama, ukuran itu mungkin mencakup unsur-unsur yang berhubungan dengan sesuatu selain dari apa yang diharapkan program ini dapat berubah. Ini mencairkan konsentrasi unsur yang responsif dan membungkam respons keseluruhan dari ukuran. Hal yang perlu dipertimbangkan misalnya sebuah program les matematika untuk anak-anak sekolah dasar yang berkonsentrasi pada pecahan dan masalah pembagian yang panjang untuk sebagian besar tahun ajaran. Evaluator mungkin memilih tes prestasi matematika off-the-shelf sebagai ukuran hasil yang masuk akal. Tes semacam itu, akan mencakup item yang mencakup masalah matematika yang lebih luas daripada pecahan dan pembagian panjang. Keuntungan besar yang dimiliki anak-anak di area akhir ini mungkin dikaburkan oleh item pada topik lain yang dirata-ratakan ke skor akhir. Ukuran yang lebih sensitif, jelas, akan menjadi topik yang hanya membahas topik matematika yang benar-benar diajarkan oleh program.
Kedua, ukuran outcome mungkin tidak peka terhadap jenis perubahan atau perbedaan yang disebabkan oleh program ketika mereka dikembangkan sebagian besar untuk tujuan diagnostik, yaitu untuk mendeteksi perbedaan individual. Tujuan dari pengukuran ini adalah untuk menyebarkan skor dengan cara yang membedakan individu yang memiliki karakteristik kurang dari karakteristik yang diukur. Sebagian besar ukuran psikologis terstandardisasi seperti ini, termasuk ukuran kepribadian, ukuran gejala klinis (depresi, kecemasan, dll.), ukuran kemampuan kognitif, dan skala sikap. Langkah-langkah ini umumnya baik untuk menentukan siapa yang tinggi atau rendah pada karakteristik yang diukur, dan dengan demikian sangat membantu untuk menilai kebutuhan atau tingkat keparahan masalah. Namun, bila diterapkan pada sekelompok individu yang berbeda secara luas pada karakteristik terukur sebelum berpartisipasi dalam sebuah program, mereka dapat menghasilkan variasi skor yang begitu beragam setelah partisipasi bahwa peningkatan perbaikan yang dialami setiap individu akan hilang di tengah perbedaan antara individu. Dari sudut pandang pengukuran, perbedaan individu yang mengukur respons ini dengan baik merupakan suara yang tidak relevan untuk mendeteksi perbedaan perubahan atau kelompok dan cenderung mengaburkan efek tersebut. 
Cara terbaik untuk menentukan apakah ukuran kandidat outcome cukup sensitif untuk digunakan dalam evaluasi adalah untuk menemukan penelitian yang berhasil digunakan untuk mendeteksi perubahan atau perbedaan pada urutan besarnya yang diharapkan evaluator dari program yang sedang dievaluasi. Bukti paling jelas berasal dari evaluasi program serupa dimana perubahan atau perbedaan signifikan ditemukan dengan menggunakan ukuran outcome. Menilai bukti ini juga harus mempertimbangkan ukuran sampel dari studi evaluasi sebelumnya, karena ukuran sampel mempengaruhi kemampuan untuk mendeteksi efek.
Pendekatan analog untuk menyelidiki sensitivitas ukuran outcome adalah menerapkannya pada kelompok yang diketahui perbedaannya, atau situasi perubahan yang diketahui, dan menentukan seberapa responsifnya. Perhatikan contoh program les matematika yang telah disebutkan sebelumnya. Evaluator mungkin ingin mengetahui apakah tes prestasi matematika standar yang diberikan oleh sistem sekolah setiap tahun akan cukup sensitif untuk digunakan sebagai ukuran outcome. Tetapi masih diragukan mengingat les hanya berfokus pada beberapa topik matematika, sementara tes pencapaian mencakup rentang yang luas. Untuk memeriksa sensitivitas sebelum menggunakan tes ini untuk mengevaluasi program, evaluator pertama-tama dapat memberikan tes ke ruang kelas anak-anak sebelum dan sesudah mereka mempelajari pecahan dan pembagian panjang. Jika tes tersebut terbukti cukup sensitif untuk mendeteksi perubahan selama periode ketika hanya topik-topik yang diajarkan, namun tes ini memberikan kepastian bahwa hal itu akan responsif terhadap efek program les matematika saat digunakan dalam evaluasi.
2. Pilihan Pengukuran Outcome
Memilih langkah terbaik untuk menilai outcome adalah masalah pengukuran kritis dalam evaluasi (Rossi, 1997). Kami merekomendasikan agar evaluator menginvestasikan waktu dan sumber daya yang diperlukan untuk mengembangkan dan menguji ukuran outcome yang sesuai (Bukti 7-F memberikan contoh instruktif). Ukuran outcome yang dikonsep oleh konsepsi yang kurang baik mungkin tidak mewakili tujuan dan sasaran program dengan tepat untuk dievaluasi, yang mengarah ke pertanyaan tentang keabsahan ukurannya. Ukuran outcome yang tidak dapat diandalkan atau kurang memadai kemungkinan keefektifan program diragukan dan dapat menyebabkan kesimpulan yang salah mengenai dampak program. Singkatnya, ukuran yang dipilih dengan buruk atau kurang dipahami benar-benar dapat melemahkan nilai penilaian outcome dengan menghasilkan perkiraan yang menyesatkan. Hanya jika ukuran hasil yang valid, dapat diandalkan, dan tepat sensitif dapat mempengaruhi perkiraan dianggap dapat dipercaya.

D. Monitoring/Pemantauan Outcome Program

Dengan prosedur pengukuran yang memadai untuk mendapatkan outcome program yang signifikan, berbagai pendekatan untuk mempelajari sesuatu tentang hasil tersebut dapat dilakukan oleh evaluator atau manajer program. Pendekatan yang paling sederhana adalah pemantauan/monitoring outcome, pemantauan digunakan  sebagai pengukuran dan pelaporan indikator indikator status kondisi sosial yang berkesinambungan agar program dapat dipertanggungjawabkan. Hal ini serupa dengan pemantauan program, dengan perbedaan bahwa informasi yang dikumpulkan secara teratur dan ditinjau berkaitan dengan outcome program tidak hanya pada proses dan kinerja program. Pemantauan outcome untuk program pelatihan kerja, misalnya, mungkin melibatkan peserta yang menelepon secara rutin enam bulan setelah menyelesaikan program untuk menanyakan apakah mereka dipekerjakan dan, jika demikian, pekerjaan apa yang mereka miliki dan upah apa yang harus dibayar mereka. Diskusi terperinci mengenai pemantauan outcome dapat ditemukan di Affholter (1994) dan Hatry (1999).
Pemantauan outcome mensyaratkan bahwa indikator diidentifikasi untuk outcome program penting yang praktis dikumpulkan secara rutin dan informatif mengenai keefektifan program. Kebutuhan yang terakhir sangat sulit. Pengukuran outcome sederhana hanya memberikan informasi tentang status atau tingkat hasilnya, seperti jumlah anak-anak dalam kemiskinan, prevalensi penyalahgunaan obat terlarang, tingkat pengangguran, atau kemampuan membaca siswa sekolah dasar. Kesulitannya adalah mengidentifikasi perubahan dalam status itu dan menghubungkan perubahan itu secara khusus dengan upaya program untuk menilai efek atau dampak program.
Kesulitan ini biasanya berpengaruh pada kondisi sosial yang tidak berada di bawah kendali program. Dengan demikian, tingkat kemiskinan, penggunaan narkoba, pengangguran, nilai membaca, dan sebagainya dapat berubah karena sejumlah alasan yang berkaitan dengan ekonomi, tren sosial, dan dampak dari program dan kebijakan lainnya. Dalam keadaan seperti ini, menemukan indikator outcome yang melakukan pekerjaan yang masuk akal untuk mengisolasi outcome yang berkaitan dengan program yang dimaksud bukanlah masalah yang mudah.
Semua yang mengatakan hasil pemantauan memberikan informasi yang berguna dan relatif murah tentang efek program, biasanya dalam jangka waktu yang wajar. Sedangkan penilaian dampak mungkin memakan waktu bertahun-tahun untuk diselesaikan, hasil pemantauan outcome mungkin dapat dilihat dalam beberapa bulan. Selanjutnya, penilaian dampak biasanya memerlukan pengeluaran yang besarnya lebih besar daripada yang dibutuhkan untuk sistem pemantauan outcome. Karena keterbatasannya, pemantauan outcome terutama merupakan teknik untuk menghasilkan umpan balik untuk membantu manajer program mengelola dan memperbaiki program mereka dengan lebih baik, tidak hanya untuk menilai dampak program terhadap kondisi sosial yang dimaksudkan untuk mendapatkan keuntungan. Skema pemantauan yang baik juga mencakup indikator tingkat kekompleks-an masalah awal, keterpaparan terhadap pengaruh penting lainnya, dan faktor relevan lainnya. Sementara tidak memiliki penilaian dampak formal, interpretasi yang masuk akal dan perbandingan pola indikator tersebut dan, terutama, dari tren indikator tersebut sebagai program yang berusaha memperbaiki keefektifannya, dapat memberikan indikasi yang berguna mengenai efektivitas program.
1.         Indikator untuk Pemantauan Outcome
Indikator yang akan digunakan untuk pemantauan outcome harus responsif terhadap efek program. Misalnya, indikator outcome harus diukur hanya pada anggota populasi sasaran yang benar-benar menerima layanan program. Ini berarti bahwa indikator sosial yang tersedia untuk area geografis yang dilayani oleh program ini, seperti saluran sensus, kode pos, atau kotamadya, bukanlah pilihan yang baik untuk pemantauan outcome jika mencakup jumlah orang yang tidak benar-benar dilayani oleh program tersebut. 
Indikator outcome yang paling mudah ditafsirkan dan tidak ada evaluasi dampak adalah variabel yang melibatkan variabel yang hanya dapat mempengaruhi tingkat keberhasilan apapun. Bila variabel-variabel ini juga mewakili outcome yang penting bagi misi program, mereka membuat sebuah sistem pemantauan outcome yang sangat informatif. 
Indikator outcome yang paling mudah untuk dihubungkan langsung dengan tindakan program adalah kepuasan klien, semakin sering disebut kepuasan pelanggan bahkan dalam program layanan manusia. Penilaian langsung oleh penerima manfaat yang mereka percaya bahwa program yang diberikan kepada mereka merupakan salah satu bentuk penilaian outcome. Informasi yang lebih penting berasal dari laporan peserta tentang apakah manfaat yang sangat spesifik dihasilkan dari layanan yang diberikan oleh program ini. Keterbatasan indikator tersebut adalah peserta program mungkin tidak selalu berada dalam posisi untuk mengenali atau mengetahui manfaat program, seperti dalam kasus pecandu narkoba yang didorong untuk menggunakan jarum suntik steril. Sebagai alternatif, peserta mungkin dapat melaporkan manfaat namun enggan tampil kritis dan dengan demikian mengalahkan mereka. 
2.         Kesalahan dalam Pemantauan Dampak
Karena sifat dinamis dari kondisi sosial yang biasanya diusahakan oleh program tipikal, keterbatasan indikator outcome, dan tekanan pada lembaga program, ada banyak kendala yang terkait dengan pemantauan outcome program. Dengan demikian, indikator outcome dapat menjadi sumber informasi bagi pengambil keputusan program.
Salah satu pertimbangan penting adalah setiap indikator outcome dimana penyandang dana program atau pengambil keputusan berpengaruh lainnya juga mendapat perhatian serius dari staf program dan manajer. Jika indikator outcome tidak sesuai atau gagal untuk mencakup semua outcome penting, upaya untuk memperbaiki kinerja yang dicerminkan dapat merusak aktivitas program. Affholter (1994) menggambarkan situasi di mana sebuah negara menggunakan jumlah rumah asuh baru yang dilisensikan sebagai indikator peningkatan penempatan untuk anak-anak dengan banyak masalah. Pekerja menanggapi dengan perekrutan dan perizinan rumah baru dengan kuat walaupun orang tua asuh tidak memiliki keterampilan yang dibutuhkan untuk bekerja dengan anak-anak ini. Akibatnya, indikator terus bergerak ke atas, namun penempatan sebenarnya anak-anak di rumah asuh yang tepat tidak membaik. Di bidang pendidikan, respons ini disebut "pengajaran untuk tes." Indikator outcome yang baik, sebaliknya, harus "menguji pengajaran."
Masalah yang terkait adalah "indikator korupibilitas." Ini mengacu pada kecenderungan alami bagi mereka yang kinerjanya dievaluasi untuk memfilter dan memberi indikator bila memungkinkan untuk membuat penampilan mereka terlihat lebih baik daripada sebelumnya. Potensi masalah lain ada kaitannya dengan interpretasi hasil pada indikator outcome. Dengan berbagai faktor selain kinerja program yang dapat mempengaruhi indikator tersebut, interpretasi yang dibuat dari konteks dapat menyesatkan dan, walaupun dengan konteks yang tepat, hal itu dapat menjadi sulit. Untuk memberikan konteks penafsiran yang sesuai, indikator outcome umumnya harus disertai dengan informasi lain yang memberikan dasar yang relevan untuk perbandingan atau penjelasan hasil yang ditemukan pada indikator tersebut. 

E. Menafsirkan Data Outcome

Data outcome yang dikumpulkan sebagai bagian dari pemantauan outcome rutin sangat sulit untuk ditafsirkan jika tidak disertai informasi tentang perubahan dalam campuran klien, tren demografi dan ekonomi yang relevan, dan sejenisnya. Data outcome biasanya lebih mudah ditafsirkan bila disertai informasi tentang proses program dan pemanfaatan layanan. Tidak adil apabila membentuk penilaian negatif terhadap satu unit program yang lebih rendah pada indikator outcome daripada unit program lainnya tanpa mempertimbangkan apakah kasus tersebut ditangani dengan kasus yang lebih sulit.
Penting juga untuk interpretasi data pemantauan outcome adalah pengembangan kerangka kerja yang memberikan beberapa standar untuk menilai apa yang merupakan outcome yang lebih baik atau lebih buruk dalam keterbatasan data yang harus dibuat penghakiman ini. Salah satu kerangka kerja yang berguna, jika berlaku, adalah perbandingan status hasil dengan status preprogram pada ukuran hasil untuk mengungkapkan jumlah perubahan yang telah terjadi. Salah satu pendekatan terhadap indikator has outcome il adalah untuk menentukan "ambang sukses" bagi peserta program dan melaporkan berapa banyak yang bergerak dari bawah ambang di atas setelah menerima layanan. 
Perbandingan pra-pos (sebelum dan sesudah) yang sederhana seperti ini tidak perlu menjadi bagian dari pemantauan outcome rutin. Hal itu juga bisa dilakukan oleh evaluator sebagai bagian dari hasil penilaian. Kelemahan utama dari desain ini adalah bahwa perbedaan antara ukuran sebelum dan sesudah tidak dapat dipercaya dianggap berasal dari efek program karena proses lain yang bekerja pada periode intervensi dapat mempengaruhi perbedaan pra-pos. 
Tren lain juga bisa mempengaruhi perubahan pasca-posting. Secara umum, perbandingan pra-pos dapat memberikan umpan balik yang berguna kepada administrator program sebagai bagian dari pemantauan outcome, namun biasanya tidak memberikan temuan yang dapat dipercaya tentang efek program. Pengecualian yang jarang terjadi adalah ketika hampir tidak ada kejadian atau tren yang mungkin masuk akal untuk mengetahui perbedaan pra-pos. 
Informasi yang dihasilkan dari pengukuran variabel outcome program, atau perubahan pada variabel tersebut, umumnya harus diinterpretasikan berdasarkan penilaian administrator program, pemangku kepentingan, atau ahli terkait dengan harapan akan kinerja yang baik dan yang buruk. Penilaian ini paling mudah dilakukan pada tingkat ekstrem ketika hasil lebih positif daripada yang mungkin terjadi karena alasan yang tidak terkait dengan program, atau sangat negatif sehingga kegagalan program kecil dapat menjelaskannya.
  

BAB III KESIMPULAN


Program dirancang untuk mempengaruhi beberapa masalah atau kebutuhan dengan cara yang positif. Evaluator menilai sejauh mana sebuah program menghasilkan perbaikan tertentu dengan mengukur outcome, Outcome merupakan keadaan populasi sasaran atau kondisi sosial yang diharapkan programnya telah berubah. Outcome dipengaruhi oleh kejadian dan pengalaman yang independen terhadap suatu program, perubahan level outcome tidak dapat ditafsirkan secara langsung sebagai efek program.
Untuk menentukan outcome program, kita perlu mengidentifikasi outcome yang relevan dengan sebuah program dengan menggali informasi dari para pemangku kepentingan, tinjauan dokumen program, dan artikulasi teori dampak yang terkandung dalam logika program. Evaluator juga harus mempertimbangkan penelitian sebelumnya yang relevan dan mempertimbangkan kemungkinan outcome yang tidak diinginkan. 
Untuk menghasilkan outcome yang dapat dipercaya, ukuran outcome harus memenuhi kriteria antara lain reliabel, valid, dan cukup sensitif untuk mendeteksi perubahan level outcome dari urutan besarnya yang diharapkan oleh program ini. Selain itu, sering disarankan untuk menggunakan beberapa ukuran atau variabel outcome untuk mencerminkan outcome multidimensional dan untuk memperbaiki kemungkinan kelemahan dalam satu atau beberapa tindakan.
Dengan prosedur pengukuran yang memadai untuk mendapatkan outcome program yang signifikan, pemantauan/monitoring outcome dapat menjadi pendekatan yang paling disarankan. Pemantauan digunakan  sebagai pengukuran dan pelaporan indikator indikator status kondisi sosial yang berkesinambungan agar program dapat dipertanggungjawabkan. Pemantauan outcome dapat melayani manajer program dan pemangku kepentingan lainnya dengan memberikan temuan tepat waktu dan relatif murah yang dapat memandu penyesuaian dan penyempurnaan program. Pemantauan outcome yang efektif memerlukan pilihan indikator yang cermat serta interpretasi yang cermat terhadap data yang dihasilkan. Interpretasi ukuran outcome dan perubahan dalam ukuran tersebut sulit dilakukan.
Interpretasi yang bertanggung jawab memerlukan pertimbangan lingkungan program, kejadian yang terjadi selama sebuah program, dan perubahan alami yang dialami oleh target waktu. Interpretasi pada umumnya harus bergantung pada penilaian ahli dari apa yang merupakan kinerja yang baik. 

DAFTAR PUSTAKA 

Rossi, Peter H. Freeman, Howard E. and Lipsey, Mark W. (2004). Evaluation: a systematic approach - 7th ed. California. Sage Publications, Inc.


Subscribe to receive free email updates:

0 Response to "MAKALAH EVALUASI PEMBELAJARAN PENGUKURAN DAN MONITORING LUARAN PROGRAM"

Posting Komentar