Kirkpatrick 4-Level Deep: Cara Aplikasi di Indonesia (Panduan 2026)

Jawaban singkat: Model Kirkpatrick mengukur pelatihan pada empat level: Reaksi (L1), Pembelajaran (L2), Perilaku (L3), Hasil bisnis (L4). Dikenalkan Donald L. Kirkpatrick lewat empat artikel di Training Director's Journal ASTD tahun 1959, dan diperluas oleh Jim Kirkpatrick & Wendy Kayser Kirkpatrick menjadi New World Kirkpatrick Model (2016) yang menambahkan prinsip backward design (rancang dari L4 ke L1) dan required drivers (penopang penerapan di tempat kerja). Untuk membuatnya berhasil di Indonesia: ikat L2 ke SKKNI, jadikan atasan langsung sebagai required driver utama (budaya hierarkis berfungsi sebagai aset), ukur L3 setelah 3–6 bulan, triangulasi instrumen, dan tautkan ke Phillips ROI Level 5 untuk justifikasi anggaran.

Kebanyakan artikel Kirkpatrick berhenti di definisi empat level dan satu form smile sheet. Itu cukup untuk memahami istilah, tetapi tidak cukup untuk menjalankannya. Panduan ini menutup celah tersebut: model 1959 ke New World Model 2016 (apa yang berubah, kenapa penting), prinsip backward design dengan contoh, required drivers dengan daftar konkret, instrumen per level dengan jadwal pengukuran 30/60/90 hari, kesalahan umum, kritik akademis dan jawabannya, sampai adaptasi konteks Indonesia.

Pembaca yang dituju: tim HR / HC / L&D / SDM dan pimpinan unit yang merancang, membeli, atau menyetujui evaluasi pelatihan, di perusahaan swasta, BUMN/BUMD, instansi pemerintah, lembaga, asosiasi, maupun organisasi nonprofit.

Navigasi cepat

Sejarah singkat: dari 1959 ke New World Model 2016
Empat level (Reaksi, Pembelajaran, Perilaku, Hasil)
Prinsip backward design (mulai dari Level 4)
Required drivers: penopang penerapan di tempat kerja
Instrumen per level + jadwal pengukuran
Level 3 deep: cara mengukur transfer perilaku
Level 4 deep: leading vs lagging indicators
Kritik akademis & cara menjawabnya
Adaptasi konteks Indonesia (SKKNI, hierarki, RKAP)
Hubungan dengan TNA, ADDIE, Phillips ROI, 70-20-10
Contoh program lengkap L1–L4 (ilustratif)
Sepuluh kesalahan umum & cara menghindarinya
Checklist implementasi Kirkpatrick
FAQ
Langkah berikutnya

Sejarah singkat: dari 1959 ke New World Model 2016

Donald L. Kirkpatrick menulis disertasi PhD-nya tahun 1954 di University of Wisconsin–Madison tentang evaluasi pelatihan supervisor. Lima tahun kemudian (1959), ia mempublikasikan empat artikel berurutan di Training Director's Journal of the American Society for Training and Development (ASTD) yang menjabarkan empat level, masing-masing artikel satu level. Istilah "Kirkpatrick Model" baru muncul lebih kemudian; di publikasi awal Donald menyebutnya "four steps".

1994, Donald menerbitkan buku Evaluating Training Programs: The Four Levels, yang menjadi standar di lapangan selama dua dekade.

2016, Anaknya Jim Kirkpatrick dan menantunya Wendy Kayser Kirkpatrick menerbitkan Kirkpatrick's Four Levels of Training Evaluation yang memperkenalkan New World Kirkpatrick Model. Empat level tetap, tetapi ditambahkan:

Backward design principle: rancang dari Level 4 (hasil bisnis target) ke Level 1, kemudian ukur dari Level 1 maju ke Level 4.
Required drivers: proses, sistem, dan dukungan manajemen yang membuat perilaku baru bertahan setelah kelas.
Penekanan Level 3 sebagai sentral, karena tanpa perubahan perilaku, hasil bisnis L4 tidak terjadi.
Leading vs lagging indicators di Level 4: indikator perilaku agregat jangka pendek (leading) dan hasil bisnis jangka panjang (lagging).

Aturan praktis: Kirkpatrick asli adalah peta wilayah; New World Model adalah peta jalan. Yang pertama menamai apa yang harus diukur; yang kedua menjelaskan bagaimana membuatnya benar-benar berhasil.

Empat level (Reaksi, Pembelajaran, Perilaku, Hasil)

Level	Apa yang diukur	Pertanyaan inti
L1 Reaksi	Persepsi peserta tentang relevansi, engagement, niat menerapkan	"Apakah peserta merasa ini berguna dan akan menerapkannya?"
L2 Pembelajaran	Kenaikan pengetahuan, keterampilan, sikap, komitmen, kepercayaan diri	"Apa yang peserta tahu/bisa lakukan sekarang yang sebelumnya tidak?"
L3 Perilaku	Penerapan di pekerjaan	"Apakah peserta benar-benar melakukan apa yang dipelajari di kelas?"
L4 Hasil	Indikator bisnis yang ditargetkan	"Apakah hasil bisnis yang menjadi alasan pelatihan ini bergerak?"

Tiap level membangun di atas yang sebelumnya tetapi tidak selalu kausal: peserta bisa puas (L1) tanpa belajar (L2), atau belajar tanpa menerapkan (L3). Asumsi kausal naif inilah yang dikritik akademisi (Holton 1996, Bates 2004) dan dijawab New World Model lewat required drivers yang menjembatani L2 ke L3.

Komponen tambahan New World Model di tiap level

L1: dari "satisfaction" → engagement + relevance + commitment. Pertanyaan baru: "Seberapa percaya Anda akan menerapkan ini?" dan "Apa yang akan menghalangi?"
L2: dari "knowledge" → knowledge + skill + attitude + confidence + commitment. Sikap dan komitmen sama penting dengan pengetahuan untuk transfer ke L3.
L3: ditambahkan eksplisit required drivers sebagai bagian arsitektur L3, bukan opsi tambahan.
L4: dipisahkan leading indicators (sinyal cepat: frekuensi perilaku, kepuasan stakeholder) dari lagging indicators (hasil akhir: revenue, turnover, NPS).

Prinsip backward design (mulai dari Level 4)

Konsep paling kuat New World Kirkpatrick. Rancang program dari belakang: tentukan dulu L4, lalu L3, L2, L1.

Empat langkah backward design

L4, Hasil bisnis target. Indikator spesifik yang harus bergerak. Contoh: turnover manajer lini turun 20% dalam 12 bulan; rata-rata waktu menutup tiket support turun dari 8 jam ke 5 jam; NPS klien naik dari 32 ke 50.
L3, Perilaku yang harus terjadi. Daftar 3–7 perilaku spesifik dan terobservasi yang, jika dilakukan secara konsisten, akan menghasilkan L4. Contoh untuk turnover manajer: "Manajer melakukan one-on-one mingguan dengan setiap anggota tim selama ≥ 30 menit dengan fokus pengembangan, bukan hanya status." Perilaku, bukan kompetensi abstrak.
L2, Pengetahuan/keterampilan/sikap yang dibutuhkan. Apa yang harus peserta tahu, bisa lakukan, dan percayai untuk membuat L3 mungkin. Contoh: teknik coaching GROW, mendengarkan aktif, memberi umpan balik yang konstruktif, sikap bahwa pengembangan tim adalah tugas utama (bukan distraksi).
L1, Pengalaman belajar. Pengalaman seperti apa yang menumbuhkan L2 dan membangun komitmen menerapkan? Modul, metode (simulasi, role-play, studi kasus), durasi, fasilitator, jadwal.

Konsekuensi backward design

Setiap modul tertaut indikator bisnis. Tidak ada modul "yang menarik tetapi tidak jelas kontribusinya".
Vendor merancang program, bukan jual kelas. Pertanyaan pertama kepada vendor: "Apa indikator bisnis yang akan bergerak dan perilaku apa yang akan mengeraskannya?"
Anggaran terjustifikasi. Diskusi dengan CFO: "Untuk menggerakkan KPI X sebesar Y, kita butuh perilaku Z di lapangan; program ini menghasilkan Z; biaya = …; expected manfaat = …"
Pengukuran bukan tempelan. L1–L4 sudah dirancang ke dalam program, bukan diciptakan setelah selesai.

Aturan praktis: Tanpa backward design, kelas dirancang dari L1 ("apa yang akan menarik?") dan dampak L4 hanya kebetulan. Dengan backward design, kelas dirancang dari L4 dan L1 menjadi konsekuensi.

Required drivers: penopang penerapan di tempat kerja

New World Kirkpatrick menamai apa yang banyak L&D rasakan tetapi jarang sistematisasi: lingkungan tempat kerja menentukan apakah pembelajaran menjadi perilaku. Tanpa required drivers, peserta kembali ke pekerjaan dengan niat baik dan kebiasaan lama menang dalam hitungan minggu.

Empat kategori required drivers

Kategori	Contoh konkret untuk program leadership lini-pertama
Reinforce (perkuat)	Job aid coaching GROW di laptop; weekly nudge email dari L&D; library video micro-learning
Encourage (dorong)	Atasan check-in mingguan tentang penerapan; peer-coaching circle bulanan; success story bulanan di newsletter
Reward (hargai)	KPI manajer mencakup skor 360 dari tim; bonus tahunan mempertimbangkan engagement tim; pengakuan publik untuk manajer dengan retensi tinggi
Monitor (pantau)	Dashboard one-on-one frequency; survei pulse bulanan ke anggota tim; review L&D tiap kuartal

Aturan praktis required drivers

Tanggung jawab bersama. Vendor merancang; HR/L&D memfasilitasi; atasan langsung peserta + sponsor unit memiliki required drivers.
Dibangun ke dalam program, bukan ditambahkan setelah kelas. Modul "briefing atasan" sebelum kelas peserta sama pentingnya dengan kelas peserta itu sendiri.
Konsekuensi tanpa required drivers: program "berhasil" di L2 (peserta belajar) tetapi gagal di L3 (tidak menerapkan). Klasik.

Aturan praktis: Riset Kirkpatrick Partners konsisten: workplace environment menyumbang lebih besar pada transfer perilaku daripada kualitas kelas itu sendiri. Anggaran 70% di kelas dan 0% di required drivers adalah anggaran setengah jadi.

Instrumen per level + jadwal pengukuran

Level	Instrumen lazim	Kapan diukur
L1 Reaksi	Smile sheet pendek (relevansi, kejelasan, niat menerapkan, hambatan), NPS sesi, observasi engagement	Segera setelah sesi (10–15 menit terakhir atau dalam 24 jam)
L2 Pembelajaran	Pre/post test pengetahuan, demonstrasi keterampilan, role-play dengan rubrik, simulasi terstruktur, asesmen kompetensi (terhadap SKKNI bila relevan)	Pre: sebelum sesi. Post: segera setelah sesi atau dalam 1–2 minggu
L3 Perilaku	Observasi atasan/peer dengan checklist, sampling work product, interview/FGD penerapan, survei 180/360, data sistem (CRM, KPI proses)	3–6 bulan setelah pelatihan (pola 30/60/90 hari untuk observasi tahap)
L4 Hasil	KPI bisnis target (revenue, turnover, NPS, time-to-X, error rate), leading & lagging indicators	6–12 bulan setelah pelatihan

Aturan instrumen

L1 jangan generik. Gantilah "Apakah Anda puas?" dengan "Apa satu hal spesifik yang akan Anda terapkan minggu depan? Apa yang menghalangi?"
L2 wajib baseline. Pre-test sebelum sesi mengubah pasca-test dari "skor tinggi yang tidak bermakna" menjadi "kenaikan terukur".
L3 jangan terlalu cepat. Mengukur dua minggu pasca-kelas menghasilkan data tidak reliabel karena perilaku belum mengendap (Kirkpatrick Partners). Gunakan jendela 3–6 bulan.
L4 wajib triangulasi. Satu KPI agregat dipengaruhi banyak faktor; gunakan kombinasi leading (proxy perilaku) dan lagging (hasil bisnis) plus metode isolasi (control group atau trend line dari Phillips ROI).

Level 3 deep: cara mengukur transfer perilaku

L3 adalah level paling sulit dan paling sering dihindari, padahal paling menentukan. Tiga komponen mengukurnya dengan benar:

(a) Definisikan perilaku terobservasi

Perilaku, bukan kompetensi. Buruk: "Manajer mampu coaching." Baik: "Manajer menjalankan one-on-one mingguan ≥ 30 menit dengan setiap anggota tim, menggunakan kerangka GROW, dan mencatat tindak lanjut di sistem HRIS."

(b) Triangulasi instrumen

Instrumen	Apa yang ditangkap	Bias
Survei diri peserta	Persepsi peserta tentang penerapannya	Bias positif (overestimate)
Observasi atasan	Perilaku yang terlihat atasan	Bias selektif (hanya tampak saat ada atasan)
360 dari bawahan/peer	Pengalaman orang yang menerima perilaku	Lebih akurat untuk perilaku interpersonal
Sampling work product	Bukti tangible (proposal, percakapan tercatat, ticket)	Objektif tetapi ketersediaan terbatas
Data sistem (CRM/HRIS)	Frekuensi/kualitas aktivitas	Objektif, real-time, mahal dikumpulkan ad-hoc

Triangulasi minimal 2 instrumen, satu kualitatif (interview/observasi) dan satu kuantitatif (data sistem atau 360).

(c) Jadwal 30/60/90 hari

30 hari: cek niat & hambatan awal (mid-course correction).
60 hari: observasi perilaku awal; required drivers berfungsi?
90 hari: pengukuran utama L3; perilaku sudah cukup mengendap.
6 bulan: pengukuran konfirmasi sebelum L4.

Required drivers menentukan L3

L3 yang kuat datang dari required drivers yang kuat. Bila L3 rendah, pertanyaan pertama yang produktif adalah "apakah atasan langsung mendukung penerapan? Apakah sistem mencatat perilaku baru? Apakah KPI menghargai perilaku target?", pertanyaan tentang kualitas kelas berada di urutan kedua.

Level 4 deep: leading vs lagging indicators

Tipe	Contoh	Karakteristik
Leading (sinyal awal)	Frekuensi one-on-one, jumlah percakapan diagnostik per minggu, kepuasan stakeholder triwulanan	Bergerak cepat, proxy perilaku agregat
Lagging (hasil akhir)	Turnover tahunan, NPS klien tahunan, revenue per FTE, market share	Bergerak lambat, hasil bisnis yang dituju

Aturan L4

Pilih KPI yang sudah ada. Jangan ciptakan KPI baru hanya untuk pelatihan, biaya pengumpulan tinggi, kebersinambungan rendah. Pakai indikator yang sudah dipantau RKAP/dashboard bisnis.
Isolasi efek pelatihan. KPI agregat dipengaruhi banyak faktor (pasar, produk, struktur insentif). Gunakan metode Phillips ROI (control group bila mungkin, trend line analysis, atau participant estimation) untuk memisahkan kontribusi pelatihan.
Leading dulu, lagging menyusul. Leading indicators (3–6 bulan) memberi sinyal apakah lagging (6–12 bulan) akan bergerak, waktu untuk koreksi sebelum hasil akhir.

Lihat panduan Phillips ROI Level 5 untuk metode isolasi dan monetisasi manfaat L4.

Kritik akademis & cara menjawabnya

Kritik	Sumber	Cara menjawab dalam praktik
Model bukan teori, tidak menjelaskan kausalitas	Holton (1996) "From Training to Performance Improvement"	Pakai sebagai framework, pasangkan dengan TNA (sebab kebutuhan) + required drivers (sebab transfer)
Asumsi kausal antar-level tidak selalu valid	Bates (2004)	Triangulasi instrumen; jangan asumsi L1 tinggi → L4 tinggi
Faktor lingkungan diabaikan	Tannenbaum, Cannon-Bowers, Mathieu	Required drivers New World Model menjawab ini secara eksplisit
Tidak menjelaskan biaya	Berbagai akademisi	Phillips ROI Level 5 menambahkan dimensi biaya
Bias bottom-up (mulai dari L1)	Wendy & Jim Kirkpatrick	Backward design, mulai dari L4 menjawab kritik ini

Sintesis sehat: Kirkpatrick adalah peta pengukuran. Pasangkan dengan: TNA untuk sebab, required drivers untuk transfer, Phillips ROI untuk justifikasi biaya, dan 70-20-10 untuk realisme pembelajaran. Bersama, mereka menjadi mesin yang utuh.

Adaptasi konteks Indonesia (SKKNI, hierarki, RKAP)

(1) Ikat L2 ke SKKNI

Untuk peran teknis dan kepatuhan, ukur L2 terhadap unit kompetensi SKKNI yang relevan, bukan hanya skor internal. Bila perlu sertifikat kompetensi, hubungkan dengan jalur uji LSP berlisensi BNSP. Ini membuat L2 dapat diaudit dan menghubungkan pelatihan ke jalur karir formal. Lihat panduan TNA untuk pemetaan kompetensi ke SKKNI.

(2) Manfaatkan budaya hierarkis sebagai aset

Dalam banyak organisasi Indonesia, atasan langsung memiliki pengaruh besar pada perilaku bawahan. Ini aset untuk Kirkpatrick, bukan hambatan:

Briefing atasan sebelum kelas peserta, atasan diberitahu apa yang akan dipelajari peserta dan diminta menjadi required driver.
Atasan memberi penugasan penerapan setelah kelas (job aid + jadwal check-in).
Skor 360 dari bawahan dimasukkan ke evaluasi kinerja atasan agar required driver "memberi coaching" dihargai struktural.

(3) Tautkan L4 ke RKAP/kontrak kinerja

Untuk BUMN dan instansi pemerintah, indikator bisnis sering tertaut RKAP (BUMN) atau kontrak kinerja Eselon I/II (pemerintah). KPI L4 yang dipakai pelatihan sebaiknya subset dari KPI yang sudah dimonitor, bukan diciptakan baru, supaya tidak menjadi beban pelaporan tambahan.

(4) Bahasa instrumen

Form L1 dalam Bahasa Indonesia dengan pertanyaan spesifik & operasional, bukan "puas/sangat puas".
Rubrik L2/L3 menggunakan istilah yang dipakai sehari-hari di organisasi (mis. "kunjungan pelanggan", bukan "client engagement").
Penjelas budaya: hindari pertanyaan yang membuat peserta merasa "menilai atasan" bila konteks budaya membuatnya tidak nyaman; gunakan rekan sejawat sebagai proxy.

Hubungan dengan TNA, ADDIE, Phillips ROI, 70-20-10

Kerangka	Peran
TNA (McGehee & Thayer; Allison Rossett)	Menetapkan kebutuhan & baseline; tanpa TNA, Kirkpatrick tidak punya tolok ukur
ADDIE (Analysis, Design, Development, Implementation, Evaluation)	Kirkpatrick = jantung fase Evaluation; backward design = fase Analysis & Design
Phillips ROI Level 5	Memonetisasi L4 jadi BCR & ROI%; menambah dimensi biaya
70-20-10 (Lombardo & Eichinger)	Realitas pembelajaran: 70% pengalaman, 20% interaksi, 10% formal, required drivers di L3 = 70 dan 20

Sintesis: TNA → ADDIE (Design backward dari L4) → Implementation (kelas + required drivers) → Evaluation (L1–L4 sesuai jadwal) → ROI Level 5 untuk justifikasi anggaran. Kirkpatrick adalah evaluasi; ia hanya berdiri di atas fondasi yang sehat.

Contoh program lengkap L1–L4 (ilustratif)

Skenario peraga, bukan data klien.

Program: Pelatihan kepemimpinan manajer lini-pertama, 24 peserta, in-house Jakarta, 5 hari + 6 bulan penguatan.

Hasil bisnis target (L4): Turnover manajer lini turun dari 18% ke 12% dalam 12 bulan; skor engagement tim naik dari 65 ke 75.

Perilaku target (L3): Manajer melakukan one-on-one mingguan ≥ 30 menit dengan setiap anggota tim; menggunakan kerangka GROW; mencatat di HRIS; memberikan ≥ 1 umpan balik konstruktif spesifik per minggu.

Pembelajaran target (L2): Memahami GROW; mampu mendengarkan aktif (skor rubrik ≥ 4/5); mampu memberi umpan balik konstruktif terstruktur (skor rubrik ≥ 4/5); sikap bahwa pengembangan tim = tugas utama.

Pengalaman belajar (L1): 5 hari × 7 jam = 35 jam in-person dengan 60% simulasi/role-play; 6 bulan micro-learning bulanan + peer-coaching bulanan + check-in atasan mingguan.

Required drivers: KPI manajer mencakup skor 360 dari tim; dashboard one-on-one frequency di HRIS; pengakuan kuartalan untuk manajer dengan retensi tinggi; library video micro-learning; weekly nudge email.

Pengukuran:

Level	Instrumen	Kapan
L1	Smile sheet (relevansi, niat, hambatan), NPS sesi	Akhir setiap hari + akhir program
L2	Pre/post test pengetahuan; role-play coaching dengan rubrik	Hari 1 (pre) + hari 5 (post)
L3	Survei 360 ke 5 anggota tim; data HRIS frekuensi one-on-one; observasi 5 manajer secara sampling	90 hari + 6 bulan
L4	Turnover tahunan; skor engagement tim dari survei tahunan korporat	12 bulan

Laporan akhir: menautkan L1 → L2 → L3 → L4, dengan catatan required drivers yang berhasil/gagal, dan rekomendasi siklus berikutnya.

Program ini menghabiskan ~30% anggaran pada required drivers + pengukuran (di luar honor fasilitator dan logistik), ratio sehat untuk program perilaku berskala.

Sepuluh kesalahan umum & cara menghindarinya

#	Kesalahan	Cara menghindari
1	Hanya mengukur L1, menyebutnya "evaluasi"	Sepakati L1–L4 sejak proposal vendor
2	Tidak ada baseline pra-pelatihan	TNA wajib + asesmen pra-kelas
3	Mengukur L3 terlalu cepat (2 minggu)	Jadwalkan 3–6 bulan; observasi tahap 30/60/90 hari
4	Smile sheet L1 generik	Tanyakan relevansi + niat menerapkan + hambatan, bukan kepuasan
5	Tidak ada required drivers	Bangun ke dalam program: briefing atasan, sistem, KPI, pengakuan
6	Satu instrumen tanpa triangulasi	Kombinasi survei + observasi + data sistem
7	L4 hanya KPI agregat tanpa isolasi	Pakai metode Phillips ROI (control group / trend line / participant estimation)
8	Tidak ada backward design	Mulai dari L4, turun ke L1
9	Vendor tidak terlibat di L3–L4	Sepakati di kontrak: vendor bantu instrumen, baseline, dan laporan
10	Tidak ada laporan yang menautkan L1–L4 ke bisnis	Wajibkan format laporan akhir dengan narasi kausalitas

Checklist implementasi Kirkpatrick

Sebelum eksekusi program, pastikan tercentang:

FAQ

Apa itu Model Kirkpatrick 4 Level?

Model Kirkpatrick adalah kerangka evaluasi pelatihan paling banyak dipakai di dunia: Level 1 Reaksi (kepuasan & relevansi peserta), Level 2 Pembelajaran (kenaikan pengetahuan/keterampilan/sikap), Level 3 Perilaku (penerapan di pekerjaan), Level 4 Hasil (indikator bisnis). Diperkenalkan Donald L. Kirkpatrick lewat empat artikel di Training Director's Journal of ASTD (1959), kemudian diperluas anaknya Jim Kirkpatrick bersama istrinya Wendy Kayser Kirkpatrick dalam buku 'Kirkpatrick's Four Levels of Training Evaluation' (2016) menjadi 'New World Kirkpatrick Model', yang menambahkan konsep required drivers (penopang penerapan di tempat kerja) dan prinsip backward design (rancang program dari L4 ke L1).

Apa beda model Kirkpatrick asli dengan New World Kirkpatrick Model?

Empat level tetap sama. Yang baru di New World Model (2016): (1) Prinsip backward design, rancang program dari Level 4 (hasil bisnis yang ditargetkan) bekerja mundur ke Level 1, tetapi tetap mengukur dari Level 1 maju ke Level 4. (2) Konsep required drivers di Level 3, proses, sistem, dan dukungan manajemen yang membuat perilaku baru tetap terjadi setelah kelas selesai. (3) Penekanan pada Level 3 sebagai sentral, karena tanpa perubahan perilaku, Level 4 tidak terjadi. (4) Pembedaan eksplisit antara leading indicators (jangka pendek) dan lagging indicators (jangka panjang) di Level 4. New World Model membuat Kirkpatrick relevan untuk transformasi perilaku organisasi, melampaui fungsi audit pasca-kelas.

Kenapa kebanyakan pelatihan berhenti di Level 1?

Empat penyebab. (1) Murah & cepat, form 'smile sheet' dibagikan di akhir sesi, langsung skor. (2) Tampak menyenangkan untuk dilaporkan, skor 4,5/5 mudah dipakai membenarkan anggaran. (3) Level 2–4 menuntut baseline pra-pelatihan dan koordinasi lintas fungsi yang sering tidak disiapkan. (4) Tidak ada permintaan dari sponsor, bila CFO/direksi tidak menuntut bukti perilaku/hasil, L&D tidak terpaksa naik level. Konsekuensinya: anggaran pelatihan dipotong duluan saat efisiensi karena dampaknya tidak dapat dihitung. Solusinya: minta vendor merancang evaluasi L1–L4 sejak proposal, dengan baseline dari TNA.

Bagaimana prinsip backward design (mulai dari Level 4)?

Konsep New World Kirkpatrick: rancang ke belakang dari hasil bisnis. (1) Mulai L4, tanyakan 'apa indikator bisnis yang harus berubah?' (mis. turnover manajer lini turun 20%, NPS naik 5 poin, time-to-quote turun 3 hari). (2) Turun ke L3, 'perilaku spesifik apa yang harus dilakukan peserta agar L4 terjadi?' (mis. manajer memberi check-in mingguan, tenaga sales menjalankan diskusi diagnostik di setiap proposal). (3) Turun ke L2, 'pengetahuan/keterampilan/sikap apa yang harus dimiliki agar perilaku L3 mungkin?' (mis. teknik coaching GROW, kerangka SPIN selling). (4) Turun ke L1, 'pengalaman belajar seperti apa yang menumbuhkan L2 dan membangun komitmen?'. Hasilnya: setiap modul punya garis lurus ke indikator bisnis. Tanpa backward design, kelas dirancang dari L1 (apa yang akan menarik) dan dampak L4 hanya kebetulan.

Apa itu required drivers dan kenapa krusial di Level 3?

Required drivers (penopang penerapan) adalah proses, sistem, dukungan manajemen, dan struktur penghargaan yang membuat perilaku baru terjadi dan bertahan di tempat kerja. Contoh: atasan langsung melakukan check-in mingguan tentang penerapan, sistem CRM diperbarui untuk mencatat diskusi diagnostik, KPI insentif disesuaikan untuk menghargai perilaku target, peer-coaching mingguan, job aid di meja kerja. Tanpa required drivers, peserta kembali ke pekerjaan dengan niat baik dan kebiasaan lama menang dalam hitungan minggu, pelatihan menjadi event tanpa dampak. Riset Kirkpatrick Partners konsisten: workplace environment menentukan apakah pembelajaran menjadi perilaku, lebih besar pengaruhnya daripada kualitas kelas itu sendiri.

Kapan setiap level diukur (jadwal pengukuran)?

Level 1, segera setelah sesi (10–15 menit terakhir kelas atau dalam 24 jam). Level 2, segera setelah sesi (asesmen pra/pasca) untuk pengetahuan, atau dalam 1–2 minggu untuk keterampilan demonstrasi. Level 3, 3 sampai 6 bulan setelah pelatihan; mengukur lebih awal (mis. 2 minggu) menghasilkan data tidak reliabel karena perilaku belum mengendap. Pola umum: observasi 30/60/90 hari atau survei perilaku 3–6 bulan dengan referensi diri + atasan + bawahan (180/360). Level 4, 6 sampai 12 bulan; cukup lama untuk indikator bisnis bergerak dan untuk required drivers mengendapkan perilaku. Jadwal terlalu cepat = bukti palsu; terlalu lambat = pembelajaran tidak ditindaklanjuti.

Instrumen apa yang dipakai per level?

Level 1: smile sheet pendek (relevansi, kejelasan, niat menerapkan, bukan hanya 'kepuasan'), Net Promoter Score sesi. Level 2: tes pengetahuan pra/pasca, demonstrasi keterampilan, role-play berstandar rubrik, simulasi terstruktur, asesmen kompetensi terhadap SKKNI bila relevan. Level 3: observasi perilaku oleh atasan/peer dengan checklist, sampling work product (mis. proposal yang ditulis, percakapan yang direkam), interview/FGD penerapan, survei 180/360, data sistem (CRM, ticket, KPI proses). Level 4: KPI bisnis yang ditargetkan (NPS, turnover, time-to-X, error rate, revenue per FTE), leading indicators (proxy perilaku agregat) dan lagging indicators (hasil bisnis akhir). Triangulasi instrumen mengurangi bias laporan-diri.

Apa kritik akademis terhadap Model Kirkpatrick dan bagaimana mengatasinya?

Kritik utama (Holton 1996; Bates 2004): (a) Model bukan teori, ia kerangka taksonomi, tidak menjelaskan kausalitas; (b) Asumsi kausal antar-level (L1 → L2 → L3 → L4) tidak selalu valid, peserta bisa puas (L1 tinggi) tanpa belajar (L2 rendah), atau belajar tanpa menerapkan (L3 rendah); (c) Faktor lingkungan (yang dijawab New World Model lewat required drivers) sering diabaikan; (d) Tidak menjelaskan biaya, Jack Phillips menambahkan Level 5 ROI sebagai jawaban. Cara mengatasi: pakai Kirkpatrick sebagai framework pengukuran yang harus dipasangkan dengan TNA (sebab kebutuhan), required drivers (sebab transfer perilaku), Phillips ROI Level 5 (sebab justifikasi biaya), dan triangulasi data. Kirkpatrick adalah peta, bukan mesin.

Bagaimana mengadaptasi Kirkpatrick untuk konteks pelatihan korporat di Indonesia?

Empat penyesuaian. (1) Pemetaan Level 2 ke SKKNI: kompetensi yang dituntut peran ditautkan ke unit SKKNI relevan; asesmen pra/pasca diukur terhadap standar, bukan hanya skor internal. Bila perlu sertifikasi, hubungkan dengan jalur LSP berlisensi BNSP. (2) Required drivers konteks lokal: atasan langsung berperan kuat dalam budaya Indonesia, sehingga briefing atasan sebelum kelas + check-in pasca-kelas memberi leverage besar. (3) Level 4 untuk BUMN/instansi: indikator bisnis sering tertaut RKAP atau kontrak kinerja; pastikan KPI yang dipakai tercatat di sistem yang sudah ada (bukan diciptakan baru). (4) Bahasa instrumen: form L1 dalam Bahasa Indonesia dengan pertanyaan yang spesifik (bukan 'puas/sangat puas'); rubrik L2/L3 dalam istilah operasional yang dipakai sehari-hari. Lihat panduan TNA untuk mengikat baseline pengukuran ke standar SKKNI.

Bagaimana hubungan Kirkpatrick dengan Phillips ROI Level 5?

Phillips ROI Methodology (Jack J. Phillips, 1973) menambahkan Level 5 di atas Kirkpatrick L1–L4: monetisasi manfaat L4 dan dibandingkan dengan biaya program. Formula: BCR = Total Manfaat ÷ Total Biaya; ROI% = ((Manfaat − Biaya) ÷ Biaya) × 100. L5 menjawab kritik 'Kirkpatrick tidak menjelaskan biaya'. Tetapi L5 hanya valid bila L4 valid; L4 hanya valid bila L3 valid; L3 hanya valid bila required drivers ada; L1–L2 valid bila desain pembelajaran bagus. Jadi ROI bukan pengganti Kirkpatrick, ia memperdalamnya. Lihat panduan Phillips ROI Level 5 untuk metode isolasi (control group / trend line / participant estimation), monetisasi manfaat, dan biaya fully-loaded.

Apa kesalahan paling umum saat mengaplikasikan Kirkpatrick?

Sepuluh kesalahan paling sering: (1) Hanya mengukur L1 dan menyebutnya 'evaluasi'; (2) Tidak ada baseline pra-pelatihan untuk L2/L3/L4; (3) Mengukur L3 terlalu cepat (2 minggu) sehingga datanya tidak reliabel; (4) Smile sheet L1 generik ('puas/sangat puas') tanpa pertanyaan relevansi atau niat menerapkan; (5) Tidak ada required drivers, peserta kembali ke lingkungan kerja yang menghalangi penerapan; (6) Mengandalkan satu instrumen (mis. hanya survei diri) tanpa triangulasi; (7) L4 hanya KPI agregat yang dipengaruhi banyak faktor, tanpa metode isolasi; (8) Tidak ada backward design, kelas dirancang dari L1 dan L4 hanya kebetulan; (9) Vendor tidak dilibatkan dalam pengukuran L3–L4 sehingga datanya tergantung internal yang kekurangan waktu; (10) Tidak ada laporan akhir yang menautkan L1–L4 ke sasaran bisnis dan tindak lanjut. Tiap kesalahan ini menurunkan kredibilitas L&D di hadapan keuangan dan direksi.

Langkah berikutnya

Anda sekarang punya kerangka Kirkpatrick yang lengkap: empat level, prinsip backward design, required drivers, instrumen per level, jadwal 30/60/90 hari, adaptasi Indonesia, kritik akademis dan jawabannya. Langkah berikutnya yang masuk akal adalah menjalankan TNA yang menetapkan baseline L2–L4, sebelum merancang program apa pun.

Neksus merancang setiap program dengan backward design Kirkpatrick: dimulai dari indikator bisnis target (L4), turun ke perilaku (L3) + required drivers, ke pembelajaran (L2) yang diikat SKKNI, dan ke pengalaman belajar (L1). Pengukuran L1–L4 disertakan dalam proposal, dengan instrumen, jadwal, dan format laporan akhir yang menautkan ke sasaran bisnis. Diskusikan kebutuhan tim Anda dan minta TNA awal lewat halaman kontak Neksus, tanpa kewajiban.

Pelajari juga panduan yang melengkapi:

Training Needs Analysis (TNA), sebab kebutuhan & baseline
Phillips ROI Level 5, monetisasi & justifikasi anggaran
Cara Memilih Vendor Pelatihan Korporat, kriteria yang menuntut Kirkpatrick L1–L4
RFP Pelatihan Korporat: Template & Kriteria, pertanyaan teknis Kirkpatrick yang harus dimuat
Vendor Scoring Rubric, bobot "metodologi & pengukuran"
Menyusun RAB & Anggaran Pelatihan Tahunan, anggarkan required drivers & pengukuran
Kepemimpinan untuk Manajer Lini Pertama, contoh program dengan L1–L4
Lihat seluruh katalog pelatihan →

Terakhir diperbarui: 18 Mei 2026. Kerangka yang dikutip (Donald L. Kirkpatrick, 1959, four-article series in Training Director's Journal of ASTD; Donald Kirkpatrick, 1994, Evaluating Training Programs: The Four Levels; Jim D. Kirkpatrick & Wendy Kayser Kirkpatrick, 2016, Kirkpatrick's Four Levels of Training Evaluation, New World Kirkpatrick Model; Holton 1996; Bates 2004; Phillips 1973 ROI Methodology; ADDIE; SKKNI; 70-20-10 Lombardo & Eichinger) diatribusikan pada sumber aslinya. Contoh program bersifat ilustratif; angka untuk peraga metode, bukan data klien. Neksus tidak menampilkan nama klien atau statistik keberhasilan.

Kirkpatrick 4-Level Deep: Cara Mengaplikasikan Evaluasi Pelatihan di Indonesia (New World Model, Backward Design, Required Drivers)