LÝ THUYẾT ĐO LƯỜNG: KHUNG PHƯƠNG PHÁP (CTT — IRT — RASCH)

Chủ nhật - 10/08/2025 05:24
Lý thuyết phản hồi mục (Item Response Theory – IRT) và Mô hình Rasch. Mỗi khung được mô tả về khái niệm cơ bản, công thức then chốt, ưu-nhược điểm, điều kiện ứng dụng, các chỉ số kiểm định thường dùng và quy trình thực nghiệm gợi ý.
LÝ THUYẾT ĐO LƯỜNG: KHUNG PHƯƠNG PHÁP (CTT — IRT — RASCH)

1. Tổng quan khái quát: vai trò của lý thuyết đo lường

Đo lường trong khoa học xã hội/tâm lý là quá trình biến những khái niệm trừu tượng (ví dụ: năng lực, thái độ, cảm xúc) thành chỉ báo có thể quan sát/đo lường. Khung lý thuyết đo lường trả lời các câu hỏi then chốt: “Điểm thu được có phản ánh đúng ‘điểm thật’ của cá nhân không?”, “Mỗi mục (item) đóng góp như thế nào vào cấu trúc đo?” và “Có thể so sánh thang đo ở các nhóm khác nhau không?”.

Ba khung chính — CTT, IRT và Rasch — tiếp cận vấn đề với những giả thiết, công cụ và mục tiêu khác nhau nhưng bổ sung cho nhau trong thực hành thiết kế, kiểm định và chuẩn hóa thang đo.
 

2. Classical Test Theory (CTT) — Lý thuyết điểm thật & sai số

2.1. Khái niệm cơ bản

  • Độ khó (p) trung bình item; độ phân biệt (item-total correlation); phân tích phân bố đáp án.

2.3. Ưu & nhược

  • Ưu: dễ hiểu, dễ tính toán, phù hợp giai đoạn đầu phát triển công cụ; ít yêu cầu mẫu lớn.

  • Nhược: các thông số (ví dụ độ khó, độ phân biệt) phụ thuộc vào mẫu; không mô tả hành vi của từng item theo mức “khả năng” (ability) cụ thể; khó ứng dụng cho bài thi thích nghi.

2.4. Khi nào dùng CTT

  • Giai đoạn thiết kế ban đầu, pilot test, kiểm tra tính ổn định sơ bộ của bảng hỏi; khi nguồn lực phân tích hạn chế; khi mục tiêu là tính toán Cronbach’s α, t-test, phân tích item đơn giản.

3. Item Response Theory (IRT) — Mô hình mức độ item theo năng lực

3.1. Khái niệm cơ bản

IRT mô tả xác suất trả lời đúng (hoặc một cấp độ đáp án) của một item như một hàm toán học của năng lực (θ) người đo và các tham số item. Mô hình phổ biến là dạng logit:

3.2. Lợi ích then chốt

  • Mô tả hành vi item ở mức năng lực, không phụ thuộc (với mô hình chuẩn) vào mẫu.

  • Cho phép ước lượng thông tin item (item information) và độ chính xác đo lường theo θ.

  • Hỗ trợ DIF (kiểm tra khác biệt chức năng item), liên kết thang, xây ngân hàng item và thiết kế Computerized Adaptive Testing (CAT).

3.3. Yêu cầu & nhược điểm

  • Cần mẫu đủ lớn để ước lượng tham số chính xác (mức tham khảo: ≥200–500 tùy mô hình/độ phức tạp; 3PL yêu cầu mẫu lớn hơn).

  • Phức tạp kỹ thuật (cần phần mềm chuyên dụng: IRTPRO, mirt/ltm trong R, ConQuest, flexMIRT, BILOG).

  • Kiểm định phù hợp mô hình (goodness-of-fit) và xử lý các item không phù hợp đòi hỏi chuyên môn.

4. Mô hình Rasch — một trường phái đặc thù và ứng dụng

4.1. Bản chất

Mô hình Rasch (một dạng 1PL) đặt ra tiêu chuẩn mạnh: tính khách quan cụ thể (specific objectivity) — so sánh người và item độc lập lẫn nhau. Công thức chuẩn:

Trong Rasch, tham số discrimination aaa bị cố định = 1 cho tất cả các item.

4.2. Đặc trưng thực tiễn

  • Sufficiency of total score: tổng điểm là thống kê đầy đủ để ước lượng θ trong mô hình Rasch.

  • Infit/outfit: chỉ số fit dùng để đánh giá item/person fit (mức độ tương thích giữa dữ liệu và mô hình).

  • Bản đồ item-person (Wright map): biểu diễn trực quan vị trí item và người trên cùng thang logit.

4.3. Ưu điểm & hạn chế

  • Ưu: thích hợp để chuẩn hóa, so sánh xuyên nhóm, phù hợp cho giáo dục/khảo thí muốn tính thang đo chuẩn; lý thuyết chặt chẽ.

  • Hạn chế: mô hình hạn chế (đặt a=1a=1a=1) có thể không phù hợp nếu items có discrimination khác nhau; đôi khi phải loại item hoặc cân nhắc mô hình IRT linh hoạt hơn.

5. Kiểm định mô hình & chỉ số thực nghiệm quan trọng

5.1. Trong CTT

  • Cronbach’s α, item-total correlations, phân tích độ khó (p), phân tích độ phân biệt (point-biserial).

5.2. Trong IRT / Rasch

  • Model-fit at item level: chi-square, S-X² (Orlando & Thissen), infit/outfit (Rasch).

  • Person fit: thống kê z, misfit detection.

  • DIF: Mantel-Haenszel, logistic regression, IRT-LR DIF test.

  • Information functions: Item Information Function (IIF) và Test Information Function (TIF) — mô tả độ chính xác theo mức θ.

  • Global fit: -2LL, AIC/BIC, likelihood ratio tests (khi so sánh mô hình lồng nhau).

6. Quy trình thực nghiệm khuyến nghị (workflow thực tế)

  1. Xây dựng khung lý thuyết → định nghĩa cấu trúc (các thang/biến).

  2. Biên soạn items theo khung (đa dạng dạng câu hỏi, tránh ngôn ngữ mơ hồ).

  3. Panel chuyên gia đánh giá mặt nội dung (content validity).

  4. Pilot nhỏ (CTT sơ bộ): phân tích phân bố, item-total, Cronbach’s α; sửa/loại item.

  5. Phân tích cấu trúc: EFA (nếu khám phá cấu trúc), CFA (xác nhận mô hình đo).

  6. CTT → IRT/Rasch: nếu mục tiêu là chuẩn hóa sâu, phân tích IRT để ước lượng tham số item; kiểm tra DIF.

  7. Chuẩn hóa: xây bảng chuẩn (norms) nếu cần; chuyển đổi scores (score linking/equating).

  8. Triển khai: tạo forms/thang đo cuối cùng; nếu áp dụng CAT, xây ngân hàng item và thuật toán chọn item.

  9. Đánh giá liên tục: giám sát hiệu năng item theo thời gian, cập nhật ngân hàng item.

7. Ứng dụng thực tiễn & ví dụ điển hình

  • Khảo sát giáo dục: thiết kế thang đo năng lực học tập, kiểm tra độ tin cậy bằng CTT rồi chuẩn hóa bằng Rasch/IRT.

  • Đánh giá SEL (Social-Emotional Learning): xây thang đo nhiều chiều, dùng CFA + IRT để kiểm chứng cấu trúc và thông tin item.

  • Khảo thí chuẩn hóa & CAT: ngân hàng item được hiệu chuẩn bằng IRT → thuật toán bước chọn item theo TIF → rút ngắn thời lượng thi mà vẫn giữ độ chính xác.

  • Chuẩn hóa across cultures: dùng Rasch/IRT kiểm tra DIF để đảm bảo công bằng xuyên nhóm ngôn ngữ/địa lý.

8. Vấn đề thực tế: mẫu, phần mềm & nguồn lực

  • Kích thước mẫu:

    • CTT: có thể bắt đầu với vài chục – 100 cho pilot; phân tích chắc chắn hơn ở ≥200.

    • IRT 1PL/2PL: thường khuyến nghị ≥200–500; 3PL cần lớn hơn (≥500–1000) để ước lượng tham số c ổn định.

  • Phần mềm thường dùng: SPSS (CTT, EFA), R (psych, lavaan, mirt, ltm), Winsteps / ConQuest / IRTPRO / BILOG-MG (IRT/Rasch), Mplus/AMOS (CFA/SEM), JASP (giao diện thân thiện cho các phân tích cơ bản), RaschWin/Winsteps cho Rasch.

  • Chuẩn mực đạo đức & dữ liệu: bảo mật, ẩn danh, IRB approval, lưu trữ code nghiệp vụ để reproducibility.

9. Một số khuyến nghị chuyên môn cấp cao

  1. Không “ép” mô hình: bắt đầu bằng phân tích CTT + EFA/CFA để hiểu cấu trúc trước khi áp IRT/Rasch.

  2. Triangulation: kết hợp nhiều nguồn dữ liệu (survey + observation + task) để đảm bảo tính hợp lệ nội dung và hợp lý lý thuyết.

  3. Kiểm soát DIF khi áp dụng thang đo cho nhóm khác nhau (giới, vùng, ngôn ngữ).

  4. Lập pipeline reproducible: dùng script (R/Python), preregister study design khi có thể.

  5. Đào tạo nhân lực: IRT/Rasch đòi hỏi chuyên môn cao — nên có sự hợp tác giữa nhà thực nghiệm, nhà thống kê và chuyên gia nội dung.

10. Kết luận ngắn gọn

  • CTT là công cụ khởi đầu, nhẹ nhàng, phù hợp giai đoạn thiết kế và pilot.

  • IRT cung cấp khung mạnh để hiểu hành vi item theo mức năng lực, cần mẫu lớn và chuyên môn thống kê sâu — thích hợp cho chuẩn hóa, DIF, CAT.

  • Rasch là lựa chọn lý thuyết chặt chẽ khi mục tiêu là so sánh công bằng và xây thang chuẩn hóa; nó yêu cầu kiểm tra fit sát sao và đôi khi phải hi sinh sự linh hoạt của mô hình.

Trong nghiên cứu và ứng dụng tâm lý học hiện đại, kết hợp hợp lý CTT → CFA → IRT/Rasch cho phép đạt được cả tính thực tiễn và tính khoa học cao: từ xây thang, kiểm định đến chuẩn hóa và triển khai lâm sàng/giáo dục.

Tác giả bài viết: Ts Nguyễn Hữu Thi

VIỆN TÂM LÝ HỌC TÍCH CỰC & PHÁT TRIỂN GIÁO DỤC (IPPED)

Tổng số điểm của bài viết là: 0 trong 0 đánh giá

Click để đánh giá bài viết

  Ý kiến bạn đọc

MỤC TIÊU VÀ TRIẾT LÝ ĐỊNH HƯỚNG CHIẾN LƯỢC PHÁT TRIỂN CỦA VIỆN TÂM LÝ HỌC TÍCH CỰC VÀ PHÁT TRIỂN GIÁO DỤC (IPPED)

Mục tiêu và triết lý của chúng tôi được cô đọng trong hai tuyên ngôn: “Khoa học cảm xúc làm nền tảng – kết nối não bộ để chữa lành tâm hồn – thúc đẩy tâm lý tích cực và giáo dục khai phóng nhằm phát triển con người, xây dựng cộng đồng lành mạnh và lan tỏa hạnh phúc bền vững.” “Phát triển cảm...

Viện IPPED
Thăm dò ý kiến

Bạn có đang tìm hiểu hoặc quan tâm đến ?

IPPED Footer
Apps Test
Bạn đã không sử dụng Site, Bấm vào đây để duy trì trạng thái đăng nhập. Thời gian chờ: 60 giây