پروژه Monte Carlo (قسمت اول)
با وجود امتیازات نظری شناخته شده تئوری سؤال- پاسخ نسبت به تئوری کلاسیک-تست تحقیقاتی که ویژگیهای تجربیشان برای معلوم کردن تفاوتهای پایدار قابل اثبات بودند، ناکام ماندند. این مطالعه با استفاده از تکنیکهای Monte Carlo با داده آزمون شبیه سازی شده ویژگی آمارههای آزمودنی و سؤال حاصل از این دو چارچوب اندازهگیری را بررسی نمود. یافتهها ارائه نمودند که برآوردهای توانایی آزمودنی و دشواری سؤال مبتنی بر تئوری سؤال- پاسخ و تئوری کلاسیک- تست در شرایط شبیهسازی آزمون با یکدیگر بسیار قابل مقایسه (همانند) باثبات و دقیق هستند. اگر چه، در حالیکه برآوردهای تمییزسؤال براساس تئوری سؤال- پاسخ در میان اکثر شرایط تجربی درست هستند، پارامترهای تمییزسؤال مبتنی بر تئوری کلاسیک- تست ثابت شد تنها تحت یکسری شرایط صحت دارند. کاربردهای نتایج این مطالعه برای تجزیه و تحلیل سؤال روانسنجی و انتخاب سؤال بحث میشود.
ارتقاء آزمونهای پیشرفت، توانایی، استعداد، علاقه و شخصیت کلاً یک فرآیند چند مرحلهای است که متعاقب یکی از دو چارچوب متمایز اندازهگیری حاصل میشود. این چارچوبها معمولاً راهبردهای اندازهگیری تئوری کلاسیک-تست و تئوری سؤال- پاسخ نامیده میشوند. مراحل متفاوتی در تجزیه و تحلیل آماری سؤالات آزمون منبع اولیه سؤال بسته به روش که طراح سؤال انتخاب مینماید که احتمالاً منجر به مجموعههای متفاوت سؤالاتی است که در فرم پایانی امتحان حاصل میشود.
سؤالی که یک طراح آزمون مواجه میشود این است که آیا این تفاوتها به پیامدهای متفاوت بذاته منجر خواهد شد. اگر چنین رخ دهد، آیا یک پیامد نسبت به پیامدهای دیگر در اصطلاح ویژگیهای روانسنجی کلی آزمون برتری دارد؟ هدف این مقاله گزارش دادههای تجربی جدید مربوط به این سؤالات هست.
تئوری کلاسیک- تست در مقابل تئوری سؤال- پاسخ
تحت چارچوب تئوری کلاسیک- تست، تجزیه و تحلیل سؤال به مقدار زیادی شامل محاسبه شاخصهای دشواری و تمییزبرای هر سؤال هست. دشواری یک سؤال از طریق نسبت آزمودنیهایی که یک سؤال دو ارزشی را در فرم دستور کلیدی (برای مثال ، غلط یا صحیح) و یا آزمودنیهایی که به یک سؤال- پاسخ صحیح دادند، بدست میآید. میزان تأیید سؤال یا قبولی سؤال بعنوان میانگین سؤال، دشواری سؤال، یا مقدار p سؤال اشاره میشود، به موجب اینکه یک مقدار به 0/1 نزدیک شود یک سؤال آسان را نشان میدهد و یک مقدار که به 0 نزدیک شود یک سؤال مشکل را نشان میدهد.
تمییزسؤال به توانایی یک سؤال در تمییزبین آزمودنیها با سطوح گوناگون توانایی مربوط میشود تمییزیک سؤال اغلب بوسیله همبستگی Product – moment ( rit) بین پاسخهای آزمودنیها به یک سؤال (برای مثال یا 0 یا 1 برای سؤال دو ارزشی نمرهگذاری شده) و نمرات کل آزمون آزمودنیها برآورد میشود. در یکسری کاربردهای تئوری کلاسیک تمییزسؤال تصحیح شده بوسیله محاسبه نمرات کل باستثنایی نمرات سؤال (مثل 0 یا 1) در سؤال مورد تجزیه و تحلیل جهت اجتناب از ازدیاد همبستگی از طریق اثر نمرات سؤال در هر دو متغیرهایی که تحت همبستگی قرار میگیرند محاسبه میشود. تمییزسؤال بزرگ مقدار( rit) نشان میدهد که سؤال بین آزمودنیها توانایی پایین و بالا بطور مؤثری تمییزمیکند، در حالیکه تمییزسؤال منفی یا نزدیک به صفر مقدار( rit) نشان می دهد تمایز آزمودنیها ضعیف است.
محدودیتهای شاخصهای دشواری سؤال تمییزسؤال تئوری کلاسیک- تست بوسیله (LORD (1953 و اخیراً چند پژوهشگر دیگر اشاره شده است.
(Hambleton & Swaminathan، 1985; Hambleton، Swaminathan ، Rogers، 1991; Nunnally & Bernstein، 1994).
محدودیت اصلی ذکر شده این است که آمارههای آزمودنی و آمارههای سؤال (که نمرات آزمون مشاهده شده هست) وابستهاند. که آن برآوردهای دشواری سؤال و تمییزسؤال که به گروهی از آزمودنیها که آزمون را کامل میکنند بستگی دارد، و برآوردهای توانایی آزمودنی به سؤالات آزمون ویژه اجراء شده وابسته هستند.
برای به ترسیم کشیدن وابستگی آمارههای سؤال و آزمودنی تحت تئوری کلاسیک-تست یک آزمون را که توانایی مورد علاقه را اندازهگیری میکند در نظر بگیرید. در آن آزمون نمرات توانایی آزمودنی وابسته به دشواری سؤالات آزمون هستند. بنابراین، اگر آزمون از سؤالات نسبتاً آسان تشکیل شده باشد، آمارههای آزمودنی ( که نمرات آزمون مشاهده شده است) نسبتاً بالا خواهند بود، این نتیجه را میدهد که آزمودنیها دارای سطوح بالایی از توانایی هستند. اگر آزمون از سؤالات نسبتاً مشکل تشکیل شده باشد، اگر چه، آمارههای آزمودنی نسبتاً پایین است، این برداشت را در بر دارد که آزمودنیها دارای سطوح پایین توانایی هستند. با چنین برآوردهایی، تواناییهای آزمودنیها به دشواری سؤالات آزمون وابسته هستند. مشابهاً برآوردهای دشواری سؤال به توانایی آزمودنیها وابستهاند. اگر آزمودنیها که آزمون را پاسخ میدهند در توانایی بالا باشند، آنگاه مقادیر p سؤال بالا خواهد بود، اشاره بر این است که سؤالات آسان بودند. برعکس، اگر آزمودنیها که آزمون را کامل مینمایند در توانایی پایین باشند، آنگاه مقادیر p مشابهاً پایین خواهد بود، اشاره بر این است که سؤالات مشکل بودند. وابستگیهای متقابل آماری مشابه بین نمرات مشاهده شده و شاخصهای تمییزسؤال تئوری کلاسیک- تست وجود دارد.
تحت چارچوب تئوری سؤال- پاسخ، تجزیه و تحلیل سؤال همچنین شامل برآورد آمارههای سؤال میباشد. هنگام تجزیه و تحلیل سؤالاتی که دو ارزشی نمرهگذاری شده بودند، سه مدل مرتبط تئوری سؤال- پاسخ در مطالعات روانسنجی رایج هستند. پیچیدهترین این مدلها مدل سه پارامتری نامیده میشود. آن مدل فرم ذیل را میگیرد:
جایی که ci یک پارامتر حدس سؤال است و bi پارامتر دشواری سؤال و ai پارامتر تمییز سؤال و D ثابت مقیاس (معمولا D = 1/702) هست. توجه کنید که احتمال اینکه یک آزمودنی به یک سؤال بطور صحیح پاسخ دهد (Pi(θ البته به θ1 سطح ویژگی مورد بررسی آزمودنی (مذکر یا مونث) بستگی دارد.. خوانندگان علاقمند به توضیحات به تفضیل مدل سه پارامتری تئوری سؤال- پاسخ به جای دیگر برای یک ارائه جامع آن و مدلهای دیگر ارجاع داده میشوند.
(Baker، 1992; Crocker & Algina، 1986; Mckinley& Mills،1989مثل)
مدل سه پارامتری تئوری سؤال- پاسخ میتواند از طریق حذف پارامتر حدس سؤال ci به فرم مدل دو پارامتری سادهتر محدود شود. مدل کاهش یافته، از این رو، فقط حاوی برآوردهای دشواری سؤال و تمییزسؤال است و فرم ذیل را دارد:
یک محدودیت بیشتر در ایجاد مدل یک پارامتری تئوری سؤال- پاسخ (مدل راش) میتوان اعمال کرد. در آن مدل، پارامتر تمییزسؤال ai محدودیت است طوریکه همه سؤالات سطح تمییزa ثابت و برابر دارند. از این رو، تنها پارامتری که برآورد میشود دشواری سؤال bi میباشد. مدل یک پارامتری تئوری سؤال- پاسخ فرم ذیل را میگیرد.
در تئوری اندازههای مبتنی بر تئوری سؤال- پاسخ بر محدودیت اصلی اندازههای مبتنی بر تئوری کلاسیک- تست غلبه مییابند. که برآوردهای پارامتر سؤال به نمونه مختص آزمودنیها که به سؤالات آزمون پاسخ دادهاند وابسته نیستند، و برآوردهای توانایی آزمودنی به نمونه ویژهای از سؤالات آزمون اجراء شده وابسته نیستند. این ویژگی ثبات مدلهای تئوری سؤال- پاسخ در همه جا ثابت شده است و بطور وسیع مورد قبول واقع شده است.
Hambleton & Jones،1993 ; Hambleton & Swaminathan، 1985; Hambleton، etal،)
(1977; Rudner، 1983; Vander linden & Hambleton ، 1991
مقایسههای گذشته تئوری کلاسیک- تست و تئوری سؤال- پاسخ
با وجود امتیازات نظری که به تئوری سؤال- پاسخ در مقایسه با تئوری کلاسیک- تست نسبت داده شده، کارههای کمی برای اثبات این امتیازات بطور تجربی انجام شده است. یک کوشش زود هنگام در تقابل دو چارچوب اندازهگیری بوسیله (1977)Tinsley، Dawis انجام شد. در مطالعهشان، مؤلفان تأیید کردند که برآوردهای توانایی آزمودنی براساس مدل یک پارامتری تئوری سؤال- پاسخ از دشواری سؤالات آزمون مستقل بودند. آنها همچنین ثابت کردند برآوردهای توانایی آزمودنی براساس تئوری کلاسیک- تست (که T نمره کل آزمون است) از دشواری سؤال مستقل نیستند. از این رو نمره T آماره آزمودنی تحت تأثیر دشواری سؤال است، اما پارامتر θ آزمودنی تئوری سؤال- پاسخ تحت تأثیر دشواری سؤال نیست. این امتیازات مشهور مدلهای تئوری سؤال- پاسخ نبودند و اگر چه در تحقیق بعدی همیشه اثبات شدند.
،Eignor،Taft (1988) یک مطالعه بوسیله ثبات آمارههای سؤال را براساس تئوری سؤال- پاسخ و تئوری کلاسیک- تست بررسی کرد. پاسخهای آزمودنیها با استفاده از دوم فرم آزمون پذیرش زیستشناسی جمعآوری شد. از دو اجرای متفاوت آزمون، آمارههای سؤال برای مدل سه پارامتری تئوری سؤال- پاسخ و تئوری کلاسیک- تست برآورد شد. Cook و همکاران دریافتند که برآوردهای دشواری سؤال برای هر دو چارچوب اندازهگیری بیثبات بودند چون برآوردهای سؤال بین دو اجرای آزمون در هر دو متفاوت بودند. بطور دور از انتظار، مؤلفین دریافتند که برآوردهای دشواری سؤال در تئوری کلاسیک- تست یک مقدار جزیی ثبات بیشتری نسبت به برآوردهای تئوری سؤال- پاسخ داشتند.
Lawson (1991) آمارههای آزمودنی و سؤال سه سری دادهها را براساس مدل یک پارامتری تئوری سؤال- پاسخ با آمارهها براساس تئوری کلاسیک- تست مقایسه کرد. تجزیه و تحلیل او را راهنمایی کرد که گزارش کند برآوردهای دو چارچوب « اندازهگیری تقریباً» همانند هستند. (166. p).
Lawson بعداً پیشنهاد کرد برای افرادیکه در طراحی و اجرای ابزارهای آزمونسازی دخالت دارند، تئوری سؤال- پاسخ بنظر میرسد تعدادی امتیاز نسبت به تئوری کلاسیک- تست دارد.
یافتههای بالا هیچ امتیاز تجربی مدل تئوری سؤال- پاسخ را هنگام کار با دادههای واقعی توسط Ndalichako.a.dRoger (1997) مورد حمایت قرار نداد. در مطالعهشان، پاسخهای دانشجویان در آزمون درک مطلب فارغ التحصیلی از مدرسه در تئوری کلاسیک- تست و تئوری سؤال- پاسخ مورد تجزیه و تحلیل قرار گرفت. محققین یافتند که برآوردهای توانایی آزمودنی دو استراتژی تقریباً بطور کامل با یکدیگر همبستگی دارند(به بزرگی 0/988). با چنین درجهی بالایی از از همانندی همراه با سادگی برآورد آمارههای تئوری کلاسیک تست، Nadalichako و Rogers به استفاده مداوم تئوری کلاسیک- تست برای نمرهگذاری آزمون و تجزیه و تحلیل سؤال علاقه یافتند.
در مقایسه اخیر تئوری سؤال- پاسخ و تئوری کلاسیک تست، (1988)Fan با استفاده از روشهای تئوری کلاسیک- تست و تئوری سؤال- پاسخ آمارههای آزمودنی و سؤال را بررسی کرد. در آن مطالعه، نمونههای دادههای پاسخ از آزمودنیها (193/240= تعداد) بود. که آزمون ریاضی (60 سؤالی ) و آزمون خواندن (سؤالی 48) را تکمیل کردند، اخذ شد. از هر بانک آزمون چند نمونههای اتفاقی 1000 آزمودنی تحت مدلهای یک، دو و سه پارامتری تئوری سؤال- پاسخ و تحت تئوری کلاسیک- تست مورد تجزیه و تحلیل قرار گرفت. برآوردهای دشواری سؤال، تمییزسؤال، و توانایی آزمودنی سپس برای ثبات در میان نمونههای اتفاقی و قابلیت قیاس (همانندی) در میان دو چارچوب اندازهگیری بررسی شد.
(1998) Fan دریافت که برآوردهای دشواری سؤال و توانایی آزمودنی بین دو روش اندازهگیری تئوری کلاسیک- تست و تئوری سؤال- پاسخ در سطح بالایی همانند (قابل مقایسهاند). اگر چه، همانندی (قابلیت قیاس) برآوردهای تمییزسؤال در میان روشها در دامنهای از بالا تا پایین به ویژگیهای نمونههای آزمودنی مورد ارزیابی بستگی داشتند. Fan همچنین دریافت که ثبات برآوردهای دشواری سؤال و تمییزسؤال تحت تئوری کلاسیک- تست اگر چه بهتر نبود ولی به خوبی برآوردهای تحت تئوری سؤال- پاسخ بود. او نتیجه گرفت یافتههای کلی از حمایت از برتری چارچوب تئوری سؤال- پاسخ ناکام ماند و نشان داد که دو چارچوب اندازهگیری آمارههای آزمودنی و سؤال بسیار مشابه تولید مینمایند. در واقع، او گفته مشهور Robert L. Thorndike (1982) را در مورد آینده مدلهای تئوری سؤال- پاسخ تصریح کرد:
"برای حجم وسیعی از آزمون، هر دو آزمونی که هم بصورت موضعی طراحی شدند و هم آنهایی که بصورت استاندارد طراحی شدند، من شک دارم که تغییر قابل ملاحظهای بوجود خواهد آمد. آن سؤالهایی که ما برای یک آزمون انتخاب خواهیم کرد با آن سؤالهای که با روشهای قدیمیتر انتخاب میکردهایم تفاوت زیادی نخواهد داشت و آزمونهای منتج همچنان ویژگیهای یکسان خواهند داشت". (12. P)
هدف مطالعه:
ما به این نکته اشاره میکنیم که یافتههای بررسیهای تجربی گذشته در مقایسه آمارههای سؤال و آزمودنی مبتنی بر تئوری سؤال- پاسخ و تئوری کلاسیک- تست نبایستی برای همهی آزمونهای آموزشی و روانشناسی تعمیم داده شود. همانطور که (1998)Fan در مطالعهاش اشاره کرد، تحقیقی که مدلهای تئوری سؤال- پاسخ و تئوری کلاسیک- تست را مقایسه میکند نوعاً با آمارههای سؤال و آزمودنی حاصل از تعداد کوچک آزمونهای واقعی در تقابل است. بدین صورت، مجموعه ویژهای از ترکیب سؤالات در آزمون ممکن است در ویژگیهایش منحصر به فرد باشد (برای مثال، تعداد سؤالات، سطح دشواری سؤال، درجه تمییزسؤال). و با آن مشخصههای منحصر به فرد، این سؤال ایجاد میشود که چطور نتایج مبتنی بر آن آزمونهای ویژه به آزمونهای دیگر با مشخصههای متفاوت تعمیمپذیر است. Fan پیشنهاد کرد که مطالعات آینده ممکن است با استفاده از آزمونهای ساختگی که مشخصههایشان بطور تجربی میتواند دستکاری شود بر این محدودیت غلبه پیدا کند. این مطالعه برای پاسخدهی به آن محدودیت طراحی شد.
در این مطالعه، ما مطالعات انجام شده بوسیله (1998) Fan و (1991) Lawson را برای تکرار بررسی کردیم و ادامه دادیم که هر دو مطالعه سریهای دادههای بایگانی شده را در مقایسات چارچوب تئوری کلاسیک- تست و تئوری سؤال- پاسخ بکار گرفتند. ما بجای آن، شبیه سازیهای Monte Carlo را برای بررسی قابلیت قیاس، ثبات و دقت برآوردهای پارامتری تئوری سؤال- پاسخ و تئوری کلاسیک- تست تحت شرایط آزمون گوناگون انتخاب نمودیم. در فاز اول مطالعه، سؤالات آزمون شبیهسازی شده براساس مدلهای تئوری سؤال- پاسخ یک و دو پارامتری در تولید آزمونهای ساختگی برای اندازهگیری توانایی فرضی مورد علاقه تولید شدند. با استفاده از این آزمونها، پاسخهای آزمودنیهای شبیهسازی شده تولید شدند که سریهای دادههای پاسخ ما را ایجاد نمودند. در دومین فاز مطالعه، برآوردهای پارامتر سؤال و آزمودنی برای سری دادههای پاسخ شبیهسازی شده بر طبق روشهای تئوری کلاسیک- تست و تئوری سؤال- پاسخ بدست آمدند. در مرحله نهایی، برآودهای پارامتری حاصل برای بررسی، قابلیت قیاسشان و صحتشان تحت مدلهای تئوری کلاسیک- تست و تئوری سؤال- پاسخ ارزیابی گردید.
سنجش روشهای اندازهگیری تئوری کلاسیک- تست و تئوری سؤال- پاسخ در این مطالعه بر سه سؤال اصلی تأکید نمود:
الف) برآوردهای سؤال و آزمودنی چارچوبهای تئوری کلاسیک- تست و تئوری سؤال- پاسخ چطور با هم قابل مقایسه (هم نظیرند)؟
ب) آمارههای سؤال تئوری سؤال- پاسخ و تئوری کلاسیک- تست در میان نمونههای آزمودنی چگونه باثباتند؟
ج) آمارههای سؤال و آزمودنی چارچوبهای تئوری سؤال- پاسخ و تئوری کلاسیک- تست از طریق پارامترهای جامعه شناخته شده چگونه درست میباشند؟
روش
سریهای دادههای شبیهسازی شده :
فرآیند تولید سریهای پاسخ سؤال آزمون شبیه سازی شده چهار مرحله را در بر میگیرد. در مرحله اول یک بردار ستونی نمرات توانایی واقعی برای 1000= تعداد آزمودنیهای شبیه سازی شده از یک توزیع نرمال استاندارد تولید شد. در مرحله دوم آزمونهای شبیهسازی شده که مشخصههایشان از لحاظ طول آزمون (تعداد سؤالات)، b) و تمییزسؤال (پارامتر دشواری سؤال (پارامتر b) و تمییز سؤال (پارامتر a) گوناگون بود ایجاد شد.. برای هر آزمون، یک بردار ستونی مقادیر n برای ارائه مقادیر دشواری سؤال سؤالات آزمون، و بردار ستونی دیگر مقادیر n برای ارائه مقادیر تمییزسؤال ایجاد شد. در مرحله سوم، احتمالات پاسخ N آزمودنیها به n سؤالهای آزمونها براساس مدل دو پارامتری محاسبه گردید. بنابراین N× n ماتریکس احتمالات پاسخ از معادله 2 بدست آمد.
در مرحله چهارم از تولید دادهها N× n ماتریکس احتمالات دادهها ترجمه شد به N× n ماتریکس پاسخهای سؤال گسسته (که 1 یا 0 است). از طریق مقایسه هر احتمال پاسخ با تعداد اتفاقی اخذ شده از یک مقادیر توزیع همبسان در دامنهای از 0 تا 1/0 این کار انجام شد. برای مثال، در نظر بگیرید یک مثال را که احتمال موفقیت آزمودنی 0/68 و یک عدد تولید شده اتفاقی از توزیع همسان 0/43 بود. چون عدد اتفاقی کمتر از احتمال پاسخ بود، پاسخ سؤال 1 برای آن آزمودنی در آن سؤال تعیین گردید. از طرف دیگر اگر عدد اتفاقی بزرگتر از احتمال پاسخ بود، پاسخ سؤال 0 ضبط گردید. این یک روش ایجاد پاسخ سؤال استاندارد هست که به وسیله ی (Harwell، stone، Hsu and kirisci (1996 استفاده شد.
برای هر وضعیت تجربی در مطالعهمان، یک آزمون شبیهسازی شده ایجاد شد و برای تولید دو سری دادههای پاسخ N×n متفاوت مورد استفاده شد. مشخصههای مختص آزمونهای شبیهسازی شده که ما گوناگون کردیم بودند.
الف) تعداد سؤالات شبیه سازی شده در آزمون 60 و 40 و n=20
ب) توزیعهای مقادیر دشواری سؤال واقعی همه همسان از 0 /2 تا 0/ 2 - ، 0/5 تا 0/5- 0/ 1 تا 0/ 2- و 0/ 2 تا 0/ 1- و 0/ 1 تا 0 / 1-
ج) توزیعهای مقادیر واقعی تمییزسؤال، همه همسان از 0 / 2 تا 0 / 1 و 2/5 تا 0/5 و ثابت در 0 /1 برای همه سؤالات (آخری مدل 2 پارامتری تئوری سؤال- پاسخ را به مدل یک پارامتری مدل سؤال- پاسخ کاهش میدهد).
به دو موضوع راجع به مشخصههای توزیعی سؤالات آزمون شبیهسازی شده ما توجه کنید. اول، مقیاس مقادیر P سؤال با توزیعهای اصولی فرضی در مدلهای تئوری سؤال- پاسخ همسان هستند. دوم، آن مقادیر ویژه که برای ایجاد مطالعات شبیه سازی قبلی که تکنیکهای Monte Carlo را برای بررسی عملکرد مدلهای تئوری سؤال- پاسخ استفاده کردهاند، انتخاب گردیدند.
(Hambleton، Jones& Rogers ، 1993; Maranon، Garcia،& Costas، 1997; park &
Lautenshlager،1990، Veerkamp& Berger، 1997
ادامه دارد...
منبع:
A Monte Carlo comparison of Item and person statistics based on Item Response Theory Versus classical Test Theory.
Paul Macdonal and sampovpaunonen
Educational and psychological Measurement 2002; 62;921 university of Western Ontario