تئوری سؤال- پاسخ و تئوری-کلاسیک- تست: یک مقایسه تجربی از آمارههای آزمودنی/ سؤال (قسمت پنجم)
سؤال پژوهشی 5
آخرین سؤال پژوهشی که پرسیده شده بود "شاخصهای تمییزسؤال تئوری کلاسیک - تست و تئوری سؤال پاسخ در میان نمونههای متفاوت آزمودنیها چگونه پاثباتاند"? جدول 8 نتایج تجزیه و تحلیل همبستگیهای شاخصهای تمییزسؤال تئوری کلاسیک - تست و تئوری سؤال پاسخ را ارائه میکند. همانطور که قبلاً توضیح داده شد مدل یک پارامتری تئوری سؤال پاسخ (راش) برآوردهای تمییزسؤال را برای سؤالهای جداگانه فراهم نماید و به جای آن تمییزسؤال ثابت را برای همهی سؤالها فرض میکند، هیچ همبستگی برای مدل یک پارامتری نمیتوانست محاسبه شود، از این رو "کاربردی نیست" در هر ستون مدل یک پارامتری تئوری سؤال- پاسخ در جدول لحاظ شده است. این نکته قابل ارزش است که بیان شود هر رقم ثبت شده در جدول یا معدل همبستگیهای دو رشتهای نقطهای تئوری کلاسیک - تست بین دو نمونهها است یا معدل همبستگی شیب های سؤال تئوری سؤال- پاسخ بین دو نمونههاست. هر رقم ثبت شده معدل 100 ضریب همبستگی حاصل 100 جفت نمونه میباشد.
شاخصهای تمییزسؤال هر دو تئوری کلاسیک - تست و تئوری سؤال- پاسخ در میان نمونههای آزمودنی نسبت به شاخصهای دشواری سؤال ارائه شده در جدول 7 کم ثباتترند. این نتیجه با آنچه در مورد قیاس آمارههای سؤال در جدول 5 و 6 در تئوری کلاسیک - تست و سؤال- پاسخ دیده شد موازی است. همچنین همبستگیهای بالاتر دو رشتهای نقطهای تئوری کلاسیک - تست در یکسری موارد و همبستگیهای بالاتر شیبهای سؤالات در تئوری سؤال- پاسخ هیچ امتیاز نظام مندی را از یک چارچوب نسبت به دیگری آشکار نکرد. در بیشتر موارد معدل همبستگیهای شاخصهای تمییزسؤال تئوری کلاسیک - تست بین نمونهها و آنهایی که در تئوری سؤال- پاسخ بودند کاملاً با یکدیگر قابل مقایسه (همانند) و نسبتاً بالا (بالایی 0/80 تا پایین 0/90 ) بودند که نشان دهنده ثبات قابل قبول در میان نمونهها است.
اما ثبات شاخصهای تمییزسؤال هم تئوری کلاسیک - تست و هم تئوری سؤال- پاسخ با افزایش بیشباهتی بین گونهها کاهش پیدا کرد. بعبارت دیگر شاخصهای تمییزسؤال تئوری کلاسیک - تست و تئوری سؤال- پاسخ بیشترین ثبات را در میان نمونههای اتفاقی داشتند و آنها در میان گونههای مونث- مذکر کمتر ثباتی داشتند. (جفت نمونه مذکر- مؤنث نسبت به جفت نمونه اتفاقی بیشباهتترند.) و در نمونههای توانایی بالا – پایین کمترین ثبات را داشتند (جفت نمونه توانایی بالا – پایین بیشباهتترین در میان شرایط نمونهگیری بودند).
برای آخرین شرایط (آزمون درک مطلب و بین نمونههای توانایی بالا – پایین)، هر دو رشتهای نقطهای بطور کامل بهم ریخت در اصطلاح ثبات بین نمونهها (0/106 = / و 1/2=r) بود.
شیبهای سؤال مدل در پارامتری تئوری سؤال- پاسخ نسبتاً باثبات بودند (0/636 =r) اما شیبهای نمودار سؤال مدل سه پارامتری دوباره بهم ریخت (0/20=r). این مشاهده تجربی تا حدودی گیج کننده است.
همانطور که قبلاً بطور تئوری بحث شد اگر پارامترها بطور کافی برای اندازه نمونه برآورد میشدند مدلهای درجه بالاتر (کم اجبارتر ) بایستی تمایل به برازش بهتر نسبت به مدلهای درجه پایینتر (اجباریتر) داشتند، اگر چه برازش بهتر به هزینه صرفهجویی در مدل تمام میشود. اگر سازش بهتر بدست آید ثبات بیشتر پارامترهای سؤال مورد انتظار است (Ham bleton etal’1991). این واقعیت است که در این موقعیت مدل دو پارامتری تئوری سؤال- پاسخ شاخصهای تمییزسؤال معمولاً با ثبات داشتند و مدل سه پارامتری تئوری سؤال- پاسخ هیچ ثباتی را برای همان دادهها که برخلاف هم انتظارات تئوریکی، مشهود بود نشان نداد.
خلاصه و نتیجهگیری :
مطالعه حاضر بطور تجربی رفتار آمارههای سؤال و آزمودنی دو چارچوب اندازهگیری را بررسی نمود. مطالعه بر دو موضوع اصلی تأکید داشت:
الف) آمارههای سؤال و آزمودنی تئوری کلاسیک - تست و تئوری سؤال- پاسخ چگونه با یکدیگر قابل مقایسهاند؟ (همانندند).
ب) آمارههای سؤال تئوری کلاسیک - تست و آمارههای سؤال تئوری سؤال- پاسخ به ترتیب چگونه باثباتند؟ یک پایگاه دادههای مقیاس وسیع از برنامه سنجشی در سطح ایالتی بعنوان پایه تجربی بررسی مورد استفاده قرار گرفت.
منبع سؤال آزمون تشکیل شده بود از دو آزمون (ریاضی و درک مطلب) با 60 و 48 سؤال دو ارزش نمرهگذاری شده در هر کدام از آزمونها و منبع آزمودنی بیش از 193/000 آزمودنی که در هر دو آزمون شرکت کردند. نمونههای اتفاقی (100=n) از منبع آزمودنیها تحت سه طرح نمونهگیری که بطور فزایندهای جفت نمونههای غیر مشابهتر ایجاد میکردند اخذ شد. عدم تشابه فزاینده بین نمونهها سنجش درجه ثبات آمارههای سؤال تئوری کلاسیک - تست و تئوری سؤال- پاسخ را تسهیل نمود.
یافتههای اصلی شامل:
1- آمارههای آزمودنی (برآوردهای توانایی آزمودنی) تئوری کلاسیک - تست در سطح بالایی با آمارههای آزمودنی (برآوردهای توانایی آزمودنی) تئوری سؤال- پاسخ در هر سه مدل تئوری سؤال- پاسخ قابل مقایسه (همانند) بودند.
2- شاخصهای دشواری سؤال تئوری کلاسیک- تست با شاخصهای دشوار سؤال همهی مدلهای تئوری سؤال- پاسخ بالاحض مدل راش خیلی قابل مقایسه (همانند) بودند.
3- در مقایسه با شاخصهای دشواری سؤال، شاخصهای تمییزسؤال تئوری کلاسیک - تست تا حدی با شاخص تمییزسؤال تئوری سئوال- پاسخ کمتر قابل مقایسه (هم مانند) بودند. اگر چه در اکثریت شرایط، همانندی (قابلیت قیاس) اعتدالاً در سطح بالا تا بالا بود، اندک مواردی همانندی خیلی پایین بود.
4- هر دو شاخصهای دشواری سؤال تئوری کلاسیک - تست و تئوری سؤال- پاسخ ثبات خیلی بالایی را در میان نمونهها نشان دادند، حتی در میان نمونههایی که کاملاً با یکدیگر متفاوت بودند. (نمونهها از گروههای توانایی پایین و بالا). درجه ثبات شاخص دشواری سؤال تئوری کلاسیک - تست در سطح بالایی قابل مقایسه (همانند) اگر بهتر نباشد با درجه ثبات برآوردهای پارامتر دشواری سؤال تئوری سؤال- پاسخ بود.
5- هر دو برآوردهای تمییزسؤال تئوری سؤال- پاسخ و تئوری کلاسیک - تست تا حدودی کم ثباتتر از برآوردهای دشواری سؤال در تئوری بودند. برای هر دو برآوردهای تمییزسؤال تئوری سؤال- پاسخ و تئوری کلاسیک - تست، درجه ثبات هنگامی که نمونهها غیر مشابهتر میشدند بطور یکنواخت کاهش پیدا میکرد، این دلالت بر این دارد که پارامترهای متغیر سؤال نه در تئوری کلاسیک - تست و نه در تئوری سؤال- پاسخ نمیتوانند درجه بالایی از ثبات پارامتر را در جامعههایی که متفاوت هستند حفظ نمایند. درجه ثبات برآوردهای تمییزسؤال تئوری کلاسیک - تست با برآوردهای تمییزسؤال تئوری سؤال- پاسخ در حد بالایی قابل مقایسه (همانند) بودند.
در مجموع، یافتههای این بررسی تجربی برای بیاعتبار ساختن چارچوب تئوری کلاسیک - تست در ارتباط با انتسابش به ناتوانی در تولید آمارههای سؤال، آزمودنی بیثبات ناکام ماندو برعکس نتایج در حمایت از چارچوب تئوری سؤال- پاسخ برای برتری نمایان نسبت به تئوری کلاسیک - تست در ایجاد آمارههای سؤال، آزمودنی باثبات ناکام ماند. یافتههای اینجا بسادگی نشان دادند که دو چارچوب اندازهگیری آمارههای سؤال و آزمودنی خیلی مشابه هر دو در اصطلاح قابلیت قیاس آمارههای آزمودنی و سؤال بین دو چارچوب اندازهگیری تولید مینمایند و به اصطلاح درجهای از ثبات در آمارههای سؤال دو چارچوب اندازهگیری رقیب مشهود است. این یافتهها تعدادی سؤالات جالب در مورد اینکه تفاوتهای بین مدلهای تئوری سؤال- پاسخ و تئوری کلاسیک-تست را هم در تئوری و هم در کار آزمون چگونه باید دید.
همانطور که در شروع این مقاله بحث شد، ویژگی ثبات آمارههای سؤال و آزمودنی مهمترین ویژگی مدل هست که نیاز به ارزشیابی دارد، زیرا بحث آمارههای سؤال و آزمودنی تئوری سؤال- پاسخ ثبات را دارا میباشد در حالیکه آمارههای سؤال و آزمودنی تئوری کلاسیک - تست نیروی محرکه برای توسعه و استفاده از مدلهای اندازهگیری تئوری سئوال- پاسخ ایجاد نکرده است. این استدلال بطور وسیعی در جامعه اندازهگیری پذیرفته شده است.
متأسفانه، نگاه به اینکه استدلال قابل بحث است بنظر میرسد بطور وسیع در خلاءهایی از شواهد تجربی رخ داده است زیرا مطالعات در نشان دادن این که این فرضیه مهم موضوع پژوهش تجربی سخت و نظاممند شده است ناکام میمانند. این نگاه من است که در اندازهگیری مربوط به روانشناسی، همانند فیلدهای دیگر علوم، مدلهای تئوریکی در راهنمایی پژوهش و کار ما مهم هستند. اما مزیتهای یک مدل تئوریکی بایستی نهایتاً از طریق یک بررسی دقیق تجربی سخت مورد تأییذ قرار گیرد.
البته مطالعه تجربی حاضر، همانند مطالعات پژوهشی دیگر یکسری محدودیتهای خودش را داشت که ممکن است بطور بالقوه اعتبار یافتههایش را کاهش دهد. اول از همه ویژگی سؤالات آزمون استفاده شده در این مطالعه ممکن است تا حدی منحصر بفرد باشد.
همانطور که در شروع قسمت روشها بحث شد و بوسیله شکل یک نشان داده شد توزیعهای نمرات آزمون یک حد اثرات قوی را نشان داد که برای آزمونهای حداقل کفایت و آزمونهای تسلط معیار مدار دیگر عموماً یک مورد هست. اثرات سقف قوی توصیه میکند که تعداد زیادی سؤالات تمایل به خیلی آسان هستند. اگر چه اینکه این ویژگی دادهها ممکن است چه اثر نهایی نظام مندی در نتایج داشته باشد واضح نیست، پسندیده است که در مطالعات آینده برای تکرار مطالعه حاضر از آزمون هنجار مدار استفاده شود که معمولاً سؤالات دارای درجه دشواری سؤال و تمییزسؤال متنوع هستند.
دومین کمبود تحقیق تا حدود منبع سؤال محدود استفاده شده در مطالعه است، اگر چه منبع آزمودنی کاملاً در نمونههای متفاوت گوناگون که شامل میشد کافی بود، اما در مورد منبع سؤال این چنین نبود. بطور ایدهآل منبع سؤال آزمون بایستی وسیعتر و از لحاظ ویژگیهای سؤال گوناگونتر باشد طوریکه سؤالات از منبع نمونهگیری شود برای مطالعه رفتار آمارههای سؤال در تئوری کلاسیک - تست و تئوری سؤال- پاسخ در شرایط متفاوت از ویژگی سؤال، مطالعات آینده ممکن است با استفاده از چندین پایگاه دادهها آزمون گوناگون این امتیاز را حاصل نمایند و سؤالات مؤنت کارلو که بطور ساختگی ویژگیهای سؤال را تعیین مینماید در کمک راهنمایی این موضوعات کمک کننده است.
اوایل دههی اخیر RobertL. Thorndik(1982) نظرات ذیل را در ارتباط با مدلهای اندازهگیری تئوری سؤال- پاسخ ارائه نمود:
در حجم عمده آزمون هم در آزمونهای محلی و هم در آزمونهای استاندارد، من شک دارم که مقدار زیادی تغییر وجود خواهد داشت. سؤالاتی که ما برای آزمون انتخاب خواهیم کرد تفاوت آنچنانی با سؤالاتی که با روشهای قبلی بایستی انتخاب میشدند ندارند و نتایج آزمونها همچنان دارای ویژگیهای یکسان است (p.12) یافتههای این مطالعه انتقاد Thorndike را راجع به مدلهای تئوری سؤال- پاسخ که امتیازات منحصر به فرد ذاتی نسبت به برآوردهای تئوری کلاسیک - تست را شامل میشود بنظر میرسد اعتبار میبخشد.
ادامه دارد:
منبع:
(Education and psychological Measurement jun 1998 v 58 p357 (25
- ۹۴/۰۶/۲۵