تئوری سؤال- پاسخ و تئوری-کلاسیک- تست: یک مقایسه تجربی از آمارههای آزمودنی/ سؤال (قسمت دوم)
روشها :
منابع دادهها :
دادههای مورد استفاده در این مطالعه از آزمونهای TAAS سنجش مهارتهای دانشگاهی تگزاس اجراء شده در اکتبر 1992 برای دانشجویان گرید یازدهم میباشد. TAAS یک آزمون اجباری ایالتی معیار مدار شامل آزمونهای درک مطلب، ریاضی، نوشتن است که برای سنجش تسلط در اهداف آموزش مدرسه طراحی گردیده است. آزمون نوشتن شامل هم سؤالات چند گزینهای و هم سؤالات تشریحی بود. آزمونهای درک مطلب (48سؤال) و ریاضی (60 سؤال) شامل سؤالات چند گزینهای دو ارزشی نمرهگذاری شده بصورت صحیح یا غلط بودند. سؤالات جواب داده نشده بصورت پاسخهای غلط نمرهگذاری شدند. دادههای آزمون درک مطلب و ریاضی در مطالعه حاضر استفاده شد. تعداد آزمودنیها در پایگاه اطلاعاتی بیش از 000 193 آزمودنی بود. جدول 1 اطلاعات دموگرافیک عمده آزمودنیها را در این پایگاه اطلاعائی ارائه میکند.
TAAS یک آزمون طراحی شده برای سنجش حداقل کفایت دانشآموزان مدارس دولت تگزاس در چندین ناحیه دانشگاهی است. بدلیل اینکه آن یک مورد عمومی برای آزمونهای تسلط است، سؤالات آزمون TAAS اصولاً براساس پوشش برنامه درسی بودند و توزیع فراوانی و نمرات بطور نرمال توزیع نشده بود تا اینکه توزیع نمرات اثرات حد معلوم را همانطور که در توزیعات فراوانی هست نشان میدهد. شکل 1
برای بررسی موضوعات مربوط به آمارههای تئوری سؤال- پاسخ و تئوری کلاسیک - تست، سه طرح نمونهگیری برای دادههای آزمون درک مطلب، ریاضی اجراء شدند طوریکه رفتارهای آمارههای تئوری کلاسیک - تست و تئوری سؤال- پاسخ تحت شرایط نمونهگیری آزمودنیهای متفاوت بتوانست بررسی شوند. سه طرح نمونهگیری، نمونههایی را که بطور فزایندهای بیشتر غیر مشابه بودند تولید نمودند. این راهبرد نمونهگیری رفتارهای تئوری سؤال- پاسخ و تئوریهای کلاسیک - تست را که بطور فزاینده نمونههای آزمونی کمتر همانند را مورد بررسی قرار داد. همهی نمونهها در این مطالعه یک اندازه نمونه 1000 عددی داشتند که باندازه کافی حتی برای برآورد پارامترهای مدل سه پارامتری تئوری سؤال- پاسخ بزرگ بودند.
نمونههای تصادفی، نمونههای تصادفی آزمودنی که شامل 1000 آزمودنی بودند از کل تعداد آزمودنیها اخذ شدند. 20 نمونه این چنینی برای دادههای ریاضی و 20 نمونه برای دادههای آزمون درک مطلب که با هم دیگر تعداد کل نمونههای آزمودنیها 40 شدند. از آنجا که این 40 نمونه، نمونههای اتفاقی از یک جمعیت بودند، نمونههای اتفاقی بایستی با یکدیگر قابل مقایسه (همانند) در حدود خطای نمونهگیری اتفاقی بودند.
نمونههای گروههای جنسیتی :
نمونههای آزمودنی مؤنث و نمونههای آزمودنی مذکر بطور اتفاقی برای دادههای آزمون درک مطلب و آزمون ریاضی بطور مجزا اخذ شدند. 20 نمونه مذکر و 20 نمونه مونث برای هر آزمون اخذ شد که تعداد کل نمونههای جنسیتی 80 شد. از آنجا که نمونههای مذکر و مونث از جامعههای متفاوت اخذ شده بودند، همانطور که در متغیرهای جنسیتی دموگرافیکی بیان شد، از لحاظ تئوری باید بی شباهتی بیشتر بین یک نمونه مؤنث و یک نمونه مذکر نسبت به نمونههای اتفاقی که در بخش قبلی توصیف شده باشد.
جدول 2: آمار عملکردی برای گروههای مذکر و مونث ارائه میکند. دیده میشود که گروههای مونت و مذکر عملکرد قابل مقایسه (همانند) برای آزمون درک مطلب داشتند، اگر چه تفاوت ناچیزی در سطح زبان آزمون ریاضی وجود دارد.
تـوجه :
Ԛ1 = چارک اول (25 درصد)
Median = چارک دوم (50 درصد)
Ԛ3= چارک سوم (75 درصد)
نمونههای گروههای توانایی بالا و توانایی پایین این طرح نمونهگیری نمونههایی را تولید میکند که در اصطلاح عملکرد در آزمونها متفاوت هستند. گروه توانایی بالا به آنهایی گفته میشود که نمراتشان در بین دامنه 100-85 درصد دامنه آزمون درک مطلب یا ریاضی قرار گیرد. گروه توانایی پایین به آنهایی که نمراتشان بین دامنه صفر و 2 درصد آزمون درک مطلب یا ریاضی قرار گیرد. بیست نمونه اتفاقی به هر یک از دو گروه بطور جداگانه برای هر آزمون اخذ شد که کل نمونههای گروه بالا و گروه پایین 80 نمونه گردید. چون این دو گروه در اصطلاح عملکرد آزمون بیان شدند، نه در اصطلاح یک متغیر دموگرافیکی مثل گروه جنسیتی نمونهگیری، بایستی بیشباهتی- بیشتری بین نمونههای گروه بالا و نمونه گروه پایین نسبت به جفت نمونه مذکر و مونث باشد.
قابلیت قیاس آمارههای آزمودنی تئوری کلاسیک - تست و تئوری سؤال- پاسخ
قیاس آمارههای آزمودنی تئوری کلاسیک - تست و تئوری سؤال- پاسخ (توانایی تتا در تئوریهای سؤال- پاسخ فرق دارد با نمره T در تئوری کلاسیک - تست که بوسیله همبستگی تتا و برآوردههای T بدست آمده از همان نمونه آزمودنی بررسی شد. مقادیر تتا بوسیله برنامه تئوری سؤال- پاسخ BILOG (PC نسخه 3/07 برای مدلهای یک- دو – و سه پارامتری تئوری سؤال- پاسخ) و نمره T بدست آمده در تئوری کلاسیک - تست بسادگی نمرات خام بدست آمدند. همبستگی نمره T بدست آمده تئوری کلاسیک - تست با تتا (توانایی) برآورد شده تئوری سؤال- پاسخ از طریق مدلهای یک – دو و سه پارامتری سؤال- پاسخ بررسی شد. تمام برآوردهای تئوری سؤال- پاسخ با استفاده روشی (MML) بیشینه درست نمایی که از پیش تعیین شده برنامه BILOG بود انجام گرفت. تجزیه و تحلیل برای نمونههای متفاوت آزمودنی (اتفاقی- جنسیتی – و نمونههای گروه توانایی) و برای سؤالات هم آزمون ریاضی و هم آزمون درک مطلب تکرار شد.
قابلیت قیاس آمارههای سؤال تئوری کلاسیک - تست و تئوری سؤال- پاسخ
قابلیت قیاس آمارههای سؤال تئوری کلاسیک - تست و تئوری سؤال- پاسخ بوسیله همبستگی آمارههای سؤال تئوری کلاسیک - تست و تئوری سؤال- پاسخ حاصل شده از یک نمونه آزمودنیها بررسی شد.
دو نوع آمارههای سؤال مقایسه گردید:
الف- پارامتر دشواری سؤال b (پارامتر موضع سؤال) مدلهای تئوری سؤال- پاسخ با مقدار p دشواری سؤال تئوری کلاسیک - تست.
ب- پارامتر تمییزسؤال تئوری سؤال- پاسخa (پارامتر شیب سؤال مدلهای دو و سه پارامتری تئوری سؤال- پاسخ) با شاخص متغیر سؤال تئوری کلاسیک - تست (r) (همبستگی دو رشتهای نقطهای سؤال – آزمون). r برای تئوری کلاسیک -تست تصحیح خطاست (مشارکت نمره سؤال در کل نمره قبل از محاسبه (r) برای سؤال حذف میشود).
درجه ثبات آمارههای سؤال تئوری سؤال- پاسخ و تئوری کلاسیک - تست
همانطور که در بخشهای مرور مطالعات بحث شد، ویژگی ثبات آمارههای سؤال تعیین کننده است. درجه ثبات آمارههای سؤال بوسیله همبستگی برآوردهای پارامتر سؤال دو نمونه متفاوت در یک چارچوب اندازهگیری بررسی شد. نه طرح نمونهگیری قبلی که بحث شد باعث بررسی ثبات آمارههای سؤال را در نمونههای غیر مشابه بطور فزایندهای شد.
الف- بین دو نمونه اتفاقی از یک جامعه
ب- بین نمونههای مذکر و مونث
ج- بین نمونههای توانایی پایین و توانایی بالا این پیشروی بیشباهتی بین نمونهها بررسی درجه ثبات آمارههای سؤال را در دو چارچوب اندازهگیری تسهیل نمود.
تبدیلهای مقدار p تئوری کلاسیک - تست و همبستگی سؤال – آزمون
در تئوری کلاسیک - تست شاخص p دشواری سؤال (مقدار p نسبت آزمودنیهایی که به یک سؤال جواب درست دادند، دشواری سؤال را در یک مقیاس رتبهای نه یک مقیاس فاصله ای بیان میکند. این مقدار p اگر چه بسادگی میتواند به یک مقیاس فاصلهای تبدیل شود طوریکه برای تجزیه و تحلیل آماری مناسبتر باشد. تبدیل بسادگی نیاز به این فرض دارد که ویژگی مربوط مورد اندازهگیری بوسیله سؤال بطور نرمال توزیع شود. تبدیل بوسیله یافتن نمره z متناظر با (p- 1) صدک توزیع z بدست میآید. برای مثال اگر مقدار p یک سؤال 84 باشد (84٪ آزمودنی سؤال را درست جواب دادند) و مقدار z برای چنین مقدار , p 1- همانطور که در شکل 2 نشان داده است خواهد بود. این هنجارسازی،خمیدگی را در رابطه بین دو سری از مقادیر p سؤال از بین میبرد.(Anastasi,1988)
این تبدیل شاخص دشواری سؤال تئوری کلاسیک - تست بطور گستردهای در موقعیتهای اندازهگیری مختلف استفاده میشود همچون مقیاس مطلق ( Thurstone )Donlon, 1984, Thurstone 1947
و در تحقیق مرتبط با ردیابی سوءگیری سؤال Angoff,1982;Cole& Mass,1993).
در مطالعه حاضر، تجزیه و تحلیل همبستگی هم بین مقادیر p اصلی حاصل شده از جفت نمونهها و هم بین مقادیر p نرمال برای بررسی ویژگی ثبات شاخص دشواری سؤال تئوری کلاسیک - تست انجام گرفت.
در تئوری کلاسیک - تست تمییزسؤال بعنوان همبستگی Product-moment پیرسون سؤال – آزمون (همبستگی دو رشتهای نقطهای) بیان میگردد. چون ضریب همبستگی بصورت خطی مقیاس شده نیست (Hinkle,wiersma,&Jurs, 1988)، تبدیل Fiser z معمولاً قبل از تجزیه و تحلیل آماری برای بکار بستن در ضرایب همبستگی توصیه میشود. بهمین دلیل، در بررسی ویژگی ثبات شاخص تمییزسؤال تئوری کلاسیک - تست، تجزیه و تحلیل همبستگی هم برای ضرایب دو رشتهای نقطهای و هم برای دو رشتهای نقطهای مبدل Fisher z (Transformation) بین نمونههای آزمودنیها بکار رفت.
نتیجه و بحث
نتایج مطالعه بعنوان پاسخهای پنج سؤال پژوهشی که قبلاً ارائه شده بود بحث میگردد. هر آنگاه که مناسب باشد، تفسیر مرتبط و بحث در مورد معنی و کاربردهای نتایج با همدیگر ارائه میگردد. اما قبل از اینکه نتایج مرتبط با سؤالات پژوهش ارائه گردد، سؤال برازندگی مدل تئوری سؤال- پاسخ جواب داده میشود.
سنجش برازندگی مدل تئوری سؤال- پاسخ
در هر کاربرد مدل تئوری سؤال- پاسخ، مهم است که بررسی نمائیم تا چه حدی مفروضات مدل سؤال- پاسخ برای دادههای ارائه شده معتبرند و به چه خوبی دادههای آزمون برازنده مدل منتخب تئوری سؤال- پاسخ برای استفاده در آن موقعیت ویژه هستند. تخلف مفروضات مدل تئوری سؤال- پاسخ و یا عدم برازش بین مدل تئوری سؤال- پاسخ استفاده شده در دادههای آزمون، ممکن است به برآوردهای پارامتری مدل تئوری سؤال- پاسخ بیثبات و نادرستی منجر شود. در مطالعه حاضر، بررسی برازش مدل تئوری سؤال- پاسخ بر روی یک نمونه اتفاقی ساده 6000 آزمودنی برای آزمونهای درک مطلب و ریاضی TAAS (که اندازه نمونهها برابر بود برای دو آزمون ولی نمونهها متفاوت بودند) انجام گرفت. اندازه نمونه بزرگ مورد استفاده در بررسی مفروضات مدل تئوری سؤال- پاسخ و برازش مدل، نتایج باثبات و قابل اعتمادی در مورد مفروضات مدل و برازش مدل فراهم نموده است.
تک بعدیگری مهمترین مفروضه رایج در همه مدلهای تئوری سؤال- پاسخ هست. این فرض گاهی اوقات بطور تجربی بوسیله بررسی اینکه آیا یک عامل غالب در میان همه سؤالات آزمون وجود دارد مورد مطالعه قرار میگیرد (Hambleton et al.,1991)
سه مقدار مشخصه، ابتدایی برای 60 سؤال آزمون ریاضی TAAS : 11/4,1/5,1/3 بودند. سه مقدار مشخصه ابتدایی برای 48 سؤال آزمون درک مطلب TAAS : 8/4,1/5,1/3 بودند. براساس این نتایج، به نظر میرسد منطقی باشد که اشاره کنیم که فرضیه تک بعدیگری برای مدلهای تئوری سؤال- پاسخ برای دادههای مورد استفاده در مطالعه حفظ شد.
برازش مدل – دادهها از طریق بررسی اینکه آیا سؤالات آزمون مجزا با مدل تئوری سؤال- پاسخ داده شده عدم برازش دارند مورد مطالعه قرار گرفت. در (BILOG (V 3.07 آزمون نسبت درست نمایی (Likelihood-ratio) (chi square) (برای یک آزمون با بیش از 20 سؤال) ، که ناهمخوانی بین الگوی پاسخ مورد انتظار و الگوی پاسخی واقعی در یک سؤال ویژه در ارتباط با عملکردشان در آزمون بصورت کلی برای هر سؤال اجرا گردیده بود. (Mislevy & Bock, 1990). جدول 3 تعداد سؤالات مشخص شده که عدم برازش با مدل تئوری سؤال- پاسخ ارائه شده دارند [Alpe] = سطح 0/01 خلاصه نموده است.
تـوجه:
سه پارامتری = 3p ؛ دو پارامتری = 2p و یک پارامتری = 1p
این نکته قابل ارزش است که اشاره شود، اندازه نمونه ارائه شده 6000 مورد استفاده در تجزیه و تحلیل برای بررسی برازش مدل تئوری سؤال- پاسخ و آزمون آماری برای تشخیص سؤالات غیر متجانس قدرت آماری زیادی را داراست. حتی با آزمون آماری قدرتمند، فقط یک یا دو سؤال بعنوان غیر متجانس با مدل دو و سه پارامتری تئوری سؤال- پاسخ تشخیص داده شدند. نتایج نشان میدهد که دادهها بصورت فوق العاده خوب با مدلهای دو و سه پارامتری تئوری سؤال- پاسخ برازش دارند.. برازش دادهها با مدل یک پارامتری اگر چه بطور آشکارا قابل سؤال است و در حدود 30٪ سؤالات بعنوان غیر متجانس با مدل یک پارامتری در تئوری سؤال- پاسخ در هر آزمون شناخته شدند. بدلیل عدم برازش آشکار بین دادهها و مدل یک پارمتری تئوری سؤال- پاسخ و بدلیل اینکه نتایج چنین عدم برازشی کاملاً واضح نیست (Hambleton etal,1991) نتایج مرتبط با مدل یک پارامتری تئوری سؤال- پاسخ در بخشهای بعدی بایستی فوق العاده با احتیاط تفسیر شود.
ادامه دارد:
منبع:
(Education and psychological Measurement jun 1998 v 58 p357 (25
- ۹۴/۰۶/۲۲