تئوری سؤال- پاسخ و تئوری-کلاسیک- تست: یک مقایسه تجربی از آماره‌های آزمودنی/ سؤال (قسمت دوم)

يكشنبه, ۲۲ شهریور ۱۳۹۴، ۰۸:۰۰ ق.ظ

روش‌ها :

منابع داده‌ها :

داده‌های مورد استفاده در این مطالعه از آزمون‌های TAAS سنجش مهارت‌های دانشگاهی تگزاس اجراء شده در اکتبر 1992 برای دانشجویان گرید یازدهم می‌باشد. TAAS یک آزمون اجباری ایالتی معیار مدار شامل آزمون‌های درک مطلب، ریاضی، نوشتن است که برای سنجش تسلط در اهداف آموزش مدرسه طراحی گردیده است. آزمون نوشتن شامل هم سؤالات چند گزینه‌ای و هم سؤالات تشریحی بود. آزمون‌های درک مطلب (48سؤال) و ریاضی (60 سؤال) شامل سؤالات چند گزینه‌ای دو ارزشی نمره‌گذاری شده بصورت صحیح یا غلط بودند. سؤالات جواب داده نشده بصورت پاسخ‌های غلط نمره‌گذاری شدند. داده‌های آزمون درک مطلب و ریاضی در مطالعه حاضر استفاده شد. تعداد آزمودنی‌ها در پایگاه اطلاعاتی بیش از 000 193 آزمودنی بود. جدول 1 اطلاعات دموگرافیک عمده آزمودنی‌ها را در این پایگاه اطلاعائی ارائه می‌کند.

TAAS یک آزمون طراحی شده برای سنجش حداقل کفایت دانش‌آموزان مدارس دولت تگزاس در چندین ناحیه دانشگاهی است. بدلیل اینکه آن یک مورد عمومی برای آزمون‌های تسلط است، سؤالات آزمون TAAS اصولاً براساس پوشش برنامه درسی بودند و توزیع فراوانی و نمرات بطور نرمال توزیع نشده بود تا اینکه توزیع نمرات اثرات حد معلوم را همانطور که در توزیعات فراوانی هست نشان می‌دهد. شکل 1

برای بررسی موضوعات مربوط به آماره‌های تئوری سؤال- پاسخ و تئوری کلاسیک - تست، سه طرح نمونه‌گیری برای داده‌های آزمون درک مطلب، ریاضی اجراء شدند طوریکه رفتارهای آماره‌های تئوری کلاسیک - تست و تئوری‌ سؤال- پاسخ تحت شرایط نمونه‌گیری آزمودنی‌های متفاوت بتوانست بررسی شوند. سه طرح نمونه‌گیری، نمونه‌هایی را که بطور فزاینده‌ای بیشتر غیر مشابه بودند تولید نمودند. این راهبرد نمونه‌گیری رفتارهای تئوری سؤال- پاسخ و تئوری‌های کلاسیک - تست را که بطور فزاینده نمونه‌های آزمونی کمتر همانند را مورد بررسی قرار داد. همه‌ی نمونه‌ها در این مطالعه یک اندازه نمونه 1000 عددی داشتند که باندازه کافی حتی برای برآورد پارامترهای مدل سه پارامتری تئوری سؤال- پاسخ بزرگ بودند.

نمونه‌های تصادفی، نمونه‌های تصادفی آزمودنی که شامل 1000 آزمودنی بودند از کل تعداد آزمودنی‌ها اخذ شدند. 20 نمونه این چنینی برای داده‌های ریاضی و 20 نمونه برای داده‌های آزمون درک مطلب که با هم دیگر تعداد کل نمونه‌های آزمودنی‌ها 40 شدند. از آنجا که این 40 نمونه، نمونه‌های اتفاقی از یک جمعیت بودند، نمونه‌های اتفاقی بایستی با یکدیگر قابل مقایسه (همانند) در حدود خطای نمونه‌گیری اتفاقی بودند.

نمونه‌های گروه‌های جنسیتی :

نمونه‌های آزمودنی مؤنث و نمونه‌های آزمودنی مذکر بطور اتفاقی برای داده‌های آزمون درک مطلب و آزمون ریاضی بطور مجزا اخذ شدند. 20 نمونه مذکر و 20 نمونه مونث برای هر آزمون اخذ شد که تعداد کل نمونه‌های جنسیتی 80 شد. از آنجا که نمونه‌های مذکر و مونث از جامعه‌های متفاوت اخذ شده بودند، همانطور که در متغیرهای جنسیتی دموگرافیکی بیان شد، از لحاظ تئوری باید بی شباهتی بیشتر بین یک نمونه مؤنث و یک نمونه مذکر نسبت به نمونه‌های اتفاقی که در بخش قبلی توصیف شده باشد.

جدول 2: آمار عملکردی برای گروه‌های مذکر و مونث ارائه می‌کند. دیده می‌شود که گروه‌های مونت و مذکر عملکرد قابل مقایسه (همانند) برای آزمون درک مطلب داشتند، اگر چه تفاوت ناچیزی در سطح زبان آزمون ریاضی وجود دارد.

تـوجه :

Ԛ₁ = چارک اول (25 درصد)

Median = چارک دوم (50 درصد)

Ԛ₃= چارک سوم (75 درصد)

نمونه‌های گروه‌های توانایی بالا و توانایی پایین این طرح نمونه‌گیری نمونه‌هایی را تولید می‌کند که در اصطلاح عملکرد در آزمون‌ها متفاوت هستند. گروه توانایی بالا به آنهایی گفته می‌شود که نمراتشان در بین دامنه 100-85 درصد دامنه آزمون درک مطلب یا ریاضی قرار گیرد. گروه توانایی پایین به آنهایی که نمراتشان بین دامنه صفر و 2 درصد آزمون درک مطلب یا ریاضی قرار گیرد. بیست نمونه اتفاقی به هر یک از دو گروه بطور جداگانه برای هر آزمون اخذ شد که کل نمونه‌های گروه بالا و گروه پایین 80 نمونه گردید. چون این دو گروه در اصطلاح عملکرد آزمون بیان شدند، نه در اصطلاح یک متغیر دموگرافیکی مثل گروه جنسیتی نمونه‌گیری، بایستی بی‌شباهتی- بیشتری بین نمونه‌های گروه بالا و نمونه گروه پایین نسبت به جفت نمونه مذکر و مونث باشد.

قابلیت قیاس آماره‌های آزمودنی تئوری کلاسیک - تست و تئوری سؤال- پاسخ

قیاس آماره‌های آزمودنی تئوری کلاسیک - تست و تئوری سؤال- پاسخ (توانایی تتا در تئوری‌های سؤال- پاسخ فرق دارد با نمره T در تئوری کلاسیک - تست که بوسیله همبستگی تتا و برآورده‌های T بدست آمده از همان نمونه آزمودنی بررسی شد. مقادیر تتا بوسیله برنامه تئوری سؤال- پاسخ BILOG (PC نسخه 3/07 برای مدل‌های یک- دو – و سه پارامتری تئوری سؤال- پاسخ) و نمره T بدست آمده در تئوری کلاسیک - تست بسادگی نمرات خام بدست آمدند. همبستگی نمره T بدست آمده تئوری کلاسیک - تست با تتا (توانایی) برآورد شده تئوری سؤال- پاسخ از طریق مدل‌های یک – دو و سه پارامتری سؤال- پاسخ بررسی شد. تمام برآوردهای تئوری سؤال- پاسخ با استفاده روشی (MML) بیشینه درست نمایی که از پیش تعیین شده برنامه BILOG بود انجام گرفت. تجزیه و تحلیل برای نمونه‌های متفاوت آزمودنی (اتفاقی- جنسیتی – و نمونه‌های گروه توانایی) و برای سؤالات هم آزمون ریاضی و هم آزمون درک مطلب تکرار شد.

قابلیت قیاس آماره‌های سؤال تئوری کلاسیک - تست و تئوری سؤال- پاسخ

قابلیت قیاس آماره‌های سؤال تئوری کلاسیک - تست و تئوری سؤال- پاسخ بوسیله همبستگی آماره‌های سؤال تئوری کلاسیک - تست و تئوری سؤال- پاسخ حاصل شده از یک نمونه آزمودنی‌ها بررسی شد.

دو نوع آماره‌های سؤال مقایسه گردید:

الف- پارامتر دشواری سؤال b (پارامتر موضع سؤال) مدل‌های تئوری سؤال- پاسخ با مقدار p دشواری سؤال تئوری کلاسیک - تست.

ب- پارامتر تمییزسؤال تئوری سؤال- پاسخa (پارامتر شیب سؤال مدل‌های دو و سه پارامتری تئوری سؤال- پاسخ) با شاخص متغیر سؤال تئوری کلاسیک - تست (r) (همبستگی دو رشته‌ای نقطه‌ای سؤال – آزمون). r برای تئوری کلاسیک -تست تصحیح خطاست (مشارکت نمره سؤال در کل نمره قبل از محاسبه (r) برای سؤال حذف می‌شود).

درجه ثبات آماره‌های سؤال تئوری‌ سؤال- پاسخ و تئوری کلاسیک - تست

همانطور که در بخش‌های مرور مطالعات بحث شد، ویژگی ثبات آماره‌های سؤال تعیین کننده است. درجه ثبات آماره‌های سؤال بوسیله همبستگی برآوردهای پارامتر سؤال دو نمونه متفاوت در یک چارچوب اندازه‌گیری بررسی شد. نه طرح نمونه‌گیری قبلی که بحث شد باعث بررسی ثبات آماره‌های سؤال را در نمونه‌های غیر مشابه بطور فزاینده‌ای شد.

الف- بین دو نمونه اتفاقی از یک جامعه

ب- بین نمونه‌های مذکر و مونث

ج- بین نمونه‌های توانایی پایین و توانایی بالا این پیشروی بی‌شباهتی بین نمونه‌ها بررسی درجه ثبات آماره‌های سؤال را در دو چارچوب اندازه‌گیری تسهیل نمود.

تبدیل‌های مقدار p تئوری کلاسیک - تست و همبستگی سؤال – آزمون

در تئوری کلاسیک - تست شاخص p دشواری سؤال (مقدار p نسبت آزمودنی‌هایی که به یک سؤال جواب درست دادند، دشواری سؤال را در یک مقیاس رتبه‌ای نه یک مقیاس فاصله ای بیان می‌کند. این مقدار p اگر چه بسادگی می‌تواند به یک مقیاس فاصله‌ای تبدیل شود طوریکه برای تجزیه و تحلیل آماری مناسب‌تر باشد. تبدیل بسادگی نیاز به این فرض دارد که ویژگی مربوط مورد اندازه‌گیری بوسیله سؤال بطور نرمال توزیع شود. تبدیل بوسیله یافتن نمره z متناظر با (p- 1) صدک توزیع z بدست می‌آید. برای مثال اگر مقدار p یک سؤال 84 باشد (84٪ آزمودنی سؤال را درست جواب دادند) و مقدار z برای چنین مقدار , p 1- همانطور که در شکل 2 نشان داده است خواهد بود. این هنجارسازی،خمیدگی را در رابطه بین دو سری از مقادیر p سؤال از بین می‌برد.(Anastasi,1988)

این تبدیل شاخص دشواری سؤال تئوری کلاسیک - تست بطور گسترده‌ای در موقعیت‌های اندازه‌گیری مختلف استفاده می‌شود همچون مقیاس مطلق ( Thurstone )Donlon, 1984, Thurstone 1947

و در تحقیق مرتبط با ردیابی سوء‌گیری سؤال Angoff,1982;Cole& Mass,1993).

در مطالعه حاضر، تجزیه و تحلیل همبستگی هم بین مقادیر p اصلی حاصل شده از جفت نمونه‌ها و هم بین مقادیر p نرمال برای بررسی ویژگی ثبات شاخص دشواری سؤال تئوری کلاسیک - تست انجام گرفت.

در تئوری کلاسیک - تست تمییزسؤال بعنوان همبستگی Product-moment پیرسون سؤال – آزمون (همبستگی دو رشته‌ای نقطه‌ای) بیان می‌گردد. چون ضریب همبستگی بصورت خطی مقیاس شده نیست (Hinkle,wiersma,&Jurs, 1988)، تبدیل Fiser z معمولاً قبل از تجزیه و تحلیل آماری برای بکار بستن در ضرایب همبستگی توصیه می‌شود. بهمین دلیل، در بررسی ویژگی ثبات شاخص تمییزسؤال تئوری کلاسیک - تست، تجزیه و تحلیل همبستگی هم برای ضرایب دو رشته‌ای نقطه‌ای و هم برای دو رشته‌ای نقطه‌ای مبدل Fisher z (Transformation) بین نمونه‌های آزمودنی‌ها بکار رفت.

نتیجه و بحث

نتایج مطالعه بعنوان پاسخ‌های پنج سؤال پژوهشی که قبلاً ارائه شده بود بحث می‌گردد. هر آنگاه که مناسب باشد، تفسیر مرتبط و بحث در مورد معنی و کاربردهای نتایج با همدیگر ارائه می‌گردد. اما قبل از اینکه نتایج مرتبط با سؤالات پژوهش ارائه گردد، سؤال برازندگی مدل تئوری سؤال- پاسخ جواب داده می‌شود.

سنجش برازندگی مدل تئوری سؤال- پاسخ

در هر کاربرد مدل تئوری سؤال- پاسخ، مهم است که بررسی نمائیم تا چه حدی مفروضات مدل سؤال- پاسخ برای داده‌های ارائه شده معتبرند و به چه خوبی داده‌های آزمون برازنده مدل منتخب تئوری سؤال- پاسخ برای استفاده در آن موقعیت ویژه هستند. تخلف مفروضات مدل تئوری سؤال- پاسخ و یا عدم برازش بین مدل تئوری سؤال- پاسخ استفاده شده در داده‌های آزمون، ممکن است به برآوردهای پارامتری مدل تئوری سؤال- پاسخ بی‌ثبات و نادرستی منجر شود. در مطالعه حاضر، بررسی برازش مدل تئوری سؤال- پاسخ بر روی یک نمونه اتفاقی ساده 6000 آزمودنی برای آزمون‌های درک مطلب و ریاضی TAAS (که اندازه نمونه‌ها برابر بود برای دو آزمون ولی نمونه‌ها متفاوت بودند) انجام گرفت. اندازه نمونه بزرگ مورد استفاده در بررسی مفروضات مدل تئوری‌ سؤال- پاسخ و برازش مدل، نتایج باثبات و قابل اعتمادی در مورد مفروضات مدل و برازش مدل فراهم نموده است.

تک بعدی‌گری مهمترین مفروضه رایج در همه مدل‌های تئوری سؤال- پاسخ هست. این فرض گاهی اوقات بطور تجربی بوسیله بررسی اینکه آیا یک عامل غالب در میان همه سؤالات آزمون وجود دارد مورد مطالعه قرار می‌گیرد (Hambleton et al.,1991)

سه مقدار مشخصه، ابتدایی برای 60 سؤال آزمون ریاضی TAAS : 11/4,1/5,1/3 بودند. سه مقدار مشخصه ابتدایی برای 48 سؤال آزمون درک مطلب TAAS : 8/4,1/5,1/3 بودند. براساس این نتایج، به نظر می‌رسد منطقی باشد که اشاره کنیم که فرضیه تک بعدی‌گری برای مدل‌های تئوری سؤال- پاسخ برای داده‌های مورد استفاده در مطالعه حفظ شد.

برازش مدل – داده‌ها از طریق بررسی اینکه آیا سؤالات آزمون مجزا با مدل تئوری سؤال- پاسخ داده شده عدم برازش دارند مورد مطالعه قرار گرفت. در (BILOG (V 3.07 آزمون نسبت درست نمایی (Likelihood-ratio) (chi square) (برای یک آزمون با بیش از 20 سؤال) ، که ناهمخوانی بین الگوی پاسخ مورد انتظار و الگوی پاسخی واقعی در یک سؤال ویژه در ارتباط با عملکردشان در آزمون بصورت کلی برای هر سؤال اجرا گردیده بود. (Mislevy & Bock, 1990). جدول 3 تعداد سؤالات مشخص شده که عدم برازش با مدل تئوری سؤال- پاسخ ارائه شده دارند [Alpe] = سطح 0/01 خلاصه نموده است.

تـوجه:

سه پارامتری = 3p ؛ دو پارامتری = 2p و یک پارامتری = 1p

این نکته قابل ارزش است که اشاره شود، اندازه نمونه ارائه شده 6000 مورد استفاده در تجزیه و تحلیل برای بررسی برازش مدل تئوری سؤال- پاسخ و آزمون آماری برای تشخیص سؤالات غیر متجانس قدرت آماری زیادی را داراست. حتی با آزمون آماری قدرتمند، فقط یک یا دو سؤال بعنوان غیر متجانس با مدل دو و سه پارامتری تئوری سؤال- پاسخ تشخیص داده شدند. نتایج نشان می‌دهد که داده‌ها بصورت فوق العاده خوب با مدل‌های دو و سه پارامتری تئوری سؤال- پاسخ برازش دارند.. برازش داده‌ها با مدل یک پارامتری اگر چه بطور آشکارا قابل سؤال است و در حدود 30٪ سؤالات بعنوان غیر متجانس با مدل یک پارامتری در تئوری سؤال- پاسخ در هر آزمون شناخته شدند. بدلیل عدم برازش آشکار بین داده‌ها و مدل یک پارمتری تئوری سؤال- پاسخ و بدلیل اینکه نتایج چنین عدم برازشی کاملاً واضح نیست (Hambleton etal,1991) نتایج مرتبط با مدل یک پارامتری تئوری سؤال- پاسخ در بخش‌های بعدی بایستی فوق العاده با احتیاط تفسیر شود.

ادامه دارد:

منبع:

(Education and psychological Measurement jun 1998 v 58 p357 (25

۰ ۰
۹۴/۰۶/۲۲

مجید شفیعیان

irt medical education

irt medical education

کاربرد نظریه ی سؤال - پاسخ در حیطه های مختلف آموزش پزشکی

مقالات

IRT

پروژه Monte Carlo

یک مقایسه بین تئوری کلاسیک – تست و تئوری سؤال – پاسخ

تئوری سؤال- پاسخ و تئوری-کلاسیک- تست: یک مقایسه تجربی از آماره‌های آزمودنی سؤال بوسیله Xitao Fan

آموزش پزشکی

پاسخگویی اجتماعی

حداقل الزامات و استاندارد ها در آمورش پزشکی

پیامدهای یادگیری دوره پزشکی عمومی در اسکاتلند پایه ای برای توانمندی در پزشکی عمومی

ادغام آموزش پزشکی و سیستم مراقبت سلامت در کشور

کنفرانس Outcome Based Education

کتاب

آموزش پزشکی

برنامه ریزی درسی

کارگاه

تئوری سؤال- پاسخ و تئوری-کلاسیک- تست: یک مقایسه تجربی از آماره‌های آزمودنی/ سؤال (قسمت دوم)

نظرات (۰)

ارسال نظر