تئوری سؤال- پاسخ و تئوری-کلاسیک- تست: یک مقایسه تجربی از آماره‌های آزمودنی/ سؤال (قسمت پنجم)

چهارشنبه, ۲۵ شهریور ۱۳۹۴، ۰۸:۰۰ ق.ظ

سؤال پژوهشی 5

آخرین سؤال پژوهشی که پرسیده شده بود "شاخص‌های تمییزسؤال تئوری کلاسیک - تست و تئوری سؤال پاسخ در میان نمونه‌های متفاوت آزمودنی‌ها چگونه پاثبات‌اند"? جدول 8 نتایج تجزیه و تحلیل همبستگی‌های شاخص‌های تمییزسؤال تئوری کلاسیک - تست و تئوری سؤال پاسخ را ارائه می‌کند. همانطور که قبلاً توضیح داده شد مدل یک پارامتری تئوری سؤال پاسخ (راش) برآوردهای تمییزسؤال را برای سؤال‌های جداگانه فراهم نماید و به جای آن تمییزسؤال ثابت را برای همه‌ی سؤال‌ها فرض می‌کند، هیچ همبستگی برای مدل یک پارامتری نمی‌توانست محاسبه شود، از این رو "کاربردی نیست" در هر ستون مدل یک پارامتری تئوری سؤال- پاسخ در جدول لحاظ شده است. این نکته قابل ارزش است که بیان شود هر رقم ثبت شده در جدول یا معدل همبستگی‌های دو رشته‌ای نقطه‌ای تئوری کلاسیک - تست بین دو نمونه‌ها است یا معدل همبستگی شیب های سؤال تئوری سؤال- پاسخ بین دو نمونه‌هاست. هر رقم ثبت شده معدل 100 ضریب همبستگی حاصل 100 جفت نمونه می‌باشد.

شاخص‌های تمییزسؤال هر دو تئوری کلاسیک - تست و تئوری سؤال- پاسخ در میان نمونه‌های آزمودنی نسبت به شاخص‌های دشواری سؤال ارائه شده در جدول 7 کم ثبات‌ترند. این نتیجه با آنچه در مورد قیاس آماره‌های سؤال در جدول 5 و 6 در تئوری کلاسیک - تست و سؤال- پاسخ دیده شد موازی است. همچنین همبستگی‌های بالاتر دو رشته‌ای نقطه‌ای تئوری کلاسیک - تست در یکسری موارد و همبستگی‌های بالاتر شیب‌های سؤالات در تئوری‌ سؤال- پاسخ هیچ امتیاز نظام مندی را از یک چارچوب نسبت به دیگری آشکار نکرد. در بیشتر موارد معدل همبستگی‌های شاخص‌های تمییزسؤال تئوری کلاسیک - تست بین نمونه‌ها و آنهایی که در تئوری سؤال- پاسخ بودند کاملاً با یکدیگر قابل مقایسه (همانند) و نسبتاً بالا (بالایی 0/80 تا پایین 0/90 ) بودند که نشان دهنده ثبات قابل قبول در میان نمونه‌ها است.

اما ثبات شاخص‌های تمییزسؤال هم تئوری کلاسیک - تست و هم تئوری سؤال- پاسخ با افزایش بی‌شباهتی بین گونه‌ها کاهش پیدا کرد. بعبارت دیگر شاخص‌های تمییزسؤال تئوری کلاسیک - تست و تئوری سؤال- پاسخ بیشترین ثبات را در میان نمونه‌های اتفاقی داشتند و آنها در میان گونه‌های مونث- مذکر کمتر ثباتی داشتند. (جفت نمونه مذکر- مؤنث نسبت به جفت نمونه اتفاقی بی‌شباهت‌ترند.) و در نمونه‌های توانایی بالا – پایین کمترین ثبات را داشتند (جفت نمونه توانایی بالا – پایین بی‌شباهت‌ترین در میان شرایط نمونه‌گیری بودند).

برای آخرین شرایط (آزمون درک مطلب و بین نمونه‌های توانایی بالا – پایین)، هر دو رشته‌ای نقطه‌ای بطور کامل بهم ریخت در اصطلاح ثبات بین نمونه‌ها (0/106 = / و 1/2=r) بود.

شیب‌های سؤال مدل در پارامتری تئوری سؤال- پاسخ نسبتاً باثبات بودند (0/636 =r) اما شیب‌های نمودار سؤال مدل سه پارامتری دوباره بهم ریخت (0/20=r). این مشاهده تجربی تا حدودی گیج کننده است.

همانطور که قبلاً بطور تئوری بحث شد اگر پارامترها بطور کافی برای اندازه نمونه برآورد می‌شدند مدل‌های درجه بالاتر (کم اجبارتر ) بایستی تمایل به برازش بهتر نسبت به مدل‌های درجه پایین‌تر (اجباری‌تر) داشتند، اگر چه برازش بهتر به هزینه صرفه‌جویی در مدل تمام می‌شود. اگر سازش بهتر بدست آید ثبات بیشتر پارامترهای سؤال مورد انتظار است (Ham bleton etal’1991). این واقعیت است که در این موقعیت مدل دو پارامتری تئوری سؤال- پاسخ شاخص‌های تمییزسؤال معمولاً با ثبات داشتند و مدل سه پارامتری تئوری سؤال- پاسخ هیچ ثباتی را برای همان داده‌ها که برخلاف هم انتظارات تئوریکی، مشهود بود نشان نداد.

خلاصه‌ و نتیجه‌گیری :

مطالعه حاضر بطور تجربی رفتار آماره‌های سؤال و آزمودنی دو چارچوب اندازه‌گیری را بررسی نمود. مطالعه بر دو موضوع اصلی تأکید داشت:

الف) آماره‌های سؤال و آزمودنی تئوری کلاسیک - تست و تئوری سؤال- پاسخ چگونه با یکدیگر قابل مقایسه‌اند؟ (همانندند).

ب) آماره‌های سؤال تئوری کلاسیک - تست و آماره‌های سؤال تئوری سؤال- پاسخ به ترتیب چگونه باثباتند؟ یک پایگاه داده‌های مقیاس وسیع از برنامه سنجشی در سطح ایالتی بعنوان پایه تجربی بررسی مورد استفاده قرار گرفت.

منبع سؤال آزمون تشکیل شده بود از دو آزمون (ریاضی و درک مطلب) با 60 و 48 سؤال دو ارزش نمره‌گذاری شده در هر کدام از آزمون‌ها و منبع آزمودنی بیش از 193/000 آزمودنی که در هر دو آزمون شرکت کردند. نمونه‌های اتفاقی (100=n) از منبع آزمودنی‌ها تحت سه طرح نمونه‌گیری که بطور فزاینده‌ای جفت نمونه‌های غیر مشابه‌تر ایجاد می‌کردند اخذ شد. عدم تشابه فزاینده بین نمونه‌ها سنجش درجه ثبات آماره‌های سؤال تئوری کلاسیک - تست و تئوری سؤال- پاسخ را تسهیل نمود.

یافته‌های اصلی شامل:

1- آماره‌های آزمودنی (برآوردهای توانایی آزمودنی) تئوری کلاسیک - تست در سطح بالایی با آماره‌های آزمودنی (برآوردهای توانایی آزمودنی) تئوری سؤال- پاسخ در هر سه مدل تئوری سؤال- پاسخ قابل مقایسه (همانند) بودند.

2- شاخص‌های دشواری سؤال تئوری کلاسیک- تست با شاخص‌های دشوار سؤال همه‌ی مدل‌های تئوری سؤال- پاسخ بالاحض مدل راش خیلی قابل مقایسه (همانند) بودند.

3- در مقایسه با شاخص‌های دشواری سؤال، شاخص‌های تمییزسؤال تئوری کلاسیک - تست تا حدی با شاخص تمییزسؤال تئوری سئوال- پاسخ کمتر قابل مقایسه (هم مانند) بودند. اگر چه در اکثریت شرایط، همانندی (قابلیت قیاس) اعتدالاً در سطح بالا تا بالا بود، اندک مواردی همانندی خیلی پایین بود.

4- هر دو شاخص‌های دشواری سؤال تئوری کلاسیک - تست و تئوری سؤال- پاسخ ثبات خیلی بالایی را در میان نمونه‌ها نشان دادند، حتی در میان نمونه‌هایی که کاملاً با یکدیگر متفاوت بودند. (نمونه‌ها از گروه‌های توانایی پایین و بالا). درجه ثبات شاخص دشواری سؤال تئوری کلاسیک - تست در سطح بالایی قابل مقایسه (همانند) اگر بهتر نباشد با درجه ثبات برآوردهای پارامتر دشواری سؤال تئوری سؤال- پاسخ بود.

5- هر دو برآوردهای تمییزسؤال تئوری سؤال- پاسخ و تئوری کلاسیک - تست تا حدودی کم ثبات‌تر از برآوردهای دشواری سؤال در تئوری بودند. برای هر دو برآوردهای تمییزسؤال تئوری سؤال- پاسخ و تئوری کلاسیک - تست، درجه ثبات هنگامی که نمونه‌ها غیر مشابه‌تر می‌شدند بطور یکنواخت کاهش پیدا می‌کرد، این دلالت بر این دارد که پارامترهای متغیر سؤال نه در تئوری کلاسیک - تست و نه در تئوری سؤال- پاسخ نمی‌توانند درجه بالایی از ثبات پارامتر را در جامعه‌هایی که متفاوت هستند حفظ نمایند. درجه ثبات برآوردهای تمییزسؤال تئوری کلاسیک - تست با برآوردهای تمییزسؤال تئوری سؤال- پاسخ در حد بالایی قابل مقایسه (همانند) بودند.

در مجموع، یافته‌های این بررسی تجربی برای بی‌اعتبار ساختن چارچوب تئوری کلاسیک - تست در ارتباط با انتسابش به ناتوانی در تولید آماره‌های سؤال، آزمودنی بی‌ثبات ناکام ماندو برعکس نتایج در حمایت از چارچوب تئوری سؤال- پاسخ برای برتری نمایان نسبت به تئوری کلاسیک - تست در ایجاد آماره‌های سؤال، آزمودنی باثبات ناکام ماند. یافته‌های اینجا بسادگی نشان دادند که دو چارچوب اندازه‌گیری آماره‌های سؤال و آزمودنی خیلی مشابه هر دو در اصطلاح قابلیت قیاس آماره‌های آزمودنی و سؤال بین دو چارچوب اندازه‌گیری تولید می‌نمایند و به اصطلاح درجه‌ای از ثبات در آماره‌های سؤال دو چارچوب اندازه‌گیری رقیب مشهود است. این یافته‌ها تعدادی سؤالات جالب در مورد اینکه تفاوت‌های بین مدل‌های تئوری سؤال- پاسخ و تئوری کلاسیک-تست را هم در تئوری و هم در کار آزمون چگونه باید دید.

همانطور که در شروع این مقاله بحث شد، ویژگی ثبات آماره‌های سؤال و آزمودنی‌ مهمترین ویژگی مدل هست که نیاز به ارزشیابی دارد، زیرا بحث آماره‌های سؤال و آزمودنی تئوری سؤال- پاسخ ثبات را دارا می‌باشد در حالیکه آماره‌های سؤال و آزمودنی تئوری کلاسیک - تست نیروی محرکه برای توسعه و استفاده از مدل‌های اندازه‌گیری تئوری سئوال- پاسخ ایجاد نکرده است. این استدلال بطور وسیعی در جامعه اندازه‌گیری پذیرفته شده است.

متأسفانه، نگاه به اینکه استدلال قابل بحث است بنظر می‌رسد بطور وسیع در خلاء‌هایی از شواهد تجربی رخ داده است زیرا مطالعات در نشان دادن این که این فرضیه مهم موضوع پژوهش تجربی سخت و نظام‌مند شده است ناکام می‌مانند. این نگاه من است که در اندازه‌گیری مربوط به روانشناسی، همانند فیلدهای دیگر علوم، مدل‌های تئوریکی در راهنمایی پژوهش و کار ما مهم هستند. اما مزیت‌های یک مدل تئوریکی بایستی نهایتاً از طریق یک بررسی دقیق تجربی سخت مورد تأییذ قرار گیرد.

البته مطالعه تجربی حاضر، همانند مطالعات پژوهشی دیگر یکسری محدودیت‌های خودش را داشت که ممکن است بطور بالقوه اعتبار یافته‌هایش را کاهش دهد. اول از همه ویژگی سؤالات آزمون استفاده شده در این مطالعه ممکن است تا حدی منحصر بفرد باشد.

همانطور که در شروع قسمت روش‌ها بحث شد و بوسیله شکل یک نشان داده شد توزیع‌های نمرات آزمون یک حد اثرات قوی را نشان داد که برای آزمون‌های حداقل کفایت و آزمون‌های تسلط معیار مدار دیگر عموماً یک مورد هست. اثرات سقف قوی توصیه می‌کند که تعداد زیادی سؤالات تمایل به خیلی آسان هستند. اگر چه اینکه این ویژگی داده‌ها ممکن است چه اثر نهایی نظام مندی در نتایج داشته باشد واضح نیست، پسندیده است که در مطالعات آینده برای تکرار مطالعه حاضر از آزمون هنجار مدار استفاده شود که معمولاً سؤالات دارای درجه دشواری سؤال و تمییزسؤال متنوع هستند.

دومین کمبود تحقیق تا حدود منبع سؤال محدود استفاده شده در مطالعه است، اگر چه منبع آزمودنی کاملاً در نمونه‌های متفاوت گوناگون که شامل می‌شد کافی بود، اما در مورد منبع سؤال این چنین نبود. بطور ایده‌آل منبع سؤال آزمون بایستی وسیع‌تر و از لحاظ ویژگی‌های سؤال گوناگون‌تر باشد طوریکه سؤالات از منبع نمونه‌گیری شود برای مطالعه رفتار آماره‌های سؤال در تئوری کلاسیک - تست و تئوری سؤال- پاسخ در شرایط متفاوت از ویژگی سؤال، مطالعات آینده ممکن است با استفاده از چندین پایگاه داده‌ها آزمون گوناگون این امتیاز را حاصل نمایند و سؤالات مؤنت کارلو که بطور ساختگی ویژگی‌های سؤال را تعیین می‌نماید در کمک راهنمایی این موضوعات کمک کننده است.

اوایل دهه‌ی اخیر RobertL. Thorndik(1982) نظرات ذیل را در ارتباط با مدل‌های اندازه‌گیری تئوری سؤال- پاسخ ارائه نمود:

در حجم عمده آزمون هم در آزمون‌های محلی و هم در آزمون‌های استاندارد، من شک دارم که مقدار زیادی تغییر وجود خواهد داشت. سؤالاتی که ما برای آزمون انتخاب خواهیم کرد تفاوت آنچنانی با سؤالاتی که با روش‌های قبلی بایستی انتخاب می‌شدند ندارند و نتایج آزمون‌ها همچنان دارای ویژگی‌های یکسان است (p.12) یافته‌های این مطالعه انتقاد Thorndike را راجع به مدل‌های تئوری سؤال- پاسخ که امتیازات منحصر به فرد ذاتی نسبت به برآوردهای تئوری کلاسیک - تست را شامل می‌شود بنظر می‌رسد اعتبار می‌بخشد.

ادامه دارد:

منبع:

(Education and psychological Measurement jun 1998 v 58 p357 (25

۰ ۰
۹۴/۰۶/۲۵

مجید شفیعیان

irt medical education

irt medical education

کاربرد نظریه ی سؤال - پاسخ در حیطه های مختلف آموزش پزشکی

مقالات

IRT

پروژه Monte Carlo

یک مقایسه بین تئوری کلاسیک – تست و تئوری سؤال – پاسخ

تئوری سؤال- پاسخ و تئوری-کلاسیک- تست: یک مقایسه تجربی از آماره‌های آزمودنی سؤال بوسیله Xitao Fan

آموزش پزشکی

پاسخگویی اجتماعی

حداقل الزامات و استاندارد ها در آمورش پزشکی

پیامدهای یادگیری دوره پزشکی عمومی در اسکاتلند پایه ای برای توانمندی در پزشکی عمومی

ادغام آموزش پزشکی و سیستم مراقبت سلامت در کشور

کنفرانس Outcome Based Education

کتاب

آموزش پزشکی

برنامه ریزی درسی

کارگاه

تئوری سؤال- پاسخ و تئوری-کلاسیک- تست: یک مقایسه تجربی از آماره‌های آزمودنی/ سؤال (قسمت پنجم)

نظرات (۰)

ارسال نظر