پروژه Monte Carlo (قسمت دوم)
آمارههای سؤال و آزمودنی
آمارههای سؤال و آزمودنی تئوری سؤال- پاسخ و تئوری کلاسیک- تست برای هر سری دادههای پاسخ ایجاد شده در این مطالعه برآورد شدند. نتایج برای قابلیت قیاس (هم نظیری)، ثبات و صحت مورد بررسی قرار گرفتند. این فرآیند 100 بار برای هر وضعیت مطالعه انجام شد. دشواری سؤال در چارچوب تئوری کلاسیک-تست بعنوان نسبت آزمودنیها که بطور موفقیت آمیز به هر سؤال (مثل 100) پاسخ دادند اندازهگیری شد. یک شاخص دشواری سؤال بالا برای یک سؤال نشان میدهد که نسبت بزرگتری از آزمودنیها بطور صحیح پاسخ دادند. بدین صورت، مقادیر دشواری بالا سؤالات آسانتر را نشان میدهد، در حالیکه مقادیر پایین سؤالات سختتر را نشان میدهد. آمارههای دشواری سؤال در چارچوب اندازهگیری تئوری سؤال- پاسخ برای هر سؤال بعنوان پارامتر b (دامنهی حدود 2 تا 2- ) در هر دو مدل یک و دو پارامتری تئوری سؤال- پاسخ اندازهگیری شد. در این چارچوب، مقادیر پارامتری بالا سؤالات مشکل را نشان میدهند، در حالیکه مقادیر پایین سؤالات ساده را نشان میدهند.
دومین آماره سؤال براساس تئوری کلاسیک تست، تمییز سؤال ، برای هر سؤال بعنوان همبستگی product-moment پیرسون (rit ) بین پاسخ های سؤال آزمودنی ها ( که 0 و 1) هستند و نمرات کل آزمون اندازه گیری شدند. آماره های تمییز سؤال در چارچوب تئوری سؤال- پاسخ بعنوان پارامتر a (دامنه از 3/0 حدود تا 0) در هر دو مدل یک و دو پارامتری مدل های تئوری سؤال- پاسخ اندازه گیری شدند. در هر دو چارچوب اندازه گیری مقادیر تمییز سؤال بالا نشان داد سؤالات بطور موثری می توانند آزمودنی هایی را که دارای سطوح متنوع ویژگی هستند را متمایز نمایند.
آماره آزمودنی ، سطح ویژگی ، مشتق شده از تئوری کلاسیک- تست بعنوان مجموع پاسخ های هر آزمودنی به همه سؤالات آزمون (که T نمره کل آزمون است) برآورد شد.
آماره آزمودنی در چارچوب تئوری سؤال- پاسخ بعنوان پارامتر θ آزمودنی (از لحاظ نظری دامنه ای از حدود 3 تا 3-) براساس هر دو مدل یک و دو پارامتری تئوری سؤال- پاسخ اندازه گیری شد. برای هر دو چارچوب اندازه گیری، آزمودنی که بطور موفقیت آمیزی به اکثریت سؤالات آزمون پاسخ دهد آماره آزمونی بالا T یا θ بدست می آورد که نشان توانایی بالا خواهد بود. برعکس یک آماره آزمودنی پایین نشان دهنده یک آزمودنی دارای توانایی پایین است.
برآوردهای آماره های سؤال و آزمودنی در چارچوب اندازه گیری تئوری سؤال- پاسخ با بسته نرم افزاری ریز کامپیوتری (1997Bock& PARSCALE, (Muraki بدست آمد.
PARSCALE برآوردهای پارامتری را با استفاده از روش (MML) بیشینه درست نمایی بدست می آورد و تعدادی گزینه های برنامه ای دارد که در تنظیم پارامترهای آماره های سؤال و آزمودنی می تواند تأثیر بگذارد. برای تجزیه و تحلیل ساده، از پیش فرض برنامه در این مطالعه استفاده شد، باستثناء اینکه تعداد انتظار و بیشینه سازی چرخه های (EM) را از 40 تا 5 افزایش دادیم. این برای افزایش درست نمایی (احتمال) که PARSCALE در تعامل با ملاک همگرایی و عدم توقف قبل از کسب یک نتیجه پایدار انجام شد. در مدل های لجستیک یک و دو پارامتری PARSCALE الف) 30 ربع گروه از 4/0 تا 4/0- ب) ملاک همگرایی برای پارامترهای سؤال در 0/001 و ج) پارامتر آزمودنی θ که از یک توزیع نرمال استاندارد (1 و 0) N باید برآورد شود ، تنظیم می کند.
قابلیت قیاس (هم مانندی) آماره های سؤال و آزمودنی تئوری سؤال- پاسخ و تئوری کلاسیک-تست:
هم مانندی آماره های سؤال و آزمودنی در این مطالعه بوسیله همبستگیهای بین برآوردهای مبتنی بر تئوری کلاسیک- تست و برآوردهای مبتنی بر تئوری سؤال- پاسخ متناظرشان حاصل از یک نمونه آزمودنی های شبیه سازی شده مورد بررسی قرار گرفت. برای آماره های دشواری سؤال، مقدار P دشواری سؤال حاصل از تئوری کلاسیک- تست با پارامتر b دشواری سؤال مبتنی بر تئوری سؤال- پاسخ همبستگی شان بدست آمد.
برای آماره های تمییز سؤال، شاخص تمییز سؤال rit حاصل از تئوری کلاسیک- تست با پارامتر a تمییز سؤال مبتنی بر تئوری سؤال- پاسخ همبستگی شان بدست آمد. همانندی (قابلیت قیاس آماره های آزمودنی از طریق همبستگی نمره T آزمون آزمودنی مبتنی بر تئوری کلاسیک-تست با پارامتر θ آزمودنی مبتنی بر تئوری سؤال- پاسخ همبستگی اخذ شد.
ثبات آماره های سؤال تئوری سؤال- پاسخ و تئوری کلاسیک -تست:
برای بررسی ثبات آماره دشواری سؤال تئوری کلاسیک تست، مقادیر P سؤال دو نمونه مستقل آزمودنی های شبیه سازی شده که به یک آزمون پاسخ دادند همبستگی شان بدست آمد. مشابهاً، در چارچوب تئوری سؤال پاسخ، برآوردهای پارامتر b دشواری سؤال حاصل از دو نمونه همبستگی شان اخذ گردید. یک ضریب ثبات ( همبستگی است) بالا نشان می دهد برآوردهای دشواری سؤال دو نمونه متفاوت آزمودنی ها الگوهای مشابهی از مقادیر را ارائه خواهند نمود. یعنی اینکه سؤالات برآورد شده در سطوح دشواری بالا و پایین در یک نمونه همینطور در نمونه دیگر برآورد خواهند شد.
بررسی ثبات آماره های تمییز سؤال همان روش توصیف شده برای اندازه گیری ثبات دشواری سؤال را با استفاده از دو نمونه متفاوت دنبال نمود. در چارچوب تئوری سؤال- پاسخ، برآوردهای پارامتر a تمییز سؤال حاصل از یک نمونه آزمودنی ها با برآوردهای a حاصل نمونه مستقل دیگر آزمودنی ها همبستگی شان اخذ شد.مشابهاً، در چارچوب تئوری کلاسیک-تست ، شاخص های تمییز سؤال rit حاصل از دو نمونه همبستگی شان بدست آمد. همبستگیهای بالا توصیه می کند که آماره های تمییز سؤال بررسی شده ثابت نمونه اند.
صحت آماره های سؤال و آزمودنی تئوری سؤال- پاسخ و تئوری کلاسیک- تست:
امتیاز اصلی روش Monte Carlo ما، که در آن سؤالات آزمون شبیه سازی شده و آزمودنی های شبیه سازی شده تولید شدند، این است که برخلاف بیشتر مطالعات گذشته دیگر (Fan,1998) مشخصه های آزمودنی و پارامترهای سؤال می توانستند واضحاً کنترل شوند. از این رو مشخصه های سؤال و توانایی آزمودنی ها مقادیر معلوم بودند. در نتیجه ، این امکان برای ما وجود داشت که صحت آماره های آزمودنی و سؤال برآورد شده (حاصل از دو تئوری کلاسیک- تست و سؤال پاسخ) را در ارتباط با آماره های آزمودنی و سؤال واقعی محاسبه نمائیم.
برای بررسی صحت آماره های سؤال و آزمودنی مبتنی بر دو چارچوب اندازه گیری، همبستگیهای بین مقادیر معلوم و برآورد شده محاسبه گردید. برای دشواری سؤال، مقادیر واقعی با هر دو پارامتر b دشواری سؤال تئوری سؤال- پاسخ و مقدار p دشواری سؤال تئوری کلاسیک- تست همبستگی سنجیده شد. برای تمییز سؤال، همبستگی مقادیر واقعی با هر دو پارامتر a تمییز سؤال تئوری سؤال- پاسخ و شاخص rit تمییز سؤال تئوری کلاسیک- تست سنجیده شد. برای آماره آزمودنی، همبستگی مقادیر معلوم با هر دو پارامتر θ آزمودنی تئوری سؤال- پاسخ و نمره T آزمون آزمودنی تئوری کلاسیک- تست سنجیده شد. این محاسبات که صحت آماره های سؤال و آزمودنی را اندازه می گیرد برای هر نمونه آزمودنی های شبیه سازی شده اجرا گردید.
نتایج
نتایج بررسی Monte Carlo ما که همانندی، ثبات، و صحت آماره های سؤال و آزمودنی مشتق شده از تئوری پاسخ و تئوری کلاسیک- تست را بررسی می نماید در جدول 1 تا 8 ارائه شده است. در بخش های متعاقب، داده ها در زمینه کاربردیشان برای آزمون سازی و انتخاب سؤال تحت چارچوب تئوری سؤال- پاسخ و تئوری کلاسیک- تست خلاصه و تفسیر شده اند.
قابلیت قیاس آماره های سؤال و آزمودنی تئوری سؤال- پاسخ و تئوری کلاسیک تست:
نتایج شبیه سازی کامپیوتری که همانندی آماره های آزمودنی حاصل از چارچوب های تئوری سؤال- پاسخ و تئوری کلاسیک- تست را بررسی می نماید در جدول 1 خلاصه شده است.
ورودی های ثبت شده در این جدول مشتق از روش متعاقب توصیف شده بوسیله(Fan (1998 در ارتباط با
الف)اخذ برآوردهای توانایی آزمودنی مبتنی بر تئوری سؤال- پاسخ و تئوری کلاسیک- تست از سری داده های پاسخ برای هر نمونه آزمودنی های شبیه سازی شده بودند.
ب) همبستگی برآوردهای توانایی آزمودنی تئوری سؤال- پاسخ و تئوری کلاسیک- تست
ج) معدل گیری همبستگیهای همه نمونه ها در طی همان شرایط تجربی، هر ورودی ثبت شده در جدول معدل ضرایب 200 همبستگی حاصل از پاسخ های دو نمونه اتفاقی آزمودنی های شبیه سازی شده (N=1000) تا 100 آزمون شبیه سازی شده ارائه می کند (همه معدل ضرایب همبستگی گزارش شده در این مطالعه با استفاده ازFisherz transformations محاسبه گردیدند.
نتایج جدول 1 ضرایب همانندی (قابلیت قیاس) خیلی بالا آمارههای آزمودنی تئوری کلاسیک- تست و تئوری سؤال-پاسخ را نشان می دهند. در واقع، در میان همه شرایط تجربی، معدل همبستگیهای بدست آمده بین برآوردهای پارامتر θ مبتنی بر تئوری سؤال- پاسخ و مقادیر نمره T آزمون آزمودنی مبتنی بر تئوری کلاسیک- تست کمتر از 0/970 نبودند و به بزرگی 0/995 با معدل کلی همبستگی 0/958 بودند. این همبستگیهای خیلی بالا نشان می دهند صرفنظر از چارچوب اندازه گیری، تصمیمات در مورد سطوح ویژگی های آزمودنی های بررسی شده یا در تئوری سؤال- پاسخ یا در تئوری کلاسیک- تست آمارههای آزمودنی آنچنان فرقی نخواهند داشت.
جدول 1 : قابلیت قیاس آماره آزمودنی: معدل همبستگی ها بین برآوردهای ویژگی آزمودنی تئوری کلاسیک- تست و تئوری سؤال- پاسخ
توجه:
IRT تئوری سؤال - پاسخ ; تئوری کلاسیک- تست=CTT ; هر رقم ورودی ثبت شده براساس معدل 200 همبستگی محاسبه شده در میان 1000 آزمودنی هاست . معدل ضرایب همبستگیها از طریق Fisherz transformations بدست آمد. انحرافات معیار همبستگیهای خام در پرانتزها ظاهر می شود.
نتایج جدول 2 نشان می دهد که پارامتر b دشواری سؤال تئوری سؤال- پاسخ و مقدار p سؤال تئوری کلاسیک- تست هم نظیری خیلی بالایی در کل با معدل همبستگی 0/964 را به اثبات رساندند. در میان همه آزمون ها و توزیع های مقادیر دشواری سؤال واقعی بالاترین سطوح سازش های آماری وقتی که مقادیر تمییز سؤال واقعی در یک مقدار واحد ثابت ماند رخ داد (که مدل یک پارامتری تئوری سؤال- پاسخ را ارائه می کند). تحت شرایط مدل 2 پارامتری تئوری سؤال- پاسخ، همبستگیهای حاصل بر طبق بحث توزیع مقادیر واقعی تمییز سؤال متنوع بود، در حالیکه همبستگیهای بالاتر در شرایط 2/0 تا 1/0نسبت به شرایط 2/5 تا 0/5 یافت شدند. اگر چه در هر دو شرایط همبستگیهای حاصل هنوز کاملاً قوی بودند.
جدول 2 : قابلیت قیاس آماره های سؤال: معدل همبستگی ها بین برآوردهای دشواری سؤال تئوری سؤال- پاسخ و تئوری کلاسیک- تست
توجه:
IRT تئوری سؤال - پاسخ ; تئوری کلاسیک- تست=CTT ; هر رقم ورودی ثبت شده براساس معدل 200 همبستگی محاسبه شده در میان 1000 آزمودنی هاست . معدل ضرایب همبستگیها از طریق Fisherz transformations بدست آمد. انحرافات معیار همبستگیهای خام در پرانتزها ظاهر می شود.
جدول 3 نتایج بررسی قابلیت قیاس (هم نظیری) پارامتر a تمییز سؤال-پاسخ تئوری سؤال- پاسخ و شاخص rit تمییز سؤال تئوری کلاسیک-تست را ارائه میکند. در این مقایسه تفاوتهای اساسی بین دو روش رخ داده است. بررسی دقیق معدل همبستگیها ثابت میکند که توزیعهای تمییز سؤال و دشواری سؤالهای شبیهسازی شده بطور قابل توجهی در سازگاری بین تمییزهای سؤال برآورد شده با استفاده از دو چارچوب اندازهگیری اثر گذاشت. میزانهای بالاتر سازگاریهای اندازهگیری هنگامی که مقادیر تمییز سؤال شبیه سازی شده دامنه وسیعتری داشتند یافت شدند و میزانهای سازگاریهای بالاتر وقتی که مقادیر دشواری سؤال دامنه باریکتر داشتند بدست آمدند. در واقع برآوردهای تمییز سؤال تئوری کلاسیک- تست و تئوری سؤال- پاسخ به میزانهای قابل قبول سازش فقط وقتی که مقادیر دشواری سؤال باریکترین مقادیر توزیع را داشت رسیدند (0/951 =M و 0/5 تا 0/5-). در تمام شرایط دیگر همبستگیهای سازگاری متوسط تا پایین بودند (در کل معدل همبستگیها 0/676).
جدول 3 : قابلیت قیاس آماره های سؤال: معدل همبستگی ها بین برآوردهای تمییز سؤال تئوری کلاسیک- تست و تئوری سؤال پاسخ
توجه:
IRT تئوری سؤال - پاسخ ; تئوری کلاسیک- تست=CTT ; هر رقم ورودی ثبت شده براساس معدل 200 همبستگی محاسبه شده در میان 1000 آزمودنی هاست . معدل ضرایب همبستگیها از طریق Fisherz transformations بدست آمد. انحرافات معیار همبستگیهای خام در پرانتزها ظاهر می شود.
در خلاصه نتایج تاکنون، هم نظیری آمارههای سؤال و آزمودنی مبتنی بر تئوری سؤال- پاسخ و تئوری کلاسیک-تست برای برآودهای دشواری سؤال و برآوردهای توانایی آزمودنی خیلی بالا بود. بر این دو آماره، تصمیمات در مورد سؤالات آزمون و پاسخگویان آزمون براساس اطلاعاتشان بطور بسیار زیادی سازگاری دارند صرفنظر از روش تجزیه و تحلیل.
اگر چه، این سطح بالای هم نظیری در خصوص آمارههای تمییز سؤال وجود نداشت. شبیهسازی ثابت نمود که هم نظیری برآوردهای تمییز سؤال تئوری سؤال- پاسخ و تئوری کلاسیک- تست بطور متنوعی بسیار زیاد بستگی به ویژگیهای اساسی سؤالات آزمون دارد. به استثناء یک آزمون حاوی هر دو دامنه وسیع مقادیر تمییز و یک دامنه باریک مقادیر دشواری، هر استثنائی از همانندی بالای تمییز سؤال بین تئوری سؤال- پاسخ و تئوری کلاسیک- تست ممکن است بیاساس باشند. از این رو ممکن است تحت این شرایط دو روش منجر به انتخاب سؤالات اکثراً متفاوت در یک پروژه آزمون سازی شوند، برای مثال، توجه کنید، اگر چه عدم همانندی در آمارههای تمییز سؤال در مورد اینکه کدام چارچوب اندازهگیری، تئوری سؤال-پاسخ یا تئوری کلاسیک – تست برآوردهای باثباتتر یا صحیحتری از مشخصههای سؤال فراهم مینماید آگاهی نمیدهد. این موارد در بخشهای متعاقب پاسخ داده شده است.
ادامه دارد...
منبع:
A Monte Carlo comparison of Item and person statistics based on Item Response Theory Versus classical Test Theory
Paul Macdonal and sampovpaunone
Educational and psychological Measurement 2002; 62;921 university of Western Ontario
- ۹۴/۰۶/۱۱