При цьому виникає ряд таких досить спірних питань, як визначення мінімальне "прохідного" відсотка правильного виконання числа завдань, визначення оцінки в залежності від відсотка правильних відповідей.
Якщо педагогічний тест визначити коротко як систему завдань зростаючої складності, то стане зрозуміло, що складність завдань є найважливішим тестоутворюючим показником.
Придумати тест не так вже й просто. Можна придумати скількох завгодно завдань у тестовій формі (а це ще не тести). Їх не можна включати в дійсний тест доти, поки не стане відомої міра складності.
З цієї вимоги стає зрозумілої обов'язковість попередньої емпіричної перевірки кожного завдання, до початку тестування. У процесі перевірки багато завдань не витримують пропонованих до них вимог і тому не включаються в тест.
Перша вимога до тестових завдань: у тесті завдання повинні розрізнятися за рівнем складності, що випливає з даного раніше визначення тесту і розглянутого принципу.
З міркування над можна зробити два висновки.
Перший - що в тесті немає місця завданням з невідомою мірою складності.
І другій - що не всі пропоновані завдання в тестовій формі можуть стать тестовими завданнями.
Завдання в тестовій формі і тестове завдання - це різні поняття. У першому понятті до самим істотним відносяться вимоги форми і змісту. До тестових же завдань у першу чергу ставиться вимога відомих складності, те, що явно не потрібно в завдань у тестовій формі.
Завдання мають шанс стать тестовими лише після емпіричної перевірки міри їх складності.
Показник складності тесту і тестових завдань є змістовним і формальної одночасно.
Змістовним показником, тому що в гарному тесті складність може залежати лише від змісту і від рівня підготовленості самих випробуваних, у той час як у поганому тесті на результати починають помітно впливати форма завдань (особливо якщо вона не адекватна змісту), погана організація тестування.
Формальна складова сторона показника складності виникають при розгляді тестування як процесу протистояння пропонованими завданням. Одержуваний при цьому результат корисно розглядати як результат такої боротьби.
При спрощеному тлумаченні кожного випадку протистояння з черговим завданням звичайно розглядаються тільки два результати: перемога при правильному рішенні завдання, де отримується один бал, чи поразка, за що дається нуль балів.
Оцінка результату такої боротьби залежить від співвідношення рівня знання до рівня складності завдання, від обраної одиниці виміру знань і від заздалегідь прийнятого правила - що вважати "перемогою", а що ні.
У класичній теорії тестів багато років розглядалися тільки емпіричні показники складності. У нових варіантах психологічних і педагогічних теорій тестів більше увага стала приділятися характеру розумової діяльності учнів у процесі виконання тестових завдань різних форм.
Зміст тесту не може бути тільки легким, середнім чи важким. Тут повною мірою виявляється відома думка про залежність результатів застосовуваного методу. Легкі завдання тесту створюють тільки видимість наявності знань в учнів, тому що ними перевіряються мінімальні знання.
Спотворює результати тестування і підбор свідомо важких завдань, у результаті чого в більшості школярів виявляються занижені бали. Орієнтація на важкі завдання нерідко розглядається як засіб посилення мотивації до навчання. Однак цей засіб діє неоднозначно.
Одних важкі завдання можуть підштовхнути до навчання, інших - відіпхнути від її. Подібна орієнтація спотворює результати й у підсумку, знижує якість педагогічного виміру. Якщо тест побудований строго з завдань зростаючою складністю, то цим відкривається шлях до створення однієї із самих цікавих шкал виміру - шкали Л. Гутмана.
Розповсюджена, донедавна, рекомендація включати в тест більше завдань середньої складності, виправдана з погляду визначення надійності виміру по формулах класичної теорії тестів. Існуючі в цій теорії методи оцінки надійності тесту дають зниження надійності при включенні в тест помітно легких і важких завдань.
У той же час захоплення завданнями однієї лише середньої складності приводить до серйозної деформації змісту тесту: останній утрачає здатність нормально відображати зміст досліджуваної дисципліни, у якій завжди є легкий і важкий матеріал. Таким чином, у погоні за теоретично високою надійністю губиться змістовна валідність тесту. Прагнення ж підняти валідність тесту нерідко супроводжується зниженням його надійності. У науковій літературі це називається парадоксом Ф. Лорда, що описали цей парадокс із погляду статистичної теорії тестів.
5. Оцінювання, оцінка і вимір знань
У закордонній педагогічній літературі використовується близьке до виміру поняття "evaluation", що можна перекласти як "оцінювання", маючи у на увазі не тільки кінцевий результат, але і процес формування оцінки. Відповідно виділяються два основних види оцінювання - формуюче і підсумкове.
Мета першого - робити, за допомогою оцінювання, вплив на поточний процес навчання за рахунок встановлення зворотного зв'язку від студента до викладача.
Мета другого - одержати підсумкові результати навчання.
Оцінка, як поняття, має два основних значення - як судження про цінність (чи значимості) і як приблизна характеристика деякої величини.
Оцінки поділяються на двох груп: абсолютні і відносні. У формулюванні відносних оцінок використовуються терміни "добре", "погано" і т.п. Оцінки викладачів вузів ближче до абсолютних оцінок, розділеним на чотири рівні (градації)- відмінно, добре, задовільно і незадовільно.
6. Вимір знань і його об'єктивність
Вимір являє собою процедуру кількісного зіставлення досліджуваної властивості з деяким еталоном, прийнятим за одиницю виміру.
У відмінність, наприклад, від поняття "довжина столу" поняття "знання" не відноситься до безпосередньо вимірюваного феномена і тому знання приходиться вимірювати опосередковано, через емпірично фіксовані прояви того, що фахівці назвали би ознаками (індикаторами) знання. Тому кожне завдання тесту бажано розглядати як індикатор, що виявляє якийсь один фрагмент знання в тих випробуваних, у яких знання є.
Здоровий глузд підказує, що судити про знання всього матеріалу, що перевіряється по відповіді на одне лише завдання помилково, хоча в кожній навчальній дисципліні є питання, правильні відповіді на який говорять багато про що. Тим не менше, надійні висновки можна робити тільки за результатами застосування достатнього числа завдань.
Визначення статистичних характеристик є головним (після експертної перевірки змісту) засобом діагностики якості тесту по будь-якій навчальній дисципліні.
Рівень підготовленості випробуваних виявляється при аналізі їхніх відповідей на завдання тесту. Чим більше правильних відповідей, тим вище індивідуальний тестовий бал. Звичайно цей тестовий бал асоціюється з поняттям "рівень знань" і проходить процедуру уточнення на основі тієї чи іншої моделі виміру знань.
Насправді вірніше говорити про підготовленість, що включає в себе володіння необхідними знаннями, уміннями, навичками і представленнями. Отримана сума балів нерідко приймається за істинний рівень знань, хоча кожний визнає, що власне знання і бали, отримані по показниках знань - різні явища. Адже можна придумати тисячі різних показників і усі вони будуть з різною кількістю балів показувати на рівень знань. Виникає природне запитання - а які з показників правильно вказують на наявність знань, а які помилково?
Для виміру знань вимагаються емпіричні показники. У якості таких виступають зараз будь-які методи контролю знань, хоча інтуїтивно зрозуміло, що вони неоднаково представляють знання. Тому встає питання: "які методи показують краще?"
Апріорі можна затверджувати, що тест це робить краще через більшу його обґрунтованість. В основу обґрунтування якості тесту, крім згаданої вище інтерпретації одержуваних результатів, покладені концепція і модель виміру, а також дані статистичної обробки й інтерпретації результатів перевірки знань.
На рівні повсякденної свідомості будь-яка інтерпретація результатів тестування не представляється важкою справою. Отримана сума балів приймається за щирий рівень знань, хоча кожний визнає, що знання і бали, отримані по показниках знань - різні явища. Адже можна придумати тисячі різних показників і усі вони будуть з різною кількістю балів показувати на рівень знань.
Головна теза інтерпретації - не хто що знає, а хто по даному наборі завдань виявився вище чи нижче. Хоча при такій інтерпретації завжди залишається місце для критики тесту з позиції неповноти його змісту, у практиці цей підхід завжди виявлявся вирішальним через можливість скоротити число завдань і приймати рішення на основі тесту з меншим числом завдань. Власне кажучи, це форма редукції, успіх якої залежить від якості розробки тесту, і від обґрунтування валідності скороченого тесту з нормативно орієнтованою інтерпретацією.
Ефективним можна назвати тест, що краще, ніж інші тести, вимірює рівень знань, з меншим числом завдань, якісніше, швидше, дешевше, і все це - по можливості, у комплексі.
З поняттям "ефективність" близьке до нього по змісту поняття "оптимальність". Останнє трактується як найкраще з можливих варіантів, з погляду задоволення декільком критеріям, узятим по черзі чи разом.