НАДЕЖНОСТЬ ТЕСТА ДЛЯ ОЦЕНКИ КОМПЕТЕНЦИЙ СТУДЕНТА

В настоящее время широко распространены тесты, применяемые для контроля компетенций студентов на различных стадиях обучения. При этом большое внимание уделяется качеству тестов, однако в большинстве случаев [9] под качеством тестов понимают качество вопросов и вариантов ответов. При этом важное значение имеют так же статистические характеристики теста, поскольку в случае, когда текст вопросов и вариантов ответов составлен корректно, именно они определяют корректность оценки уровня компетенции студента. В данной работе оценивается качество тестов, предназначенных для контроля компетенций студентов, с точки зрения их статистических характеристик.

Одной из важнейших характеристик теста является его надежность. В некоторых случаях надежность теста определяют через повторяемость его результатов [3]. Это означает, что надежность конкретного теста может быть определена экспериментальным путем, однако используются так же и объективные критерии надежности теста. В данной работе понятие надежности теста определяется через статистические распределения случайной величины, которой в общем случае является частота получения респондентом того или иного процента правильных ответов. Кроме того, в данной работе предлагается методика для повышения надежности определенного типа тестов.

Принято выделять тест как систему заданий, служащую для оценки знаний, умений, способностей и навыков тестируемого, и контрольно-измерительный материал, представляющий собой одно задание теста. Во многих случаях применяются контрольно-измерительные материалы, индивидуальные для каждого респондента. В условиях, когда тестируемые могут общаться между собой при проведении теста, это позволяет оценивать знания, умения и навыки каждого из тестируемых более объективно. В этом случае отдельные пункты контрольно-измерительного материала выбираются из общего, как можно более обширного пула вопросов [6].

Согласно общепринятым представлениям, все тестовые задания могут быть отнесены к одному из следующих видов [2]:

закрытое задание с выбором одного ответа из предложенных;

закрытое задание с выбором нескольких ответов из предложенных;

закрытое задание в котором необходимо установить порядок элементов;

закрытое задание с необходимостью установления взаимосвязей между элементами;

открытое задание с кратким ответом (в котором необходимо записать ответ словом, словосочетанием или числом);

открытое задание с развернутым ответом (в котором необходимо записать развернутый ответ в виде текста и/или последовательности формул).

Вопрос о пригодности закрытого задания с выбором нескольких вариантов из предложенных неоднократно поднимался автором [5, 6, 7]. В большинстве случаев, без ущерба для качества самого теста, все типы закрытых заданий могут быть заменены закрытым заданием с выбором нескольких ответов из предложенных [6].

Таким образом, использование контрольно-измерительных материалов, содержащих только закрытые задания, является не только допустимым, но в большинстве случаев и предпочтительным. Следует отметить так же, что для данного типа контрольно-измерительных материалов имеется возможность объективно оценивать характеристики материала.

В настоящее время профессиональными тестологами выделяются следующие критерии, характеризующие как тест, так и КИМ [9]:

валидность;

мера трудности задания;

дифференцирующая способность;

надежность теста.

Под валидностью принято понимать соответствие тестового задания оцениваемым способностям. Валидность теста определяется на этапе создания пула тестовых заданий и не может быть изменена непосредственно при формировании теста или контрольно-измерительного материала из пула заданий. Валидность теста может быть оценена только при условии глубокого владения материалом. Единственным способом оценки валидности теста является экспертная оценка.

Мера трудности задания фактически определяет возможность прохождения теста всеми респондентами. Принято считать, что при слишком малой трудности задания его проходит большинство (либо все) респонденты, при слишком высокой сложности – проходит меньшинство респондентов (либо вообще никто). Такое определение показывает относительную природу этого показателя.

На практике меру трудности задания чаще всего определяют умозрительно (экспертная трудность), либо экспериментально, путем апробации тестового задания.

В то же время, государственные стандарты высшего профессионального образования подразумевают совершенно определенный минимальный уровень компетенций, знаний, умений и навыков выпускника. Таким образом, при использовании тестирования для оценки знаний студентов возникает проблема оценки не относительного, а абсолютного уровня знаний.

Кроме того, при внедрении новых стандартов может возникнуть ситуация, когда тест будет использован для проверки знаний и умений студентов без возможности его предварительной апробации. Авторы отмечают, что в таких условиях особую важность приобретают возможности оценки характеристик теста без его апробации на реальных респондентах. Вопрос объективной оценки меры трудности тестового задания рассмотрен более подробно в [6].

В настоящее время для проверки выполнения тестового задания в основном используются информационные технологии [1, 6]. Это позволяет существенно ускорить обработку результатов теста, а так же свести к минимуму, или полностью исключить субъективность оценки результатов теста. В то же время, использование информационных технологий открывает новые возможности по анализу характеристик теста, в том числе возможность объективно оценивать такие характеристики, как объективная мера трудности теста, дифференцирующая способность теста и надежность теста.

Оценка меры сложности и дифференцирующей способности теста подробно рассмотрены в [6, 7].

Для того, чтобы ввести меру надежности теста, рассмотрим процедуру определения оценки, полученной студентом в ходе прохождение теста.

Процент правильности ответа студента на вопросы тестового задания определяется следующей формулой:

(1)

где Ms – количество пунктов ответов, которые студент пометил как правильные;

M – количество пунктов ответов, которые студент должен был пометить как правильные;

Us – количество пунктов ответов, которые студент не пометил;

U – количество пунктов ответов, которые студент не должен был пометить.

Следует отметить, что величина R не является непрерывной, а представляет собой конечное множество фиксированных значений, свое для каждого тестового задания. Кроме того, распределение величины R в общем случае не является нормальным [4].

Определим, выполнил ли тестируемый тестовое задание, следующим образом: определим верхнюю границу R при заданном уровне значимости Ra. При значениях R>Ra будем считать, что тестируемый выполнил тестовое задание. Определение Ra осуществляется при помощи имитационного моделирования, то есть путем выполнения группы испытаний, при которых некая функция имитирует ответы студента на вопросы тестового задания случайным образом. При этом учитывается, что часть вопросов требует выбора одного из вариантов ответа, а часть вопросов – выбора нескольких вариантов ответов. В результате проведения серии испытаний будет построена функция распределения величины R. В результате можно определить величину Ra как наибольшее значение R, частота встречаемости которого выше величины a. Например, для распределения R, показанного на рис. 1, и доверительного интервала a=0,05, величина Ra составит 63,64 %.

Рис.1. Распределение величины R. При a=0,05 качестве Ra выбрано значение R=63,64.

На диаграмме распределения частот хорошо видно, что распределение величины R далеко от нормального. Так, например, вероятность получить (в том числе и отвечая случайным образом на вопросы КИМ) 54,55% правильных ответов меньше, чем вероятность получить 55,56% правильных ответов.

Очевидно, что такая ситуация является некорректной. Тем не менее, распределение частот полностью определяется набором вопросов (а точнее, количеством вариантов ответов и их правильностью), которые включены в конкретный контрольно-измерительный материал.

Для иллюстрации приведем распределение частот другого контрольно-измерительного материала (рис. 2).

Рис. 2. Распределение величины R, близкое к нормальному.

Очевидно, что в данном случае распределение величины R куда ближе к нормальному, а значит, вероятность получения более высокого процента правильных ответов обратно пропорциональна проценту правильных ответов.

Это значит, что при проведении тестирования вероятность того, что респондент при нескольких попытках получит близкие или даже равные проценты правильных ответов гораздо выше, а именно это и характеризует надежность контрольно-измерительного материала.

Таким образом, в качестве показателя надежности теста можно использовать меру близости распределения величины R к нормальному. Чем ближе распределение величины R к нормальному, тем более надежным является тест. Для проверки статистической гипотезы H₀ о нормальности данного распределения против гипотезы H₁ о распределении величины, отличном от нормального, может быть использован критерий c² Пирсона, как удовлетворяющий всем требованиям [8]. Таким образом, появляется возможность качественной оценки надежности контрольно-измерительного материала.

Более того, поскольку для формирования конкретного контрольно-измерительного материала используется специальный программный комплекс, появляется возможность целенаправленно отбирать для проведения тестирования именно надежные контрольно-измерительные материалы.

Для проверки данного подхода была реализована автономная библиотека на языке Python. К достоинствам библиотеки следует отнести кроссплатформенность, что позволяет проводить тестирование как в среде Windows, так и Linux-совместимых систем. Данная библиотека используется для проведения текущего тестирования студентов Сибирского государственного аэрокосмического университета. На основе данной библиотеки в настоящее время разрабатывается web-приложение, предназначенное для проведения тестирования в локальной и/или глобальной сети. Приложение реализуется с использованием web-фреймворка Flask.

Применение описываемых приложений показывает высокую степень релевантности оценок, полученных респондентами в результате тестирования, и их корреляцию с оценками, выставляемыми преподавателем. Таким образом, подтверждается эффективность использования близости распределения величины R к нормальному как меры надежности теста.

Библиографический список

Бершадский А.М., Белов А.А., Вергазов Р.И., Кревский И.Г. Актуальные проблемы компьютерного контроля знаний. – URL: https://www.uran.donetsk.ua/~masters/2013/fknt/sedakov/library/bershadsky.htm. Дата обращения 22.02.2015.
Молибоженко В. В. Математические оценки качества педагогических тестов. – URL: https://pedsovet.org/component/option,com_mtree/task,viewlink/link_id,4409/Itemid,88/ Дата обращения: 22.02.2015.
Надежность психологического теста. – URL: https://ru.wikipedia.org/wiki/Надежность_психологического_теста Дата обращения 18.03.2012.
Саяпин А. В. О виде распределения оценки тестирования студентов // Информационные технологии моделирования и управления. – 2008. – №7(50).
Саяпин А. В. Обеспечение сравнимости результатов тестирования с использованием методов имитационного моделирования // I Всероссийская научно-методическая конференция «Актуальные проблемы качества математической подготовки школьников и студентов: методологический, теоретический и технологический аспекты» : Сб. науч. тр. – Красноярск: КГПУ, 2013.
Саяпин А. В. Оценка объективной меры сложности компьютерного теста методами имитационного моделирования // Международная научно-практическая конференция «Инновационная интегрированная система профессионального образования. Проблемы и пути развития-2011» : Сб. науч. тр. – Красноярск: СибГАУ, 2011
Саяпин А. В., Сафонов К. В. Оценка дифференцирующей способности компьютерного теста методами имитационного моделирования // Вестник КГПУ (ISSN 1995–0861). – 2012. – № 2.
Сидоренко Е.В. Методы математической обработки в психологии. – СПб.: ООО «Речь», 2003.
Шашкина, М.Б. Критерии качества педагогического теста по математике // Современное образование. – – №3. С. 97-101.[schema type=»book» name=»НАДЕЖНОСТЬ ТЕСТА ДЛЯ ОЦЕНКИ КОМПЕТЕНЦИЙ СТУДЕНТА» author=»Саяпин Александр Владимирович» publisher=»БАСАРАНОВИЧ ЕКАТЕРИНА» pubdate=»2017-05-09″ edition=»ЕВРАЗИЙСКИЙ СОЮЗ УЧЕНЫХ_ 28.02.2015_02(11)» ebook=»yes» ]

euroasia

Похожие записи