Среди методов, наиболее часто применяемых для распознавания жестов, можно выделить сети Маркова, DTW-алгоритм для выравнивания временных рядов, рекуррентные нейронные сети, подходы, основанные на переходе к мета-признакам [1, 2, 3]. В работе [4] было показано, что переход от временного ряда к мета-характеристикам, агрегирующим информацию за определенный временной интервал, демонстрирует наилучший результат.
Поэтому было решено разработать подход, основанный на переходе к новым мета-признакам и позволяющий в дальнейшем применять коллективы классификаторов различной природы для повышения надежности системы.
Жест или последовательность жестов принято описывать в форме временного ряда: , где – совокупность значений признаков в момент времени i. Всего таких дискретных измерений n. Для описания жеста используются измерения, полученные из таких каналов как: положение ладони относительно подбородка (координаты x, y, z), поворот ладони, наклон пальцев.
В предлагаемом подходе [5] вместо временного ряда используются мета-признаки, включающие такие характеристики атрибутов как:
– оценка математического ожидания , где j – номер атрибута в БД;
– максимальное значение признака
– минимальное значение признака
– оценка среднеквадратического отклонения .
Также вводится дополнительная характеристика – продолжительность жеста, т.е. количество дискретных измерений, изначально используемых для описания всего жеста.
Для исследования данного подхода использовалась БД Auslan [6], содержащая 95 слов на австралийском жестовом языке. Всего было проведено 9 сессий (в течение 9 недель): в рамках сессии каждый жест повторялся 3 раза (итого количество повторений слова в БД равнялось 27). Для получения признаков использовались перчатки с сенсорами (показания фиксировались для обеих рук). Общее количество измеренных признаков – 22 (для каждой руки – 11). Три атрибута описывают положение руки относительно подбородка (координаты x, y, z), еще три атрибута отражают поворот ладони и пять показателей характеризуют наклон пальцев. В течение одной секунды производилось 100 измерений в дискретные промежутки времени.
На первом этапе исследование эффективности предлагаемого подхода проводилось в совокупности с набором стандартных классификаторов проводилось в формате кросс-валидационной проверки: каждая из 9 частей выборки по очереди выступала в качестве тестового множества примеров. В ходе экспериментов оценивалась точность распознавания на тестовой выборке – отношение числа верно классифицированных примеров к общему числу примеров (таблица 1). Несмотря на то, что наилучший результат демонстрирует классификатор полносвязный персептрон (96,76%), в ходе статистической проверки (t-критерий Стьюдента при уровне значимости p=0.05) было установлено, что различия с результатами, полученными при помощи модели машины опорных векторов (96,37%), статистически не значимы. Кроме того, логистическая регрессия также показывает высокую точность распознавания (94,89%).
Для повышения точности и надежности системы были спроектированы алгоритмические схемы, реализующие принятие решений коллективом классификаторов:
- Голосование (Voting) – на тестовом множестве примеров модели участвуют в голосовании за тот или иной номер класса, победителем признается класс, набравший относительное большинство голосов. Если несколько классов имеют одинаковое количество голосов, то среди них победитель определяется случайным образом.
- Взвешенное голосование (Weighted Voting) – на тестовом множестве примеров модели участвуют во взвешенном голосовании; весовые коэффициенты определяются на основании точности классификаторов на обучающем множестве. Для получения значений данных коэффициентов реализована кросс-валидационная проверка с тремя частями, т.е. на каждой из трех итераций часть обучающих примеров признается оценочным множеством.
- «Голосование с рулеткой» (Voting with proportional random choice) – на тестовом множестве примеров модели участвуют в голосовании. Также как и в схеме «Взвешенное голосование» на обучающих примерах определяются коэффициенты для каждой модели. Далее среди них по правилу рулетки определяется модель, чье решение и признается финальным (т.е. вероятность выбора того или иного классификатора пропорциональна его весовому коэффициенту).
- С помощью К-ближайших соседей (Based on K-nearest neighbours) – на тестовом множестве примеров модели участвуют во взвешенном голосовании. В данном случае для каждого тестового примера определяется множество ближайших соседей из обучающей выборки. Именно по результатам классификации на множестве ближайших соседей оцениваются коэффициенты для взвешенного голосования.
Можно отметить, что на различных тестовых примерах наиболее эффективные классификаторы (MLP, SVM, Logit) демонстрируют разную точность: например, на первом разбиении наилучший результат показали SVM, в то время как на втором – MLP, а на четвертом – Logit. Это значит, что для повышения эффективности и надежности системы целесообразно объединить в коллектив классификаторы различной природы.
Таблица 1
Сравнение эффективности коллективов классификаторов.
Точность распознавания, %
MLP | SVM | Logit | Voting | Weighted Voting | Voting with Prob. | Based on K-nn
(k=3) |
Based on
K-nn (k=5) |
Based on
K-nn (k=10) |
|
1 | 83,509 | 85,614 | 81,053 | 87,719 | 86,316 | 87,719 | 88,070 | 87,368 | 88,772 |
2 | 92,632 | 90,175 | 87,368 | 93,333 | 93,333 | 92,983 | 92,983 | 93,333 | 92,983 |
3 | 98,246 | 96,842 | 97,895 | 98,246 | 98,246 | 98,246 | 97,894 | 97,895 | 97,895 |
4 | 99,298 | 99,649 | 100,000 | 99,649 | 99,649 | 99,649 | 99,649 | 99,649 | 99,649 |
5 | 98,597 | 98,597 | 98,246 | 98,597 | 98,597 | 98,597 | 98,597 | 98,597 | 98,597 |
6 | 99,298 | 98,597 | 98,246 | 99,298 | 99,298 | 99,298 | 99,298 | 99,298 | 99,298 |
7 | 99,649 | 98,947 | 96,491 | 99,298 | 99,298 | 99,649 | 99,298 | 99,298 | 98,947 |
8 | 99,649 | 99,298 | 96,140 | 99,649 | 99,649 | 99,649 | 99,649 | 99,649 | 99,649 |
9 | 100,000 | 99,649 | 98,597 | 100 | 100 | 100 | 100 | 100 | 100 |
96,764 | 96,374 | 94,893 | 97,310 | 97,154 | 97,310 | 97,271 | 97,232 | 97,310 |
В таблице 1 представлены результаты тестирования коллективов классификаторов, в которых финальное решение формируется по разным алгоритмическим схемам. В ансамбли были включены полносвязный персептрон, машины опорных векторов и логистическая регрессия. На основании полученных результатов можно заключить, что ни один из ансамблей не уступает по точности самой эффективной модели. Кроме того, использование коллективов моделей позволяет избежать выбора одного наиболее эффективного классификатора.
На данном этапе проанализированы существующие подходы к распознаванию жестов человека. За основу разрабатываемой технологии взята идея перехода к новым классификационным признакам. Реализована программная система, с помощью которой была исследована эффективность предлагаемого подхода в совокупности с различными классификаторами. В результате тестирования коллективов классификаторов было выявлено, что ни один из ансамблей не уступает по точности самой эффективной модели. А это значит, что применение коллектива классификаторов оправдано и с точки зрения надежности системы, и в силу отсутствия необходимости выбора одной наиболее эффективной модели для рассматриваемой задачи.
Список литературы:
- Liang R.-H., Ouhyoung M. A Real-time Continuous Gesture Recognition System for Sign Language // Third IEEE International Conference on Automatic Face and Gesture Recognition, Proceedings, 1998.
- Lichtenauer J. F., Hendriks E. A., M. Reinders J.T. Sign Language Recognition by Combining Statistical DTW and Independent Classification // IEEE Transactions on Pattern Analysis and Machine Inteligence, vol. 30, no. 11, 2008.
- Gweth Y. L., Plahl C., Ney H. Enhanced Continuous Sign Language Recognition using PCA and Neural Network Features // Computer Vision and Pattern Recognition Workshops (CVPRW), 2012 IEEE Computer Society Conference on. Providence, Rhode Island.
- Kadous, M. W. Temporal Classification: Extending the Classification Paradigm to Multivariate Time Series // PhD Thesis (draft), School of Computer Science and Engineering, University of New South Wales, 2002.
- Суханов Д.А. «Об эффективности перехода к мета-признакам в задаче распознавания жестов человека» // Материалы Всероссийской научно-практической конференция «Информационно-телекоммуникационные системы и технологии», Кемерово, 2015.
- URL: https://archive.ics.uci.edu/ml/datasets/Australian+Sign+Language +signs+%28High+Quality%29.[schema type=»book» name=»ИССЛЕДОВАНИЕ ЭФФЕКТИВНОСТИ КОЛЛЕКТИВОВ КЛАССИФИКАТОРОВ В ЗАДАЧЕ РАСПОЗНАВАНИЯ ЖЕСТОВ ПРИ ПЕРЕХОДЕ К МЕТА-ПРИЗНАКАМ» description=»Разработан подход для распознавания жестов, основанный на переходе к мета-признакам. Существенными преимуществами являются: сокращение признакового пространства и возможность применения коллектива различных классификаторов. На основании результатов экспериментов можно заключить, что в рамках данного подхода возможно достижение высокой точности распознавания жестов (до 97%). » author=»Суханов Дмитрий Андреевич, Брестер Кристина Юрьевна» publisher=»Басаранович Екатерина» pubdate=»2016-12-07″ edition=»euroasia-science_30_22.09.2016″ ebook=»yes» ]