Гришанов Денис Юрійович
Київський політехнічний університет ім. І. Сікорського
м. Київ
Анотація:
При створенні системи розпізнавання облич доцільно використовувати локальні бінарні шаблони. Порівняємо модифікації алгоритмів локальних бінарних шаблонів. Оцінювання швидкості роботи, точности класифікації. Вибір найкращого розбиття класифікованих зображень на локальні області.
Ключові слова:
Локальні бінарні шаблони, Local Binary Pattern, LBP, центрально-симетричні LBP, CS-LBP, рівномірні LBP, uniform local binary patterns.
Зміст наукової роботи
Для початку розглянемо, що собою представляє LBP оператор.
LBP – простий і ефективний оператор перетворення зображень, вперше запропонований в 1996 році для класифікації текстур [1]. Однак, пізніше знайшов застосування і для розпізнавання облич [2].
Даний оператор аналізує яскравість кожного пікселя зображення і за допомогою функції присвоює кожному пікселю значення. Далі отримане зображення розділяється на півплощини, для кожної з яких розраховується гістограма. Гістограми об’єднуються і порівнюються за допомогою методів машинного навчання. У класичному варіанті використовується метод найближчого сусіда [2].
Переваги цього методу полягають в простоті реалізації і високої швидкості роботи, яку можна збільшити, використовуючи різні модифікації алгоритму. При цьому алгоритм показує високі результати при розпізнаванні обличчя і стійкий до монотонних змін освітлення. Все це робить його ідеально відповідним для розпізнавання обличчя в системах обробки в реальному часі.
Розрізняють три основні алгоритми LBP перетворення:
- Класичний алгоритм – суть оператора полягає в застосуванні до пікселів зображення порогового перетворення, в якому значення яскравості оброблюваного пікселя порівнюється з значеннями яскравості пікселів його оточення;
- Рівномірні LBP – алгоритм скорочує розмірність гістограми, пояснюючи це тим, що істотну інформацію про форму об'єктів на зображенні містить тільки частина з локальних бінарних шаблонів;
- Центрально-симетричні LBP – Суть модифікації полягає в тому, що в якості порогового значення для кожного пікселя оточення приймається не значення яскравості центрального пікселя оточення, а значення яскравості протилежної щодо центру оточення пікселя.
Усі три алгоритми розрахунку LBP гістограм були протестовані на двох різних наборах даних. В якості алгоритму класифікації використовувався метод найближчого сусіда. Створені в процесі дослідження реалізації LBP перетворень і методу найближчого сусіда в подальшому були застосовані при розробці системи розпізнавання облич, а також при тестуванні швидкості роботи цієї системи з використанням різних варіацій LBP перетворення.
Перший набір даних, використаний для тестування – це база зображень облич лабораторії Кембриджського Університету. [3] Вона містить зображення 40 облич, по 10 зображень на кожне. Освітлення на даних зображеннях не змінюється, однак присутні варіації в положенні обличчя при зйомці. Зображення одного обличчя даної бази представлені на рис. 1.
Рис. 1 Зображення з бази даних Кембриджського Університету
Для навчальної та тестової вибірки використовувалося по 5 зображень на кожне обличчя. Перед обробкою зображення зі зміненим розміром до розміру 128х128 пікселів. В результаті всього було класифіковано 400 зображень.
Другий набір даних - база зображень облич лабораторії Єльського Університету. [4] Дана база містить зображення 38 облич, по 65 зображень на кожне, що включають різні варіації освітлення. З них для тестування було відібрано по 10 зображень на кожне обличчя. Приклад зображень з другої бази облич представлений на рис. 2
Рис. 2 Зображення з бази даних Єльського університету
Тестування проводилося аналогічно тестуванню на першому наборі. Всього було класифіковано 380 зображень.
Ефективність розпізнавання для кожного з трьох LBP операторів при тестуванні на першому наборі тестових даних представлена в табл. 1.
Таблиця 1
Метод |
Блоки |
|||||||
1х1 |
2х2 |
3х3 |
4х4 |
5х5 |
6х6 |
7х7 |
8х8 |
|
LBP |
82,5% |
91% |
94% |
95,5% |
94% |
93,25% |
92,5% |
89,3% |
Uniform LBP |
81% |
93,8% |
97% |
94,5% |
92% |
92% |
92% |
89,5% |
CS-LBP |
67,8% |
92,3% |
95% |
94,8% |
94,3% |
93,3% |
90,3% |
90,3% |
Ефективність розпізнавання для кожного з трьох LBP операторів при тестуванні на другому наборі тестових даних представлена в табл. 4.2.
Таблиця 2
Метод |
Блоки |
|||||||
1х1 |
2х2 |
3х3 |
4х4 |
5х5 |
6х6 |
7х7 |
8х8 |
|
LBP |
41,8% |
71,6% |
88,2% |
91,8% |
92,6% |
93,2% |
95,8% |
96,1% |
Uniform LBP |
41,3% |
75,26% |
91,8% |
91,8% |
92,9% |
92,1% |
95% |
94,2% |
CS-LBP |
20,3% |
61,3% |
84,5% |
89,2% |
89,2% |
91,6% |
92,6% |
93,9% |
Як видно з отриманих результатів, класичний LBP і Uniform LBP працюють з схожою точністю. Для досягнення точності 90% і більше доцільно використовувати розбиття зображення починаючи від 4х4. Однак варто зазначити, що на першому наборі даних найкраще себе показало розбиття 3х3.
Центрально – симетричний LBP при розбитті зображення на мале число блоків поступається іншим локальним бінарним шаблонами. Але при використанні більшого числа підмножин, його показник точності класифікації відстає від інших LBP в середньому не більше ніж на 3%. При тестуванні ж на першому наборі даних CS-LBP і зовсім перевершує інші шаблони на ряді розбиття.
В результаті можна сказати, що центрально – симетричні локальні бінарні шаблони доцільно використовувати в системі розпізнавання облич через високу швидкість роботи і показників точності і майже не поступаються іншим LBP.
Оптимальним за співвідношенням точності і витрат пам'яті розбиттям зображення на підмножин при використанні CS-LBP є розбиття 4х4, яке і буде використовуватися в системі, що розробляється. Дане розбиття забезпечує стабільно високий відсоток вірних класифікацій при незначних витратах пам'яті.
Висновки
- Проведено дослідження ефективності розпізнавання обличчя при використанні трьох варіантів LBP перетворення: класичного, рівномірного і центрально – симетричного.
- Результати дослідження показали, що центрально – симетричний LBP оператор практично не поступається в ефективності розпізнавання обличчя класичного і рівномірному LBP операторам.
- Оптимальним вибором розбиття зображення на блоки по співвідношенню витрат пам'яті і ефективності розпізнавання є розбиття 4х4.
Список використаної літератури:
1. T. Ojala, M. Pietikдinen, D. Harwood . A Comparative Study of Texture Measures with Classification Based on Feature Distributions // Pattern Recognition, Vol. 29,1996, C. 51–59.
2. T. Ahonen, A. Hadid, M. Pietikдinen. Face Description with Local Binary Patterns: Application to Face Recognition // IEEE Trans. Pattern Analysis and Machine Intelligence, 1996, №28(12), С. 2037–2041.
3. Cambrige Face Database // Cambrige university. URL: http://www.cl.cam.ac.uk/research/dtg/attarchive/facedatabase.html (дата обращения: 06.03.2018).
4. Yale Face Database B // UCSD Computer Vision. URL: http://vision.ucsd.edu/~leekc/ExtYaleDatabase/ExtYaleB.html (дата обращения: 06.03.2018).