Ерёменко Дмитро
Магістр Харківського національного університету радіоелектроніки
М. Харків
Дудар Зоя Володимирівна
д.т.н., професор кафедри Програмної інженерії
Харківського національного університету радіоелектроніки
М. Харків
Голян Віра Володимирівна
к.т.н., доцент кафедри Програмної інженерії
Харківського національного університету радіоелектроніки
М. Харків
Анотація: Поняття великих даних має на увазі роботу з інформацією надвеликого обсягу й різноманітного складу, досить часто обновлюваної й такої, що перебуває в різних джерелах, з метою збільшення ефективності роботи, створення нових продуктів і підвищення конкурентоспроможності. При роботі з великими даними результат одержується в процесі їх очищення шляхом послідовного моделювання.
Ключові слова: ПРОГРАМНА СИСТЕМА, BIG DATA , NoSQL, АЛГОРИТМИ MAP REDUCE, BUCINESS INTELLIGENCE, БІБЛІОТЕКА PANDAS
Розумне місто – це концепція, в основі якої лежить місто, що використовує різноманітні інформаційні технології задля більш ефективного функціонування та відповідності потребам його жителів. Ідея такого міста полягає в тому, щоби завдяки збору інформації в режимі реального часу усі ресурси міста можна використовувати більш продуктивно. Основною рушійною силою у побудові розумного міста є збір та обробка великої кількості даних (Big Data). [1]
Термін «Великі дані» ввів у вжиток Кліффорд Лінч, редактор журналу Nature, який у 2008 році у цьому ж журналі проаналізував феномен великих даних та їх значення для науки. Він зібрав матеріали про явище вибухового зростання обсягу і різноманітності даних, а також технологічних перспектив у парадигмі ймовірного переходу від «кількості до якості».
Поняття великих даних має на увазі роботу з інформацією надвеликого обсягу й різноманітного складу, досить часто обновлюваної й такої, що перебуває в різних джерелах, з метою збільшення ефективності роботи, створення нових продуктів і підвищення конкурентоспроможності.
При визначенні поняття Big Data використовують чотири V: Volume, Variety, Velocity і Value (обсяги, варіативності, швидкості й цінності), а саме визначення звучить у такий спосіб: Big Data – це «технології й архітектури нового покоління для економічного добування цінності з різноформатних даних великого обсягу шляхом їхнього швидкого захоплення, обробки й аналізу».
Робота з великими даними відрізняється від звичайного процесу бізнес-аналітики, де просте додавання відомих значень приносить результат: наприклад, підсумок додавання даних про оплачені рахунки стає обсягом продажів за рік. При роботі з великими даними результат одержується в процесі їх очищення шляхом послідовного моделювання: спочатку висувається гіпотеза, будується статистична, візуальна або семантична модель, на її підставі перевіряється вірність висунутої гіпотези й потім висувається наступна. Цей процес потребує від дослідника або інтерпретації візуальних значень, або складання інтерактивних запитів на основі знань, або розробки адаптивних алгоритмів «машинного навчання», здатних одержати необхідний результат.
Отже, великі дані (Big Data) в інформаційних технологіях – це серія підходів, інструментів і методів обробки структурованих і неструктурованих даних величезних обсягів і значного різноманіття для отримання результатів, які сприймаються людиною, ефективних в умовах безперервного приросту, розподілу у численних вузлах обчислювальної мережі, альтернативних традиційним системам управління базами даних і рішенням класу Business Intelligence. У дану серію включають засоби масово-паралельної обробки невизначено структурованих даних, насамперед, рішеннями категорії NoSQL, алгоритмами MapReduce, програмними каркасами та бібліотеками проекту Hadoop.
Встановлення додатків і налаштування їх для роботи з великими об'ємами даних на ПК займає достатньо багато часу. З використанням IBM Bluemix щоб почати працювати з Big Data, вам необхідно запустити сервіс Apache Spark.
Apache Spark − програмний каркас з відкритим вихідним кодом для реалізації розподіленої обробки неструктурованих і слабоструктурованих даних, що входить в екосистему проектів Hadoop.
Розширення Spark дозволяє використовувати Sql запити для роботи з вашими даними.
Щоб завантажити дані, необхідно створити сховище, а потім додати файл в форматі CVS в нього.
В роботі використовується бібліотека pandas – програмна бібліотека на мові Python для обробки і аналізу даних. Робота pandas з даними будується поверх бібліотеки NumPy, що є інструментом нижчого рівня. [2]
Pandas надає спеціальні структури даних і операції для маніпулювання числовими таблицями і часовими рядами. [3]
Висновки
У результаті проектування створена програмна система для моделювання великих даних. Результат одержується в процесі очищення великих даних шляхом послідовного моделювання.
Література
1. Функции городов и их влияние на пространство/ под ред. Л.Г. Руденко.− К.: Феникс, 2015. – 292 с.
2. Введение в pandas: анализ данных на Python − [Електронний ресурс] Режим доступу: https://khashtamov.com/ru/pandas-introduction/ – Загол. з екрану.
3. Х. Карау, Э. Конвински, П. Венделл, М. Захария. Изучаем Spark. Молниеносный анализ данных. – ДМК Пресс, 2015. – 304 с.