Кривохвіст Максим Анатолійович
Магістр Харківського національного університету радіоелектроніки
М. Харків
Голян Віра Володимирівна
к.т.н., доцент кафедри Програмної інженерії
Харківського національного університету радіоелектроніки
М. Харків
Козел Наталья Борисівна,
Старший викладач кафедри Програмної інженерії
Харківського національного університету радіоелектроніки
М. Харків
Анотація: У результаті проектування створен універсальний веб-парсінг для відстеження інформації на різних веб-сайтах.
Програмна система відстежує зміни на різних сайтах, що є корисним в плані збереження часу та надає можливість перегляду інформації в одному місці.
Ключові слова: WEB, DATA BASE, ANDROID, CSS, HTML, JAVASCRIPT, SQLITE
Кожний користувач Інтернету щодня переглядає велику кількість потрібної йому інформації. Багато часу витрачається на перевірку цікавого контенту, для того, щоб побачити оновлення на сайтах, необхідно оновлювати їх кожні 5 хвилин.
У загальному сенсі, парсинг (Parsing) − прийняте в інформатиці визначення синтаксичного аналізу. Для цього створюється математична модель порівняння лексем з формальної граматикою, описана одним з мов програмування. Наприклад, PHP, Perl, Ruby, Python.
Парсинг сайтів − послідовний синтаксичний аналіз інформації, розміщеної на інтернет-сторінках. Текст інтернет-сторінок являє собою ієрархічний набір даних, структурований за допомогою людських і комп'ютерних мов. Людською мовою надана інформація, знання, заради яких, власне, люди і користуються Інтернетом. Комп'ютерні мови (html, JavaScript, css) визначають як інформація виглядає на моніторі.
Парсинг сайтів є ефективним рішенням для автоматизації збору і зміни інформації.
У порівнянні з людиною, комп'ютерна програма-парсер:
- швидко обходить тисячі веб-сторінок;
- відокремлює технічну інформацію від «людської»;
- безпомилково виділяє потрібне і відкидає зайве;
- ефективно запакує кінцеві дані в необхідному вигляді.
Існують сервіси, які надають можливість отримувати повідомлення про оновлення, але вони є незручні та довгодіючі. У зв`язку з цим, з’явилась ідея розробити програмний продукт, який буде працювати за користувача
Інструменти web scraping (парсинг) розроблені для вилучення, збору будь-якої відкритої інформації з веб-сайтів. Зазначені ресурси потрібні тоді, коли необхідно швидко отримати та зберегти в структурованому вигляді будь-які дані з інтернету [1].
Парсинг сайтів − це новий метод введення даних, який не вимагає повторного введення або «копіпасту».
Такого роду програмне забезпечення шукає інформацію під контролем користувача або автоматично, вибираючи нові або оновлені дані і зберігаючи їх в такому вигляді, щоб у користувача був до них швидкий доступ. Наприклад, використовуючи парсинг можна зібрати інформацію про продукти і їх вартості на сайті Amazon [2].
Інструменти парсинга можуть застосовуватися з різними цілями і в різних сценаріях, розберемо найбільш поширені випадки використання, які можуть стати в нагоді.
Веб-сервіси вилучення даних допоможуть стежити за ситуацією в тому напрямку, куди буде прагнути компанія або галузь в наступні місяці, забезпечуючи потужний фундамент для дослідження ринку.
Програмне забезпечення парсинга здатне отримувати дані від безлічі провайдерів, що спеціалізуються на аналітиці даних і у фірм із дослідження ринку, і після цього зводити всю інформацію в одне місце для референції та аналізу.
Інструменти парсинга можна використовувати, для того щоб збирати та систематизувати такі дані, як поштові адреси, контактну інформацію з різних сайтів і соціальних мереж. Це дозволяє складати зручні списки контактів і всієї супутньої інформації для бізнесу − дані про клієнтів, постачальників або виробників.
З інструментами парсинга сайтів можна створювати рішення для офлайнового використання і зберігання, зібравши дані з великої кількості веб-ресурсів (включаючи StackOverflow). Таким чином можна уникнути залежності від активних інтернет з'єднань, так як дані будуть доступні незалежно від того, чи є можливість підключитися до інтернету [3].
Для роботодавця, який активно шукає кандидатів для роботи в своїй компанії, або для здобувача, який шукає певну посаду, інструменти парсинга теж стануть незамінні: з їх допомогою можна налаштувати вибірку даних на основі різних доданих фільтрів і ефективно отримувати інформацію, без рутинного ручного пошуку. Також такі сервіси будуть корисні і для тих, хто активно користується послугами онлайн-шопінгу, відстежує ціни на продукти, шукає речі в декількох магазинах відразу.
Деякі з існуючих інструментів безкоштовні, деякі дають можливість безкоштовного ознайомлення протягом обмеженого часу, деякі пропонують різні тарифні плани.
Import.io пропонує розробнику легко формувати власні пакети даних: потрібно тільки імпортувати інформацію з певної веб-сторінки і експортувати її в CSV (див. рис. 1.1). Можна отримувати тисячі веб-сторінок всього лише за лічені хвилини, не написавши жодного рядка коду, і створювати тисячі API відповідно до ваших вимог.
Для збору величезних кількостей потрібної користувачеві інформації, зазначений сервіс використовує найновіші технології, при цьому за низькою ціною.
Висновки
Розроблена програмна система відстежує зміни на різних сайтах, що є корисним в плані збереження часу та надає можливість перегляду інформації в одному місці.
Література
1.Граді Буч. Об'єктно-орієнтований аналіз та проектування з прикладами додатків, 3-е изд. / Буч Граддя, Максимчук Роберт А., Енгл Майкл У., Янг Боббі Дж., Коналл Джим, Х'юстон Келлі А .: Пер з англ. − М .: Вільямс, 2010. - 720 с.
2. Рудікова Л. В. Бази даних. Розробка додатків. Навчальний посібник [Текст] / Л. В. Рудікова / − Вид-во: БХВ-Петербург, 2006. − 496 с.
3. Неповне Керівництво по SQLite для користувачів Windows [Електроний ресурс] / Режим доступу: www/URL:http://agp1.hx0.ru/.SQLite.Allow.pdf – Загол. з екрану (дата звернення: 10.05.2019).