Добування даних

Добува́ння да́них (англ. data mining), також глиби́нний ана́ліз да́них^{[джерело?]} — процес напівавтоматичного аналізу великих баз даних з метою пошуку корисних фактів^[1]. Зазвичай поділяють на задачі класифікації, моделювання та прогнозування.^{[джерело?]}

На сучасних підприємствах, в дослідницьких проєктах або в інтернеті утворюються великі обсяги даних. Глибинний аналіз даних здійснюється автоматично шляхом застосування методів математичної статистики, штучних нейронних мереж, теорії нечітких множин або генетичних алгоритмів. Метою аналізу є виявлення правил та закономірностей, наприклад, статистичних подій. Так, наприклад, можливо виявити зміни у поведінці клієнтів або груп клієнтів для покращення стратегії підприємства.

Задачі

Методи розв'язання

Нейронні мережі

Докладніше: Штучна нейронна мережа

Штучні нейронні мережі названі на основі схожості їхньої будови із нейронними зв'язками мозку людини. Дозволяють реалізовувати задачі кластеризації, класифікації, прогнозування. Після створення основ теорії нейронних мереж, вони зазнали значної критики і вважалося, що вони малопридатні для сфери штучного інтелекту. Проте відновленню інтересу до штучних нейронних мереж сприяв розвиток комп'ютерів та успіх в теоретичних та прикладних дослідженнях.^[2]

Дерева рішень

Докладніше: Дерево ухвалення рішень

Метод для розв'язання задачі класифікації. Результатом застосування цього методу до навчального матеріалу є ієрархічна структура правил типу «якщо … тоді … інакше …». Ця структура має вигляд дерева. Для визначення приналежності об'єкта до одного з класів слід надавати відповіді на запитання, що знаходяться у вершинах цього дерева. Розпочавши з кореня дерева, алгоритм завершується після досягнення тупикової вершини (листа), ця вершина і визначатиме клас, до якого належить об'єкт.^[3]

Еволюційні алгоритми

Докладніше: Еволюційний алгоритм та Генетичний алгоритм

Регресійний аналіз

Докладніше: Регресійний аналіз

Регресійний аналіз займається методами аналізу залежності однієї величини від іншої. На відміну від кореляційного аналізу, не з'ясовує, чи істотний зв'язок, а займається пошуком моделі цього зв'язку, вираженої у функції регресії.

Застосування

Програмне забезпечення

Детальніші відомості з цієї теми ви можете знайти в статті Програмне забезпечення глибокого навчання.

Деякі продукти в Категорія:Програмне забезпечення аналізу даних та Категорія:Програмне забезпечення для статистичного аналізу також включають можливості глибинного аналізу даних та машинного навчання.

Безкоштовне програмне забезпечення та програми для інтелектуального аналізу даних з відкритим кодом

Наступні програми доступні за безкоштовними ліцензіями/ліцензіями з відкритим кодом. Також доступний публічний доступ до вихідного коду програми.

Carrot2 : структура кластеризації тексту та результатів пошуку.
Chemicalize.org: інструмент пошуку хімічної структури та веб-пошукова система.
ELKI: університетський дослідницький проєкт із вдосконаленим кластерним аналізом і методами виявлення викидів, написаний мовою Java.
GATE: інструмент обробки природної мови та розробки мови.
KNIME: Констанц Інформаційний Майнер, зручний і комплексний інструмент аналітики даних.
Massive Online Analysis (MOA): інтелектуальний аналіз великих потоків даних у реальному часі з інструментом дрейфу концепції на мові програмування Java.
MEPX: крос-платформний інструмент для регресії та класифікації проблем на основі варіанту генетичного програмування.
mlpack: набір готових до використання алгоритмів машинного навчання, написаних мовою C++.
NLTK (Набір інструментів природної мови): набір бібліотек і програм для символічної та статистичної обробки природної мови (NLP) для мови Python.
OpenNN: відкрита бібліотека нейронних мереж.
Orange: набір програмного забезпечення для аналізу даних і машинного навчання на основі компонентів, написаний мовою Python.
PSPP: програмне забезпечення для аналізу даних і статистики в рамках проєкту GNU, схоже на SPSS.
R: Мова програмування та програмне середовище для статистичних обчислень, аналізу даних і графіки. Це частина проєкту GNU.
Scikit-learn: бібліотека машинного навчання з відкритим кодом для мови програмування Python.
Torch: бібліотека глибокого навчання з відкритим кодом для мови програмування Lua та фреймворку наукових обчислень із широкою підтримкою алгоритмів машинного навчання.
UIMA: UIMA (Unstructured Information Management Architecture) — це компонентна структура для аналізу неструктурованого вмісту, такого як текст, аудіо та відео, спочатку розроблена IBM.
Weka: набір програм для машинного навчання, написаних мовою програмування Java.

Власне програмне забезпечення та додатки для аналізу даних Наступні програми доступні за ліцензіями власності.

Angoss KnowledgeSTUDIO: інструмент аналізу даних.
LIONsolver: інтегрований програмний додаток для аналізу даних, бізнес-аналітики та моделювання, який реалізує підхід Learning and Intelligent OptimizationN (LION).
PolyAnalyst: програмне забезпечення для аналізу даних і тексту від Megaputer Intelligence.
Microsoft Analysis Services: програмне забезпечення інтелектуального аналізу даних, надане Microsoft.
NetOwl: набір багатомовних продуктів для аналітики тексту та об'єктів, які дозволяють аналізувати дані.
Oracle Data Mining: програмне забезпечення для аналізу даних від корпорації Oracle.
PSeven: платформа для автоматизації інженерного моделювання та аналізу, мультидисциплінарної оптимізації та аналізу даних, надана DATADVANCE.
Qlucore Omics Explorer: програмне забезпечення для аналізу даних.
RapidMiner: середовище для експериментів з машинним навчанням і аналізом даних.
SAS Enterprise Miner: програмне забезпечення для аналізу даних, надане SAS Institute.
SPSS Modeler: програмне забезпечення інтелектуального аналізу даних, надане IBM.
STATISTICA Data Miner: програмне забезпечення для аналізу даних, надане StatSoft.
Tanagra: програмне забезпечення для аналізу даних, орієнтоване на візуалізацію, також для навчання.
Vertica: програмне забезпечення для аналізу даних, надане Hewlett-Packard.
Google Cloud Platform: автоматизовані спеціальні моделі ML, якими керує Google.
Amazon SageMaker: керований сервіс, який надає Amazon для створення та виробництва користувацьких моделей ML.

Див. також

Література

Silberschatz, Abraham; Sudarshan, S. (2011). Database system concepts (вид. 6). New York: McGraw-Hill. ISBN 9780073523323. OCLC 436031093.

Джерела

↑ Silberschatz та Sudarshan, 2011, с. 25.
↑ Wang, Lipo; Fu, Xiuju (2005). Data mining with computational intelligence (PDF). Berlin: Heidelberg : Springer. с. 6. ISBN 3-540-24522-7. Архів оригіналу (PDF) за 8 листопада 2016. Процитовано 21 липня 2017.
↑ Encyclopedia of artificial intelligence / Juan Ramon Rabunal Dopico, Julian Dorado de la Calle, and Alejandro Pazos Sierra, editors

Посилання

Методи отримання даних [Архівовано 20 липня 2017 у Wayback Machine.](рос.)
Визначення Data Mining

Це незавершена стаття з інформатики.
Ви можете допомогти проєкту, виправивши або дописавши її.

[FOOTNOTESilberschatzSudarshan201125-1] Silberschatz та Sudarshan, 2011, с. 25.

[2] Wang, Lipo; Fu, Xiuju (2005). Data mining with computational intelligence (PDF). Berlin: Heidelberg : Springer. с. 6. ISBN 3-540-24522-7. Архів оригіналу (PDF) за 8 листопада 2016. Процитовано 21 липня 2017.

[3] Encyclopedia of artificial intelligence / Juan Ramon Rabunal Dopico, Julian Dorado de la Calle, and Alejandro Pazos Sierra, editors

[1]

[2]

[3]

п о р Інженерія знань
Загальні поняття	Дані · Метадані · Знання · Метазнання · Подання знань · База знань · Онтологія · Семантичне павутиння
Жорсткі моделі	Продукції · Семантичні мережі · Фрейми · Логічна модель
М'які методи^[d]	Нейромережі · Еволюційне моделювання · Нечітка логіка
Застосування	Експертна система · Добування даних · Витягування інформації · Віртуальні співрозмовники· Гібридні інтелектуальні системи
Штучний інтелект · Машинне навчання · Обробка природної мови

п о р Основні сфери інформатики
Примітка: Цей шаблон приблизно дотримується ACM Computing Classification System 2012 року.
Апаратне забезпечення	Друкована плата Периферія Мікросхема Надвелика інтегральна схема Споживання енергії Автоматизація проєктування електроніки
Організація комп'ютерних систем	Архітектура комп'ютера Конфігурація комп'ютера Вбудована система Система реального часу Безвідмовність
Мережі	Мережева архітектура Мережевий протокол Мережеві складові Мережевий диспетчер^[en] Оцінка продуктивності мережі^[en] Мережева служба
Організація програмного забезпечення	Інтерпретатор Підпрограмне забезпечення Віртуальна машина Операційна система Якість програмного забезпечення
Системи запису та розробки програмного забезпечення	Парадигма програмування Мова програмування Компілятор Предметно-орієнтована мова програмування Мова моделювання Програмний каркас Інтегроване середовище розробки Керування конфігурацією Бібліотека програм Репозиторій програмного забезпечення
Розробка програмного забезпечення	Процес розробки Аналіз вимог Проєктування Побудова^[en] Розгортання Супровід Команда програмістів^[en] Модель відкритого програмного забезпечення
Теорія алгоритмів	Модель обчислення Формальна мова Теорія автоматів Теорія складності обчислень Логіка Семантика
Алгоритми	Алгоритміка Аналіз алгоритмів Ефективність алгоритму Увипадковлений алгоритм Обчислювальна геометрія
Математика обчислювальної техніки	Дискретна математика Теорія ймовірності Статистика Математичне програмне забезпечення^[en] Теорія інформації Математичний аналіз Чисельні методи
Інформаційні системи	Система керування базами даних Системи зберігання інформації Корпоративна інформаційна система Соціальні інформаційні системи^[en] Геоінформаційна система Система підтримки рішень Система керування процесами Мультимедійна інформаційна система^[en] Добування даних Електронна бібліотека Комп'ютерна платформа Цифровий маркетинг Всесвітнє павутиння Інформаційний пошук
Безпека	Криптографія Формальні методи Послуга безпеки Система виявлення вторгнень Апаратна безпека^[en] Безпека мережі Інформаційна безпека Безпечність застосунків
Людино-машинна взаємодія	Проєктування взаємодії Соціальні інформаційні технології^[en] Повсюдний комп'ютинг Візуалізація Доступність^[en]
Паралелізм	Конкурентні обчислення Паралельні обчислення Розподілені обчислення Багатонитевість Багатопроцесорність
Штучний інтелект	Обробка природної мови Представлення знань Комп'ютерний зір Автоматизоване планування та диспетчеризація Методологія пошуку Методи керування Філософія штучного інтелекту Розподілений штучний інтелект^[en]
Машинне навчання	Кероване навчання Некероване навчання Навчання з підкріпленням Багатозадачне навчання^[en] Алгоритми машинного навчання^[en] Перехресне затверджування
Графіка	Анімація Рендеринг Ретушування зображень Графічний процесор Змішана реальність Віртуальна реальність Стиснення зображень Об'ємне моделювання
Прикладні обчислення	Електронна комерція Програмне забезпечення рівня підприємства^[en] Обчислювальна математика Обчислювальна фізика Обчислювальна хімія Обчислювальна біологія Обчислювальні суспільні науки^[en] Обчислювальна інженерія^[en] Медична інформатика Цифрове мистецтво Електронне видавництво Кібервійна Електронне голосування Відеогра Обробка текстів Дослідження операцій Освітні технології Електронний документообіг