Перейти до вмісту

Добування даних

Матеріал з Вікіпедії — вільної енциклопедії.
(Перенаправлено з Отримання інформації)

Добува́ння да́них (англ. data mining), також глиби́нний ана́ліз да́них[джерело?] — процес напівавтоматичного аналізу великих баз даних з метою пошуку корисних фактів[1]. Зазвичай поділяють на задачі класифікації, моделювання та прогнозування.[джерело?]

На сучасних підприємствах, в дослідницьких проєктах або в інтернеті утворюються великі обсяги даних. Глибинний аналіз даних здійснюється автоматично шляхом застосування методів математичної статистики, штучних нейронних мереж, теорії нечітких множин або генетичних алгоритмів. Метою аналізу є виявлення правил та закономірностей, наприклад, статистичних подій. Так, наприклад, можливо виявити зміни у поведінці клієнтів або груп клієнтів для покращення стратегії підприємства.

Задачі

[ред. | ред. код]

Методи розв'язання

[ред. | ред. код]

Нейронні мережі

[ред. | ред. код]

Штучні нейронні мережі названі на основі схожості їхньої будови із нейронними зв'язками мозку людини. Дозволяють реалізовувати задачі кластеризації, класифікації, прогнозування. Після створення основ теорії нейронних мереж, вони зазнали значної критики і вважалося, що вони малопридатні для сфери штучного інтелекту. Проте відновленню інтересу до штучних нейронних мереж сприяв розвиток комп'ютерів та успіх в теоретичних та прикладних дослідженнях.[2]

Дерева рішень

[ред. | ред. код]

Метод для розв'язання задачі класифікації. Результатом застосування цього методу до навчального матеріалу є ієрархічна структура правил типу «якщо … тоді … інакше …». Ця структура має вигляд дерева. Для визначення приналежності об'єкта до одного з класів слід надавати відповіді на запитання, що знаходяться у вершинах цього дерева. Розпочавши з кореня дерева, алгоритм завершується після досягнення тупикової вершини (листа), ця вершина і визначатиме клас, до якого належить об'єкт.[3]

Еволюційні алгоритми

[ред. | ред. код]

Регресійний аналіз

[ред. | ред. код]

Регресійний аналіз займається методами аналізу залежності однієї величини від іншої. На відміну від кореляційного аналізу, не з'ясовує, чи істотний зв'язок, а займається пошуком моделі цього зв'язку, вираженої у функції регресії.

Застосування

[ред. | ред. код]

Програмне забезпечення

[ред. | ред. код]

Детальніші відомості з цієї теми ви можете знайти в статті Програмне забезпечення глибокого навчання.

Деякі продукти в Категорія:Програмне забезпечення аналізу даних та Категорія:Програмне забезпечення для статистичного аналізу також включають можливості глибинного аналізу даних та машинного навчання.

Безкоштовне програмне забезпечення та програми для інтелектуального аналізу даних з відкритим кодом

Наступні програми доступні за безкоштовними ліцензіями/ліцензіями з відкритим кодом. Також доступний публічний доступ до вихідного коду програми.

  • Carrot2 : структура кластеризації тексту та результатів пошуку.
  • Chemicalize.org: інструмент пошуку хімічної структури та веб-пошукова система.
  • ELKI: університетський дослідницький проєкт із вдосконаленим кластерним аналізом і методами виявлення викидів, написаний мовою Java.
  • GATE: інструмент обробки природної мови та розробки мови.
  • KNIME: Констанц Інформаційний Майнер, зручний і комплексний інструмент аналітики даних.
  • Massive Online Analysis (MOA): інтелектуальний аналіз великих потоків даних у реальному часі з інструментом дрейфу концепції на мові програмування Java.
  • MEPX: крос-платформний інструмент для регресії та класифікації проблем на основі варіанту генетичного програмування.
  • mlpack: набір готових до використання алгоритмів машинного навчання, написаних мовою C++.
  • NLTK (Набір інструментів природної мови): набір бібліотек і програм для символічної та статистичної обробки природної мови (NLP) для мови Python.
  • OpenNN: відкрита бібліотека нейронних мереж.
  • Orange: набір програмного забезпечення для аналізу даних і машинного навчання на основі компонентів, написаний мовою Python.
  • PSPP: програмне забезпечення для аналізу даних і статистики в рамках проєкту GNU, схоже на SPSS.
  • R: Мова програмування та програмне середовище для статистичних обчислень, аналізу даних і графіки. Це частина проєкту GNU.
  • Scikit-learn: бібліотека машинного навчання з відкритим кодом для мови програмування Python.
  • Torch: бібліотека глибокого навчання з відкритим кодом для мови програмування Lua та фреймворку наукових обчислень із широкою підтримкою алгоритмів машинного навчання.
  • UIMA: UIMA (Unstructured Information Management Architecture) — це компонентна структура для аналізу неструктурованого вмісту, такого як текст, аудіо та відео, спочатку розроблена IBM.
  • Weka: набір програм для машинного навчання, написаних мовою програмування Java.


Власне програмне забезпечення та додатки для аналізу даних Наступні програми доступні за ліцензіями власності.

  • Angoss KnowledgeSTUDIO: інструмент аналізу даних.
  • LIONsolver: інтегрований програмний додаток для аналізу даних, бізнес-аналітики та моделювання, який реалізує підхід Learning and Intelligent OptimizationN (LION).
  • PolyAnalyst: програмне забезпечення для аналізу даних і тексту від Megaputer Intelligence.
  • Microsoft Analysis Services: програмне забезпечення інтелектуального аналізу даних, надане Microsoft.
  • NetOwl: набір багатомовних продуктів для аналітики тексту та об'єктів, які дозволяють аналізувати дані.
  • Oracle Data Mining: програмне забезпечення для аналізу даних від корпорації Oracle.
  • PSeven: платформа для автоматизації інженерного моделювання та аналізу, мультидисциплінарної оптимізації та аналізу даних, надана DATADVANCE.
  • Qlucore Omics Explorer: програмне забезпечення для аналізу даних.
  • RapidMiner: середовище для експериментів з машинним навчанням і аналізом даних.
  • SAS Enterprise Miner: програмне забезпечення для аналізу даних, надане SAS Institute.
  • SPSS Modeler: програмне забезпечення інтелектуального аналізу даних, надане IBM.
  • STATISTICA Data Miner: програмне забезпечення для аналізу даних, надане StatSoft.
  • Tanagra: програмне забезпечення для аналізу даних, орієнтоване на візуалізацію, також для навчання.
  • Vertica: програмне забезпечення для аналізу даних, надане Hewlett-Packard.
  • Google Cloud Platform: автоматизовані спеціальні моделі ML, якими керує Google.
  • Amazon SageMaker: керований сервіс, який надає Amazon для створення та виробництва користувацьких моделей ML.

Див. також

[ред. | ред. код]

Література

[ред. | ред. код]
  • Silberschatz, Abraham; Sudarshan, S. (2011). Database system concepts (вид. 6). New York: McGraw-Hill. ISBN 9780073523323. OCLC 436031093.

Джерела

[ред. | ред. код]
  1. Silberschatz та Sudarshan, 2011, с. 25.
  2. Wang, Lipo; Fu, Xiuju (2005). Data mining with computational intelligence (PDF). Berlin: Heidelberg : Springer. с. 6. ISBN 3-540-24522-7. Архів оригіналу (PDF) за 8 листопада 2016. Процитовано 21 липня 2017.
  3. Encyclopedia of artificial intelligence / Juan Ramon Rabunal Dopico, Julian Dorado de la Calle, and Alejandro Pazos Sierra, editors

Посилання

[ред. | ред. код]