Предметна область дослідження
Будь-яке дослідження полягає в спостереженні за властивостями об`єктів з метою з`ясування та оцінювання значущих відносин і взаємозв`язків між показниками цих властивостей.
Відео: Введення в аналітику великих масивів даних
Предметна область включає в себе об`єкти, які розрізняються за властивостями і певним чином знаходяться в певному відношенні і взаємопов`язані між собою. Рішення задач в області програмування починається з дослідження предметної області.
Предметна область - це частина дійсного світу, яка нескінченна і містить як значущі, так й несуттєві дані. Досліднику треба вміти виділяти їх істотну частину. Наприклад, вирішуючи завдання про видачу кредиту, значущими будуть вважатися всі дані про приватне життя клієнта (чи є робота у подружжя, виховує клієнт неповнолітніх дітей, освіту клієнта і т.д.). А для того щоб вирішити інше завдання, пов`язану з банківською діяльністю, такі дані будуть абсолютно не істотні. Значимість даних залежить від того, що ми вибираємо в якості предметної області.
У процесі дослідження необхідно створити модель предметної області. Знання з різних джерел повинні бути формалізовані. Предметна область формалізується за допомогою будь-яких коштів. Засоби можуть бути найрізноманітніші. Це може бути текстовий опис предметної області або спеціалізована графічна нотація. За допомогою моделі предметної області описуються процеси, які відбуваються в ній, а також вивчаються дані цієї галузі дослідження.
Відео: Світ навколо нас
Постановка завдання полягає також з опису статичного і динамічного поведінки об`єктів, які ми досліджуємо. Опис статичного поведінки передбачає характеристику об`єктів і їх властивостей. При описі динамічної поведінки характеризуються причини поведінки об`єктів.
Динамічна поведінка об`єктів часто описують разом зі статичним поведінкою.
Іноді аналіз предметної області та постановка задачі об`єднуються в 1 етап.
На етапі визначення і аналізу вимог до даних проводиться моделювання даних, необхідних для здійснення Data Mining. Для цього досліджуються питання розподілу корстувачів аналітичні характеристики системи- питання доступу до даних, які необхідні для аналізу.
Предметна область аналізується простіше і ефективніше, коли в організації є сховище даних. Однак далеко не на всіх підприємствах є такі сховища даних. В такому випадку джерелом для вихідних даних є оперативні бази даних, довідкові та архівні матеріали, тобто дані з вже існуючих ІС (інформаційних систем).
Ще може знадобитися інформація з ІС керівників, зовнішніх і внутрішніх джерел, різних документів на паперових носіях, а також знання фахівців і / або результати опитів.
Необхідно також знати, що в процесі підготовки даних розробники програм повинні описати якомога більше факторів, які впливають на процес. Тут може здійснюватися кодування деяких даних. Наприклад, одна з характеристик клієнта - рівень його доходу, який може бути визначений як: дуже низький, низький, середній, високий, дуже високий. В цьому випадку треба визначити градації рівня доходу.
При визначенні потрібного кількість даних необхідно враховувати впорядкованість даних.
У тому випадку, коли вони впорядковані, необхідно дізнатися, чи включена в такий набір даних сезонна / циклічна компонента. Коли ж вони не впорядковані, тобто набір подій з бази даних не пов`язаний з тимчасової шкалою, то по ходу збору треба дотримуватися нижченаведені правил:
1) мале число записів в базі даних може бути причиною створення неадекватної моделі;
Відео: Причини, що впливають на клімат.
2) точність моделі може бути поліпшена зі збільшенням числа даних;
3) застарілі дані виключають з набору;
Відео: Індіанці Наско
4) алгоритми, які використовується в цілях створення моделі з застосуванням дуже великих баз даних, повинні мати можливість масштабування.