- Типовые задачи обработки данных
- Общие сведения об экспериментальных исследованиях
- Введение
- Общие сведения об экспериментальных исследованиях
- Анализ данных — основы и терминология
- Алгоритмы и эвристики
- Задачи машинного обучения с учителем
- Выбор метрики и валидационная процедура
- Типичный цикл развития проекта
- Заключение
Типовые задачи обработки данных
1) Описательная статистика.
2) Анализ совпадений и различий характеристик экспериментальной и контрольной групп на основании измерений, проведенных в порядковой шкале или шкале отношений.
3) Исследование зависимостей между явлениями, процессами.
Описательная статистика
В практических задачах обычно имеется совокупность наблюдений, например десятки, сотни и более результатов измерений. Необходимо компактно описать имеющиеся данные и получить при этом какую-либо информацию об этой совокупности.
Для результатов измерения в шкале отношений показатели описательной статистики можно разбить на несколько групп.
Показатели положения. Эти показатели описывают положение экспериментальных данных на числовой оси.
Такими показателями являются:
— максимальный и минимальный элементы выборки;
— среднее значение (для ограниченной по объему выборки обычно определяется среднее арифметическое значение)
; (13.1)
— медиана, то есть значение исследуемого признака, слева и справа от которого находится одинаковое число упорядоченных элементов выборки; если объем выборки – четное число, то медианой является среднее арифметическое двух центральных членов;
— мода, то есть такое значение измеренного признака, которое встречается в выборке наибольшее число раз.
Показатели разброса. Эти показатели описывают разброс данных относительно своего центра (среднего значения).
Показателями разброса являются:
— дисперсия (или второй центральный момент). При ограниченном объеме выборки определяют выборочную дисперсию
; (13.2)
— размах (интервал выборки), т. е. разность между максимальным и минимальным элементами выборки;
Показатель ассиметрии. Показатель ассиметрии показывает положение медианы относительно среднего значения; количественной характеристикой ассиметрии является коэффициент ассиметрии, определяемый как нормированный третий центральный момент
, (13.3)
где — среде квадратическое отклонение случайной величины х.
Из-за ограниченности выборки среднее значение случайной величины определяется с ошибкой. Введено понятие стандартная ошибка среднего, которая определяется делением среднеквадратического (стандартного) отклонения на корень из объема выборки:
. (13.4)
Гистограмма. Гистограммой называют графическое изображение зависимости частоты попадания элементов выборки от соответствующего интервала группировки значений анализируемого параметра.
Анализ совпадений и различий (сравнение двух выборок)
Пусть имеются две группы экспериментальных данных. Одна получена до эксперимента, а другая после эксперимента. Необходимо установить, имеется ли статистически достоверное различие между результатами этих групп.
Для этого формулируются две статистические гипотезы:
гипотеза Н – статистически достоверные различия отсутствуют,
гипотеза Н1 – различия между группами статистически значимы.
Для принятия решения о том, какая гипотеза справедлива, используют решающие правила – статистические критерии.
В качестве критерия принимаю вычисленное определенным образом на основании экспериментальных данных число, которое называют эмпирическим значением критерия. Эмпирическое значение критерия сравнивают с некоторым эталонным числом, которое называют критическим значением критерия. Такие эталонные числа обычно сведены в соответствующие таблицы. Если эмпирическое значение критерия оказывается меньше или равно критическому, то принимается нулевая гипотеза, то есть делается вывод, что представленные группы данных статистически не различаются.
Для критических значений устанавливается несколько уровней значимости. Каждому уровню значимости при одном и том же объеме выборки соответствует свое критическое значение критерия.
Уровнем значимости называют вероятность ошибки, которая может проявиться в виде отклонения нулевой гипотезы, когда она на самом деле верна. Уровень значимости обозначают α. В таблицах обычно приводят критические значения критериев для уровней значимости α=0.05, 0.01, 0.001. В медико-биологических экспериментах обычно ограничиваются значением α=0.05. Это значит, что допускается не боле, чем 5%-ая возможность ошибки в принятии нулевой гипотезы.
Если эмпирическое значение критерия оказывается больше критического, то принимается альтернативная гипотеза Н1, то есть делается заключение о том, что различия между представленными группами данных статистически достоверны. Достоверность этого характеризуется значением 1–α. Например, если оценки проводятся при α=0.05, и принята гипотеза Н1, то говорят, что достоверность различий составляет 0.95 или 95%.
Для данных, измеренных в шкале отношений при проверке гипотез о совпадении характеристик двух групп наиболее часто применяют критерий Крамера-Уэлча.
Необходимо, чтобы оцениваемые данные подчинялись нормальному закону распределения.
Эмпирическое значение данного критерия рассчитывается на основании информации об объемах M1 и М2 выборок данных х и y, их выборочных средних и выборочных дисперсиях:
. (13.5)
Число степеней свободы, при котором надо брать табличное (критическое) значение критерия определяется как n=M1+M2–2.
Рассмотрим следующий пример. При обследовании пациентов проводилось измерение концентрации углекислого газа в выдыхаемом воздухе. Все пациенты были разделены на две группы: 1-я группа – М1=97 человек с жалобами на одышку, 2-я группа – М2=68 человек без одышки.
В результате обследования установлено, что распределение концентрации СО2 в каждой группе близко к нормальному (рисунок 13.1)
Средние значения концентрации СО2, определенные в соответствии с выражением (13.1), составили: в 1-й группе = 3.66 об.%, во 2-й группе
= 3.88 об.%.
Необходимо установить, является ли это различие средних значений случайным или обусловлено влиянием одышки.
Общие сведения об экспериментальных исследованиях
Введение
В настоящее время жизнь человека настолько насыщена различного рода информацией. Мы изучаем те или иные объекты исследуем их, а затем пытаемся объяснить с помощью математических формул и графиков, что мы получили.
Кроме того, при проведении эксперимента мы стараемся автоматизировать его обработку, тем самым деятельность человека переходит из реального мира в электронный формат.
Многочисленная литература по обработке экспериментальных данных сводится к статистическому расчету этих данных с помощью математической модели. Более того, часто вводятся новые термины, порой не определяемые или имеющие разные названия в различных источниках. Много отдельных вопросов по обработке данных опубликованы в научных журналах, сложным математическим языком и со сложными математическими выкладками.
Следует отметить, что сейчас есть много всевозможных программ, которые не требуют таких академических знаний математики, для обработки полученных результатов вполне хватит знаний высшей школы и знания работы с программным продуктом.
Эксперимент, как таковой ничего не значит, если его правильно не обработать. После проведения эксперимента начинается самая сложная часть, это обработка его. Для того чтобы эксперимент считался законченным его необходимо просчитать. Как и каким способом сделать расчет? А затем представить его результаты, и поможет данная книга. Кроме того, в нее включены задания по лабораторным работам и варианты практических работ по исследованию того или иного объекта.
Общие сведения об экспериментальных исследованиях
Цель лекции: Уяснить необходимость экспериментальных исследований наряду с теоретическими выводами. Ознакомиться с основными требованиями, которые предъявляются к экспериментальным исследованиям и обработке экспериментов с помощью математической модели. Рассмотрение требований, которые выполняются при проведении статистических наблюдений.
Эксперимент является важнейшим средством получения новых знаний не только в области естественных и технических наук, но и в экономике, социологии, политике, психологии, литературоведении и в других отраслях. Экспериментальные исследования дают критерии оценки обоснованности и приемлемости на практике любых теорий и теоретических предположений. Одним из основных этапов любого эксперимента является обработка экспериментальных данных. Она необходима для получения ответа на вопрос: «Достоверны ли полученные опытные данные в пределах требуемой точности или допусков?».
В зависимости от целей эксперимента (исследование, управление, контроль ) могут быть использованы различные методы анализа объекта или явления. Это необходимо для прогнозирования состояния в разных условиях функционирования, оптимизации отдельных параметров, а также для решения каких-то других специфичных задач. Особенно важна тщательная математическая обработка результатов экспериментов, подтверждающая теоретические выводы и построения по диссертациям на соискание ученых степеней.
Применение различных методов обработки экспериментальных данных, критериев достоверности и адекватности моделей, изучаемым процессам или явлениям, оценка точности и надежности результатов эксперимента требует знания основных положений теории вероятностей и математической статистики, умелого использования принципов и приемов программирования. Кроме того, в связи с усложнением алгоритмов обработки данных необходимы глубокие знания основных вычислительных методов.
Конечной целью любой обработки экспериментальных данных является выдвижение гипотез о классе и структуре математической модели исследуемого явления, определение состава и объема дополнительных измерений, выбор возможных методов последующей статистической обработки и анализ выполнения основных предпосылок, лежащих в их основе.
Остановимся на определении математической модели (М.м.).
Математическая модель – это приближённое описание какого-либо класса явлений внешнего мира, выраженное с помощью математической символики. М. м. — мощный метод познания внешнего мира, а также прогнозирования и управления. Анализ М. м. позволяет проникнуть в сущность изучаемых явлений. Процесс математического моделирования, то есть изучения явления с помощью М. м., можно подразделить на 4 этапа.
Первый этап — формулирование законов, связывающих основные объекты модели. Этот этап требует широкого знания фактов, относящихся к изучаемым явлениям, и глубокого проникновения в их взаимосвязи. Эта стадия завершается записью в математических терминах сформулированных качеств, представлений о связях между объектами модели.
Второй этап — исследование математических задач, к которым приводят М. м. Основным вопросом здесь является решение прямой задачи, то есть получение в результате анализа модели выходных данных для дальнейшего их сопоставления с результатами наблюдений изучаемых явлений. На этом этапе важную роль приобретают математический аппарат, необходимый для анализа М. м., и вычислительная техника.
Третий этап — выяснение того, удовлетворяет ли принятая гипотетическая модель критерию практики, то есть выяснение вопроса о том, согласуются ли результаты наблюдений с теоретическими следствиями модели в пределах точности наблюдений. Если модель была вполне определена — все параметры её были заданы, — то определение уклонений теоретических следствий от наблюдений даёт решения прямой задачи с последующей оценкой уклонений. Если уклонения выходят за пределы точности наблюдений, то модель не может быть принята.
Четвёртый этап — последующий анализ модели в связи с накоплением данных об изучаемых явлениях и модернизация модели. В процессе развития науки и техники, данные об изучаемых явлениях, всё более и более уточняются, и наступает момент, когда выводы, получаемые на основании существующей М. м., не соответствуют нашим знаниям о явлении. В таком случае возникает необходимость построения, более совершенной математической модели.
Для разработки современной М.м. необходимо решить некоторые частные задачи, среди которых можно выделить следующие:
Следует отметить, что в зависимости от конечных целей исследования, сложности изучаемого явления и уровня априорной информации о нем объем задач, выполняемых в ходе предварительной обработки, может существенно изменяться. То же самое можно сказать и о соотношении целей и задач, которые решаются при предварительной обработке и на последующих этапах статистического анализа, направленных на построение модели явления.
Так, например, если целью эксперимента является изменение значения неизвестной, но заведомо постоянной величины путем прямых многократных измерений с помощью средства измерений с известными характеристиками погрешностей, то полная обработка результатов измерения ограничивается простейшей предварительной обработкой данных (оценкой математического ожидания). В то же время, если измеряемая величина является переменной, а закон распределения погрешностей измерительного прибора неизвестен, то для решения конечной задачи потребуется проведение, как предварительной обработки данных, так и применение статистических методов исследования физических зависимостей.
Анализ данных — основы и терминология
В этой статье я бы хотел обсудить базовые принципы построения практического проекта по (т. н. «интеллектуальному») анализу данных, а также зафиксировать необходимую терминологию, в том числе русскоязычную.
Анализ данных — это область математики и информатики, занимающаяся построением и исследованием наиболее общих математических методов и вычислительных алгоритмов извлечения знаний из экспериментальных (в широком смысле) данных; процесс исследования, фильтрации, преобразования и моделирования данных с целью извлечения полезной информации и принятия решений.
Говоря чуть более простым языком, я бы предложил понимать под анализом данных совокупность методов и приложений, связанных с алгоритмами обработки данных и не имеющих четко зафиксированного ответа на каждый входящий объект. Это будет отличать их от классических алгоритмов, например реализующих сортировку или словарь. От конкретной реализации классического алгоритма зависит время его выполнения и объем занимаемой памяти, но ожидаемый результат его применения строго зафиксирован. В противоположность этому мы ожидаем от нейросети, распознающей цифры, ответа 8 при входящей картинке, изображающей рукописную восьмерку, но не можем требовать этого результата. Более того, любая (в разумном смысле этого слова) нейросеть будет иногда ошибаться на тех или иных вариантах корректных входных данных. Будем называть такую постановку задачи и применяющиеся при ее решении методы и алгоритмы недетерминистическими (или нечеткими) в отличии от классических (детерминистических, четких).
Алгоритмы и эвристики
Описанную задачу распознавания цифр можно решать пытаясь самостоятельно подобрать функцию, реализующую соответствующее отображение. Получится, скорее всего, не очень быстро и не очень хорошо. С другой стороны, можно прибегнуть к методам машинного обучения, то есть воспользоваться вручную размеченной выборкой (или, в других случаях, теми или иными историческими данными) для автоматического подбора решающей функции. Таким образом, здесь и далее (обобщенным) алгоритмом машинного обучения я буду называть алгоритм, так или иначе на основе данных формирующий недетерминистический алгоритм, решающий ту или иную задачу. (Недетерминистичность полученного алгоритма нужна для того, чтобы под определение не подпадал справочник, использующий предварительно подгруженные данные или внешний API).
Таким образом, машинное обучение является наиболее распространенным и мощным (но, тем не менее, не единственным) методом анализа данных. К сожалению, алгоритмов машинного обучения, хорошо обрабатывающих данные более или менее произвольной природы люди пока не изобрели и поэтому специалисту приходится самостоятельно заниматься предобработкой данных для приведения их в пригодный для применения алгоритма вид. В большинстве случаев такая предобработка называется фичеселектом (англ. feature selection) или препроцессингом. Дело в том, что большинство алгоритмов машинного обучения принимают на вход наборы чисел фиксированной длины (для математиков — точки в ). Однако сейчас также широко используются разнообразные алгоритмы на основе нейронных сетей, которые умеют принимать на вход не только наборы чисел, но и объекты, имеющие некоторые дополнительные, главным образом геометрические, свойства, такие как изображения (алгоритм учитывает не только значения пикселей, но и их взаимное расположение), аудио, видео и тексты. Тем не менее, некоторая предобработка как правило происходит и в этих случаях, так что можно считать, что для них фичеселект заменяется подбором удачного препроцессинга.
Алгоритмом машинного обучения с учителем (в узком смысле этого слова) можно назвать алгоритм (для математиков — отображение), который берет на вход набор точек в (еще называются примерами или samples)
и меток (значений, которые мы пытаемся предсказать)
, а на выходе дает алгоритм (=функцию)
, уже сопоставляющий конкретное значение
любому входу
, принадлежащему пространству примеров. Например, в случае упомянутой выше нейросети, распознающей цифры, с помощью специальной процедуры на основе обучающей выборки устанавливаются значения, соответствующие связям между нейронами, и с их помощью на этапе применения вычисляется то или иное предсказание для каждого нового примера. Кстати, совокупность примеров и меток называется обучающей выборкой.
Список эффективных алгоритмов машинного обучения с учителем (в узком смысле) строго ограничен и почти не пополняется несмотря на активные исследования в этой области. Однако для правильного применения этих алгоритмов требуется опыт и подготовка. Вопросы эффективного сведения практической задачи к задаче анализа данных, подбора списка фичей или препроцессинга, модели и ее параметров, а также грамотного внедрения непросты и сами по себе, не говоря уже о работе над ними в совокупности.
Общая схема решения задачи анализа данных при использовании метода машинного обучения выглядит таким образом:
Цепочку «препроцессинг — модель машинного обучения — постпроцессинг» удобно выделять в единую сущность. Часто такая цепочка остается неизменной и лишь регулярно дообучается на новопоступивших данных. В некоторых случаях, особенно на ранних этапах развития проекта, ее содержимое заменяется более или менее сложной эвристикой, не зависящей напрямую от данных. Бывают и более хитрые случаи. Заведем для такой цепочки (и возможных ее вариантов) отдельный термин и будем называть мета-моделью (meta-model). В случае эвристики она редуцируется до следующей схемы:
Эвристика — это просто вручную подобранная функция, не использующая продвинутых методов, и, как правило, не дающая хорошего результата, но приемлемая в определенных случаях, например на ранних стадиях развития проекта.
Задачи машинного обучения с учителем
В зависимости от постановки, задачи машинного обучения делят на задачи классификации, регрессии и логистической регрессии.
Классификация — постановка задачи при которой требуется определить, какому классу из некоторого четко заданного списка относится входящий объект. Типичным и популярным примером является уже упоминавшееся выше распознавание цифр, в ней каждому изображению нужно сопоставить один из 10 классов, соответствующий изображенной цифре.
Регрессия — постановка задачи, при которой требуется предсказать некоторую количественную характеристику объекта, например цену или возраст.
Логистическая регрессия сочетает свойства перечисленных выше двух постановок задач. В ней задаются совершившиеся события на объектах, а требуется предсказать их вероятности на новых объектах. Типичным примером такой задачи является задача предсказания вероятности перехода пользователя по рекомендательной ссылке или рекламному объявлению.
Выбор метрики и валидационная процедура
Метрика качества предсказания (нечеткого) алгоритма — это способ оценить качество его работы, сравнить результат его применения с действительным ответом. Более математично — это функция, берущая на вход список предсказаний и список случившихся ответов
, а возвращающая число соответствующее качеству предсказания. Например в случае задачи классификации самым простым и популярным вариантом является количество несовпадений
, а в случае задачи регрессии — среднеквадратичное отклонение
. Однако в ряде случаев из практических соображений необходимо использовать менее стандартные метрики качества.
Прежде чем внедрять алгоритм в работающий и взаимодействующий с реальными пользователями продукт (или передавать его заказчику), хорошо бы оценить, насколько хорошо этот алгоритм работает. Для этого используется следующий механизм, называемый валидационной процедурой. Имеющаяся в распоряжении размеченная выборка разделяется на две части — обучающую и валидационную. Обучение алгоритма происходит на обучающей выборке, а оценка его качества (или валидация) — на валидационной. В том случае, если мы пока не используем алгоритм машинного обучения, а подбираем эвристику, можно считать, что вся размеченная выборка, на которой мы оцениваем качество работы алгоритма является валидационной, а обучающая выборка пуста — состоит из 0 элементов.
Типичный цикл развития проекта
В самых общих чертах цикл развития проекта по анализу данных выглядит следующим образом.
Заключение
На этом пока все, следующий раз мы обсудим какие конкретно алгоритмы применяются для решения задач классификации, регрессии и логистической регрессии, а о том, как сделать базовое исследование задачи и подготовить его результат для использования прикладным программистом уже можно почитать здесь.