Методам предобработки в литературе по машинному обучению и анализу данных (МО и АД) отводят достаточно скромное место. Бо́льшая часть материала посвящена описанию самих алгоритмов МО и АД и их применению на чистых, уже подготовленных данных. Как правило, упоминаются лишь самые математически нагруженные методы предобработки, например, методы сокращения пространства признаков в контексте задачи улучшения показателей качества модели.
При этом, практикам анализа данных хорошо известно, насколько значим вклад предобработки в успешное решение задачи.
В этой памятке предпринята попытка сделать систематизированное, краткое и ёмкое описательное представление методов предобработки данных. И если в ходе своих собственных исследований Вы хотя бы раз обратитесь к этой шпаргалке, чтобы воскресить в памяти подходы к обеспечению чистоты, полноты, безызбыточности и непротиворечивости данных, то автор будет считать цель достигнутой. Главное, помните о принципе GIGO: Garbage In – Garbage Out, мусор на входе – мусор на выходе (даже при верных алгоритмах)!
Внимание!
Уважаемый пользователь, нажав кнопку «Купить» или «Смотреть» Вы перейдете на сайт https://analytera.ispringmarket.ru, там Вы сможете оплатить и просмотреть выбранный материал.
Перед оплатой мы попросим Вас зарегистрироваться в системе (верхняя правая часть экрана, кнопка «Зарегистрироваться»). Это необходимо для создания Вашего личного аккаунта на нашей платформе. В дальнейшем аккаунт будет использоваться Вами для доступа ко всем материалам (бесплатным и оплаченным).
Во время регистрации просим указывать используемый Вами адрес электронной почты* (на него будут приходить оповещения и техническая информация).
*Важно!
Мы ни при каких обстоятельствах не будем передавать третьим лицам Ваши данные. Мы гарантируем конфиденциальность Вашей личной информации, предоставленной в результате регистрации. Адрес электронной почты, указанный Вами, будет использоваться только для сообщений системы и оповещении о новых материалах и событиях.