Обзор методов предобработки данных

Методам предобработки в литературе по машинному обучению и анализу данных (МО и АД) отводят достаточно скромное место. Бо́льшая часть материала посвящена описанию самих алгоритмов МО и АД и их применению на чистых, уже подготовленных данных. Как правило, упоминаются лишь самые математически нагруженные методы предобработки, например, методы сокращения пространства признаков в контексте задачи улучшения показателей качества модели. 

При этом, практикам анализа данных хорошо известно, насколько значим вклад предобработки в успешное решение задачи. 

В этой памятке предпринята попытка сделать систематизированное, краткое и ёмкое описательное представление методов предобработки данных. И если в ходе своих собственных исследований Вы хотя бы раз обратитесь к этой шпаргалке, чтобы воскресить в памяти подходы к обеспечению чистоты, полноты, безызбыточности и непротиворечивости данных, то автор будет считать цель достигнутой. Главное, помните о принципе GIGO: Garbage In – Garbage Out, мусор на входе – мусор на выходе (даже при верных алгоритмах)! 

Полный текст статьи.




Внимание!

Уважаемый пользователь, нажав кнопку «Купить» или «Смотреть» Вы перейдете на сайт https://analytera.ispringmarket.ru, там Вы сможете оплатить и просмотреть выбранный материал.

Перед оплатой мы попросим Вас зарегистрироваться в системе (верхняя правая часть экрана, кнопка «Зарегистрироваться»). Это необходимо для создания Вашего личного аккаунта на нашей платформе. В дальнейшем аккаунт будет использоваться Вами для доступа ко всем материалам (бесплатным и оплаченным).

Во время регистрации просим указывать используемый Вами адрес электронной почты* (на него будут приходить оповещения и техническая информация).

*Важно!

Мы ни при каких обстоятельствах не будем передавать третьим лицам Ваши данные. Мы гарантируем конфиденциальность Вашей личной информации, предоставленной в результате регистрации. Адрес электронной почты, указанный Вами, будет использоваться только для сообщений системы и оповещении о новых материалах и событиях.