Алексей Ермолаев

  • IT/Программирование
Лучшие работы

tvzavr.ru
tvzavr.ru
Разрабатывал административный интерфейс для хранения фильмов, редактирования информации по ним и другим многочисленным сущностям. Также занимался разработкой веб-приложения для парсинга контента с “Кинопоиска”, его обработке и дальнейшей интеграции в онлайн-кинотеатр.

В рамках работы использовались технологии:

1.	Python/ Django

2.	Mysql

3.	Redis

4.	Cron

5.	HTML/CSS

6.	Javascript/Jquery

7.	Алгоритмы и структуры данных

8.	MongoDB

9.	lighttpd

Research data scientist
Research data scientist
https://github.com/ermolushka/CV

Kaggle

Titanic
В задаче дан необходимо предсказать, выживет человек на Титанике или нет. Для решения я сделал небольшой feature engineering, использовал алгоритм Random Forest Classifier для выявления наиболее значимых признаков и полученные признаки отдавал на обучение алгоритму kNN.

Multi label classification of printed media articles to topics
Задача – определить, к каким темам относится статья (многоклассовая классификация). В качестве решения использовался блендинг (SVM и метод случайных лесов)

Classify products into the right category
Задача – определить, к какой категории относится продукт. Для решения данные были нормализованы, обучение происходило в три этапа. На первом: использовал 5-Fold стекинг и обучил 33 модели, получив на выходе 8 фич. На втором этапе обучил на полученных данных бустинг, нейронную сеть и алгоритм extra trees. На третьем этапе предсказания смешал линейно с определенными коэффициентами.

Use telematic data to identify driver signature
Даны 2300 водителей, у каждого 200 треков. Определить, какие треки не относятся к данному водителю. В начале повернул все треки таким образом, чтобы они смотрели в одну сторону (изначально могли быть повернуты в любую сторону). Из исходных данных сформировал признаки из перцентилей скоростей и других показателей. Обучил Random Forest (200 деревьев, усреднение 5 раз). Затем использовал алгоритм, который выдает максимальные и минимальные меры сходства между двумя кривыми. Смешал с коэффициентами вероятности леса и всех попарно сравненных кривых.

Model quoted prices for industrial tube assemblies
Задача - дан набор параметров конструкции из труб, предсказать цену на такую конструкцию. Соединил все датасеты в один, сделал feature engineering. Разделил датасет на два: с категориальными и количественными признаками. Использовал 5-Fold с непересекающимися ID трубы и модели (xgboost, extra trees regressor + neural network

vexor.ci
vexor.ci
continuous integration сервис с возможностью распараллеливания тестов