VP Technology Strategy, MapR
Кристал Валентайн – вице-президент по технологическим стратегиям в MapR, компании в Силиконовой долине, занимающейся Big Data. Кристал обладает обширным опытом исследований и практической работы с большими данными. До прихода в MapR она была профессором информатики в Amherst College.
Является автором нескольких научных публикаций в области алгоритмов, высокопроизводительных вычислений и вычислительной биологии, имеет патент в области Экстремальной виртуальной памяти. Как бывший консультант в Ab Initio Software работает с компаниями Fortune 500 в разработке и реализации высокой пропускной способности критически важных приложений, а также в качестве технологического эксперта консультирует фондовых инвесторов, ориентированных на технологии, имеет значительный опыт в крупном бизнесе компьютерной индустрии.
Др. Валентайн получила докторскую степень в области компьютерных наук в Brown University и являлась стипендиатом программы Fulbright в Италии.
LinkedIn: https://www.linkedin.com/in/crystal-valentine-29003a53
Next-Gen уже здесь: как технологии больших данных меняют приложения
От Кремниевой долины до Москвы возникновение платформ для работы с большими данными увеличивает ценность данных как таковых. Понижая себестоимость сбора и анализа данных, эти платформы позволяют извлекать всё больше пользы из имеющейся информации, результатом чего является фундаментальные изменения в архитектуре вычислительных систем. Промышленные «склады» данных и высокопроизводительные кластеры заменяются основанными на общедоступном оборудовании распределёнными системами, позволяющими обрабатывать петабайты гетерогенных данных по доступной стоимости.
Изменения архитектуры повлекли за собой изменения на уровне ПО: авангард новых технологий по работе с большими данными — потоки данных в реальном времени, облачные вычисления, микро-сервисы, алгоритмы искусственного интеллекта, контейнеры и виртуализация, конвергентные системы — меняет парадигмы программирования, создавая новые, ориентированные на данные приложения, одновременно с этим увеличивая эффективность вычислений и продуктивность труда разработчиков. В этом докладе Кристал представит реальные примеры того, как нарождающиеся технологии работы с большими данными формируют основание для следующего поколения корпоративных приложений.
Мастер-класс: Создание системы потоковой обработки данных с применением Spark Streaming, MapR Streams и HBase
30 октября 2016
Мастер-класс читается на английском языке
Требуется отдельная регистрация
Если раньше с большими данными в виде временных рядов справлялись просто периодическим удалением логов, то теперь в чаще решается задача по их оперативному хранению и потоковой обработке. Такая задача актуальна во многих областях – в телекоме, банкинге, IoT. Данный воркшоп будет хорошим стартом в правильном понимании темы распределенных вычислений и обработки временных рядов.
Основная цель воркшопа – изучить построение распределенной, надежной и масштабируемой системы сбора и и обработки большого (очень большого) объема разнородных данных в режиме реального времени с использованием технологий Apache Spark, Kafka API и Apache HBase.
Участники будут использовать Scala и Java для работы с упражнениями, нацеленными на понимание особенностей Spark Streaming для обработки непрерывных потоков данных, полученных из таких источников, как Apache Kafka, сокеты или файлы и хранения обработанных данных в HBase.
Дополнительная информация
https://www.mapr.com/services/mapr-academy/big-data-hadoop-online-training
https://www.mapr.com/blog/getting-started-sample-programs-apache-kafka-09
https://www.mapr.com/blog/getting-started-sample-programs-mapr-streams
https://www.mapr.com/blog/high-speed-kafka-api-publish-subscribe-streaming-architecture-how-works-message-level
https://www.mapr.com/blog/spark-streaming-hbase
https://www.mapr.com/blog/guidelines-hbase-schema-design
NB!
Участники должны иметь при себе ноутбуки с доступом в интернет (wifi будет доступен) и следующим ПО:
- JDK 8
- Git
- Maven 3.x or later
- Virtual Box