Лаборатория аналитики потоковых данных и машинного обучения НГУ-Экспасофт.
В последнее время произошло много перемен и в Академгородке, и в НГУ, да и в экономике страны. Как в столь быстро меняющихся условиях выбрать приоритеты? На что сделать ставку? Что развивать? Тема управления знаниями появилась более десяти лет назад. И актуальность ее только возрастает. Технологии управления знаниями сегодня нельзя обсуждать вне информационных технологий. При этом в пакет технологий входит как чисто программистская и даже «железячная часть», так и практически гуманитарная, когнитивная составляющая. Работы хватит всем. Важно заявить это направление, и выработать программу работ. Именно такое действие совершили несколько инициативных компаний совместно с НГУ. Важно начать подтягивание информационных технологий и компетенций под актуальные в современном информационном мире задачи. В Новосибирске есть уникальные специалиств в области икусственного интеллекта, есть опытные разработчики, есть когнитологи... Не хватает слаженности и видения, куда и как направить усилия. Но принципиально это не закрытая для нас тема.
Интервью с директором-организатором лаборатории, к.ф.-м.н. Евгением Павловским.
— Евгений, в декабре в НГУ создана совместная НГУ-Экспасофт лаборатория аналитики потоковых данных и машинного обучения. Расскажите, что это за лаборатория, какие задачи перед ней стоят и кого вы будете машинно обучать?
—Машинно обучать мы никого не будем, наоборот, мы будем обучать машину распознавать в сети подозрительный трафик, и решать много других интересных задач. Лаборатория создана для развития и накопления компетенций в области машинного обучения. Хотя эта область научного знания существует не один десяток лет, тем не менее, есть современное направление в ней — глубокое обучение (или, если быть точнее в переводе,DeepLearning - глубинное обучение). Глубинное обучение — это та научная основа, которая сейчас позволяет Google и Yandex распознавать речь «на лету» и определять в зависимости от контекста, что именно вы имеете в виду: упоминаете фамилию из ваших контактов, или название магазина в вашем городе. Первым проектом лаборатории является выполнение НИОКТР по теме «Разработка аналитических инструментов потоковой обработки данных в телекоммуникационных сетях»совместно с компаниейСигнатек.
— Расскажите поподробнее о проекте.
— Это весьма серьёзный проект, на него выделено из бюджета Минобрнауки167 млн. руб. на 3 года.Столько же выделяет из собственных средствСигнатек. Проект направлен на создание аналитического комплексапредназначенного для сбора, хранения и анализа телекоммуникационных данных. Т.е. инструментов по анализу событий, тем и мероприятий в потоке информации. Например, для передовых компаний важно обладать информацией о современном уровне технологий, новостях науки и потребителях, знать, что происходит у конкурентов и партнеров в информационном пространстве. При том количестве информации, что сейчас находится в открытом доступе, очень трудно собрать, проверить и проанализировать набор интересующих тем. Поэтому, мы нацелены создать технологию и определённые инструменты.
—Как это будет применяться?
Допустим, компания хочет знать, нет ли «утечек» персональных данных или корпоративной информации за пределы этой компании. Для этого они ставят внутри компании«монитор», который позволяет на основе разработанных нами алгоритмов вовремя реагировать на такие «утечки», или вовсе блокировать их. Есть и другие задачи: определение спам рассылки, нецелевого использования ресурсов.
— Нецелевого?
— Да, например, кто-то передаёт в вашу сеть «ботов» и они начинают сильно загружать все компьютеры, что-то там считают кому-то или вовлечены в нелегальную активность. Это можно отследить и предотвратить.
— То есть вы создаёте некоторый комплекс безопасности?
— Не совсем. Наша главная задача - это дать возможность человеку легко и просто выявлять связи между объектами и явлениями. Например, интересует тематика новых инновационных технологий. Просматриваем открытые источники, находим новое, находим взаимосвязи и это уже достаточно ценная маркетинговая информация. Её можно использовать в стратегическом планировании крупной компании, а можно и для вновь создаваемого стартапа. Это многоцелевой комплекс. Безопасность – это не единственная область применения. Например, телекоммуникационные компании смогут быстро определять, что резко возрос интерес к определённым ресурсам сети и, соответственно, использовать это в бизнес-целях. Кроме того, мы планируем определять некоторые характеристики людей и устройств по генерируемому ими трафику – можно,например, сказать женщина это или мужчина, примерный возраст, возможные интересы. Всё это очень интересная информация для маркетинговых целей.
— А не будет ли это нарушением частной жизни? Если вы узнаете, что я сижу за телефоном, узнаете сколько мне лет, пол, может быть моё место работы...
—Ну Google и другие сервисы уже так делают, почему не можем мы? Они присылают вам таргетированную рекламу, ориентируясь на ваши потребности. Вы конечно подписываете соглашение о предоставлении информации и даже можете отказаться от такого сбора. Всё регулируется соглашениями. Вообще-то незаконно собирать информацию о частной жизни гражданина РФ. Нам никто не разрешить этого делать! Мы, напротив, создаём инструменты для повышения прозрачности в обществе. Вы, вот как журналист, часто имеете дело с источниками информации. Вам же нужно понимать, где истинная информация, а где – нет. Нужно докопаться до первоисточника. Собственно, у американцев уже есть аналог от PalantirTechnologies. Мы будем создавать нечто подобное.
—Palantir, это же из Толкиенской мифологии. Помнится, он послужилСаурону!
— Да, в этом есть определённый образ. У нас будет образ клубка ниток, который бросаешь, и он выводит к цели. Нам интересно принципиально разобраться в технологиях потоковой обработки данных, чтобы быть способными обрабатывать большие объёмы трафика. Большие объёмы - это как сырая нефть, в ней обязательно можно найти ценность, не выходя, конечно, за пределы закона. Мы понимаем, что есть ценность для высокотехнологичных компаний, телекоммуникаций, для маркетинга, для безопасности. Они понимают, что если не будут заниматься глубокой переработкой своих данных (как нефти), то скоро окажутся позади своих западных конкурентов, т.к. этот бизнес трансграничен. Возможно найдутся и другие сферы применения. В рамках проекта также будут созданы высокопроизводительные библиотеки алгоритмов для распознавания информации в картинках, в видеопотоке, в звукозаписях, и особенно - в текстах. Всё, что сможем извлекать оттуда — будет сложено в единую картину, как славный ковёр от Марьи-Царевны: «на нем всё царство расписано, с городами и деревнями, с лесами и нивами, и птицы в небе, и звери в горах, и рыбы в морях; кругом луна и солнце ходят…»
—Хороший образ. А кто будет работать в лаборатории?
—Планируем привлечь к работе лаборатории более 40 специалистов: это и программисты, и аналитики, и тестировщики, а главное - молодые исследователи, желающие развиваться в создании новых алгоритмов искусственного интеллекта.
Сейчас подбираем лидеров направлений: высокоскоростной сбор потоковых данных трафика, оперативное сохранение этого трафика в базу данных или Hadoop, глубокая аналитика данных с использованием машинного обучения. Глубокая аналитика — это обширное направление и разбивается ещё на анализ текстов, изображений, звуков и видео. Соответственно нужны специалисты, работавшие с большими потоками данных, специалисты по машинному обучению, по звуку, распознаванию речи, по автоматической обработке текстов на естественном языке и видеоаналитиков. Рассмотрим не только тех, кто имеет опыт разработки, но и тех, кто заинтересован в развитии своих профессиональных компетенций. У нас в проекте достаточно конкурентные зарплаты, для отдельных людей готовы предложить зарплату выше рыночной. Специалистов нам потребуется много, готовы рассмотреть всех, пришлёт резюме. Его кстати, можно прислать мне на адрес: klubok.nitok@xpss.ru.
— Спасибо за подробный рассказ. Надеюсь, у вас всё получится. Удачи!
— Спасибо вам за вопросы. Будем стараться. Думаю, мы ещё не раз встретимся и будем рассказывать о результатах.
Интервью с директором-организатором лаборатории, к.ф.-м.н. Евгением Павловским.
— Евгений, в декабре в НГУ создана совместная НГУ-Экспасофт лаборатория аналитики потоковых данных и машинного обучения. Расскажите, что это за лаборатория, какие задачи перед ней стоят и кого вы будете машинно обучать?
—Машинно обучать мы никого не будем, наоборот, мы будем обучать машину распознавать в сети подозрительный трафик, и решать много других интересных задач. Лаборатория создана для развития и накопления компетенций в области машинного обучения. Хотя эта область научного знания существует не один десяток лет, тем не менее, есть современное направление в ней — глубокое обучение (или, если быть точнее в переводе,DeepLearning - глубинное обучение). Глубинное обучение — это та научная основа, которая сейчас позволяет Google и Yandex распознавать речь «на лету» и определять в зависимости от контекста, что именно вы имеете в виду: упоминаете фамилию из ваших контактов, или название магазина в вашем городе. Первым проектом лаборатории является выполнение НИОКТР по теме «Разработка аналитических инструментов потоковой обработки данных в телекоммуникационных сетях»совместно с компаниейСигнатек.
— Расскажите поподробнее о проекте.
— Это весьма серьёзный проект, на него выделено из бюджета Минобрнауки167 млн. руб. на 3 года.Столько же выделяет из собственных средствСигнатек. Проект направлен на создание аналитического комплексапредназначенного для сбора, хранения и анализа телекоммуникационных данных. Т.е. инструментов по анализу событий, тем и мероприятий в потоке информации. Например, для передовых компаний важно обладать информацией о современном уровне технологий, новостях науки и потребителях, знать, что происходит у конкурентов и партнеров в информационном пространстве. При том количестве информации, что сейчас находится в открытом доступе, очень трудно собрать, проверить и проанализировать набор интересующих тем. Поэтому, мы нацелены создать технологию и определённые инструменты.
—Как это будет применяться?
Допустим, компания хочет знать, нет ли «утечек» персональных данных или корпоративной информации за пределы этой компании. Для этого они ставят внутри компании«монитор», который позволяет на основе разработанных нами алгоритмов вовремя реагировать на такие «утечки», или вовсе блокировать их. Есть и другие задачи: определение спам рассылки, нецелевого использования ресурсов.
— Нецелевого?
— Да, например, кто-то передаёт в вашу сеть «ботов» и они начинают сильно загружать все компьютеры, что-то там считают кому-то или вовлечены в нелегальную активность. Это можно отследить и предотвратить.
— То есть вы создаёте некоторый комплекс безопасности?
— Не совсем. Наша главная задача - это дать возможность человеку легко и просто выявлять связи между объектами и явлениями. Например, интересует тематика новых инновационных технологий. Просматриваем открытые источники, находим новое, находим взаимосвязи и это уже достаточно ценная маркетинговая информация. Её можно использовать в стратегическом планировании крупной компании, а можно и для вновь создаваемого стартапа. Это многоцелевой комплекс. Безопасность – это не единственная область применения. Например, телекоммуникационные компании смогут быстро определять, что резко возрос интерес к определённым ресурсам сети и, соответственно, использовать это в бизнес-целях. Кроме того, мы планируем определять некоторые характеристики людей и устройств по генерируемому ими трафику – можно,например, сказать женщина это или мужчина, примерный возраст, возможные интересы. Всё это очень интересная информация для маркетинговых целей.
— А не будет ли это нарушением частной жизни? Если вы узнаете, что я сижу за телефоном, узнаете сколько мне лет, пол, может быть моё место работы...
—Ну Google и другие сервисы уже так делают, почему не можем мы? Они присылают вам таргетированную рекламу, ориентируясь на ваши потребности. Вы конечно подписываете соглашение о предоставлении информации и даже можете отказаться от такого сбора. Всё регулируется соглашениями. Вообще-то незаконно собирать информацию о частной жизни гражданина РФ. Нам никто не разрешить этого делать! Мы, напротив, создаём инструменты для повышения прозрачности в обществе. Вы, вот как журналист, часто имеете дело с источниками информации. Вам же нужно понимать, где истинная информация, а где – нет. Нужно докопаться до первоисточника. Собственно, у американцев уже есть аналог от PalantirTechnologies. Мы будем создавать нечто подобное.
—Palantir, это же из Толкиенской мифологии. Помнится, он послужилСаурону!
— Да, в этом есть определённый образ. У нас будет образ клубка ниток, который бросаешь, и он выводит к цели. Нам интересно принципиально разобраться в технологиях потоковой обработки данных, чтобы быть способными обрабатывать большие объёмы трафика. Большие объёмы - это как сырая нефть, в ней обязательно можно найти ценность, не выходя, конечно, за пределы закона. Мы понимаем, что есть ценность для высокотехнологичных компаний, телекоммуникаций, для маркетинга, для безопасности. Они понимают, что если не будут заниматься глубокой переработкой своих данных (как нефти), то скоро окажутся позади своих западных конкурентов, т.к. этот бизнес трансграничен. Возможно найдутся и другие сферы применения. В рамках проекта также будут созданы высокопроизводительные библиотеки алгоритмов для распознавания информации в картинках, в видеопотоке, в звукозаписях, и особенно - в текстах. Всё, что сможем извлекать оттуда — будет сложено в единую картину, как славный ковёр от Марьи-Царевны: «на нем всё царство расписано, с городами и деревнями, с лесами и нивами, и птицы в небе, и звери в горах, и рыбы в морях; кругом луна и солнце ходят…»
—Хороший образ. А кто будет работать в лаборатории?
—Планируем привлечь к работе лаборатории более 40 специалистов: это и программисты, и аналитики, и тестировщики, а главное - молодые исследователи, желающие развиваться в создании новых алгоритмов искусственного интеллекта.
Сейчас подбираем лидеров направлений: высокоскоростной сбор потоковых данных трафика, оперативное сохранение этого трафика в базу данных или Hadoop, глубокая аналитика данных с использованием машинного обучения. Глубокая аналитика — это обширное направление и разбивается ещё на анализ текстов, изображений, звуков и видео. Соответственно нужны специалисты, работавшие с большими потоками данных, специалисты по машинному обучению, по звуку, распознаванию речи, по автоматической обработке текстов на естественном языке и видеоаналитиков. Рассмотрим не только тех, кто имеет опыт разработки, но и тех, кто заинтересован в развитии своих профессиональных компетенций. У нас в проекте достаточно конкурентные зарплаты, для отдельных людей готовы предложить зарплату выше рыночной. Специалистов нам потребуется много, готовы рассмотреть всех, пришлёт резюме. Его кстати, можно прислать мне на адрес: klubok.nitok@xpss.ru.
— Спасибо за подробный рассказ. Надеюсь, у вас всё получится. Удачи!
— Спасибо вам за вопросы. Будем стараться. Думаю, мы ещё не раз встретимся и будем рассказывать о результатах.
Событие от Площадка проектных перспектив