Machines Can See 2022: новые технологии
Новые технологии на саммите по компьютерному зрению Machines Can See 2022
В Москве на площадке «Цифрового делового пространства» прошел шестой ежегодный саммит Machines Can See, который организует компания VisionLabs при поддержке Sber AI и MTS AI. На мероприятии выступили исследователи из Китая, Южной Кореи и России, а также представители таких крупнейших компаний, как ПАО «Ростелеком», МТС, Сбер, X5 Group и другие. Machines Can See прошёл при поддержке 16 партнеров и за один день собрал 900 участников
Главная тема саммита в этом году — синергия науки и практики для создания удобных и полезных сервисов на основе компьютерного зрения. В рамках мероприятия прошли две параллельные программы. В научной сессии была представлена серия докладов о последних исследованиях, которые позволяют расширять применение компьютерного зрения. Так, Евгений Бурнаев руководитель проектного Центра прикладного ИИ Сколтеха, ведущий научный сотрудник Института искусственного интеллекта AIRI, говорил о глубоком обучении для моделирования и реконструкции 3D-форм. Разрабатываемые технологии помогут реализовать приложения AR/VR, эффективно обрабатывать медицинские данные для планирования сложных хирургических операций, решать задачи планирования городской среды, сохранения культурного наследия и создания цифровых двойников.
Также часть выступлений была посвящена разработке решений в прикладных кейсах. Александр Чигорин, директор по исследованиям VisionLabs, рассказал о распознавании жестов, и как пройти путь от бейзлайна до работающего решения, остановившись на алгоритмической части решения. Сложность разработки заключалась в том, что решение должно успевать отрабатывать в реальном времени на устройстве с нейропроцессором и не реагировать на движения, похожие на жесты. В выступлении Романа Исаченко, старшего разработчика Яндекса, говорилось о визуальном поиске. Спикер отметил: при разработке решения для избежания переобучения нужно иметь хорошую тестовую метрику, а также необходимо уделить большое внимание очистке реальных данных.
Андрей Кузнецов, исполнительный директор по исследованию данных Sber AI рассказал о применении мультимодальных архитектур в задачах генерации изображений по описанию, а исполнительный директор по исследованию данных Sber AI и научный консультант Института искусственного интеллекта AIRI Денис Димитров выступил с презентацией на тему: «Fusion Brain — исследовательская платформа для мультимодального и многозадачного обучения».
Зарубежные исследователи Минсу Чо (Южная Корея) и Силинь Чен (Китай) рассказали о визуальном соответствии в компьютерном зрении и представлении сцен с помощью графов. После чего с ними состоялось прямое включение с сессией вопросов и ответов.
В рамках научного трека прошла постерная сессия, на которой было представлено 14 проектов от исследователей из РН БашНИПИнефть, МФТИ, НИУ ВШЭ, AIRI, МГУ им. М. В. Ломоносова и других AI-лабораторий.
Помимо этого, прошло подведение итогов соревнования по анализу данных, главной целью которого было создание точного и быстрого верификатора моделей транспорта по изображениям. Решения победителей и призеров показали высокие результаты, качество работы лучшего алгоритма составило 97,5% на публичных тестах и 95,5% на приватных. Топ-3 команд подошел к решению задачи с нескольких сторон: сбор данных, выбор архитектуры построения моделей и методов оптимизации алгоритмов, что обеспечило им высокие результаты. Решения команд-лидеров универсальны и заметно лучше работают на различных группах транспорта, в том числе на самых сложных для задачи верификации — тяжелых транспортных средствах и производителях бывшего СССР. Всего соревнование длилось 28 дней, заявки подали 243 участника, было отправлено 1348 решений, при этом одна из команд предложила рекордные 92 варианта решения задачи. Алгоритмы победителей и собранные ими данные будут доступны как open-source, что поможет развитию решений задачи по верификации автомобилей в целом. В датасете победителей собрано более 400 тысяч изображений, таких крупных наборов данных с изображениями транспорта в мире практически нет в открытом доступе.
Одной из основных тем среди кейсов бизнес-сессии стало создание КБ и ЕБ. Наталья Бессонова, менеджер проектов ПАО «Ростелеком», выступила с презентацией «Единая биометрическая система: от технологий до практики применения». Спикер рассказала, что у ЕБС широкие перспективы использования не только в финансовой сфере, но и в других отраслях — в образовании, спорте, на транспорте. Идентификация по биометрии может применяться при сдаче сессии в университете, для прохода на спортивные мероприятия или для посадки в самолет без предъявления посадочного талона и паспорта.
Руководитель центра идентификации и цифровых продуктов ПАО МТС Сергей Яковлев также рассказал о применении биометрических технологий в федеральном масштабе, но уже в рамках МТС. Компания первой в телеком-рознице стала обслуживать клиентов в офисе по лицу без документов, удостоверяющих личность. Спикер подчеркнул, что технологии позволяют ускорить обслуживание на 2-3 минуты, что в масштабе офисов МТС дает большую экономию.
Помимо этого, эксперты обсудили кейсы, в которых использование компьютерного зрения вышло за пределы распознавания лиц. Директор по цифровой трансформации Segezha Group Сергей Меркулов рассказал о применении технологий компьютерного зрения для контроля сырьевых потоков и обеспечения производственной безопасности на заводах. Технологии позволяют автоматизировать приемку круглого леса, а также на 46% снижает количество случаев, когда работник выходит на участок без средств индивидуальной защиты.
Александр Гаценко, руководитель центра технологий видеоаналитики Газпромнефть-цифровые решения, продолжил тему применения компьютерного зрения в промышленности. Видеоаналитика в компании используется для обеспечения безопасности на транспорте и промышленной безопасности, а также для контроля состояния сотрудников и их идентификации. За счет широкого спектра применения Газпромнефть активно развивает проекты с применением компьютерного зрения: за 2020-2022 года из идей в НИОКР перешли более 30 проектов.
В выступлении Александра Капитанова, руководителя R&D команды Computer Vision SberDevices, внимание было уделено жестовому управлению: от виртуальных ассистентов на различных устройствах до автомобилей. Для решения задач такого рода команда SberDevices собрала и выложила в открытый доступ один из самых больших жестовых датасетов – HaGRID – Hand Gesture Recognition Image Dataset, содержащем 552 992 FullHD изображений и 18 функциональных жестов.
Также в рамках бизнес-сессии прошла презентация «Кодекса этики в сфере искусственного интеллекта». Сергей Наквасин, заместитель руководителя аналитического центра при Правительстве РФ, и Андрей Незнамов, управляющий директор-начальник Центра регулирования AI Сбербанка, рассказали, что этические принципы использования ИИ вырабатываются на самых разных уровнях: их предлагают НКО и частные исследователи, мировые корпорации и правительства стран. Российский кодекс состоит из шести принципов и помогает установлению мягкого регулирования в области высоких технологий. В настоящее время к нему уже присоединились 83 участника российского рынка ИИ.
Завершила Machines Can See панельная дискуссия на тему «Будущее цифровых сервисов», на которой спикеры обсудили, насколько массовым применение компьютерного зрения становится в повседневной жизни и бизнесе, что влияет на развитие подобных технологий и как вести подобные инновационные проекты.
Создание сайтов NewMark