Интервью профессора Бориса Миркина

Общероссийская общественная организация«Российская ассоциация статистиков»

Интервью профессора Бориса Миркина

Работа Правления

Объявления

Новости

15 мая 2024 года на пространстве СНГ будет проведена статистическая викторина - «Содружество в цифрах»

16 - 19 апреля 2024 г. в Ростове-на-Дону будет проведен ряд мероприятий по развитию школьной статистики Ростовской области

15-16 мая 2024 г. состоится международный семинар "Стратегические векторы развития статистики Евразийского экономического союза до 2030 года", Москва

Новый конкурс РАС и работа с педагогами основной школы

РАС продолжает работу по развитию высшего образования по направлению Статистика (ФГОС ВО 4 поколения)

Главная » Интервью профессора Бориса Миркина

«Если исходить только из предмета, то я не вижу разницы между статистикой и наукой данных»

профессор Борис Миркин

В преддверии Международной научно-практической конференции «Наука о данных» в Санкт-Петербурге представитель пресс-службы РАС обратился к известному математику и статистику, профессору НИУ ВШЭ (Москва, Россия) и Университета Лондона (Великобритания) Борису Григорьевичу Миркину с просьбой ответить на ряд вопросов, касающихся статистики и науки о данных.

— Мы все наслышаны о Науке о данных (Data Science). Это новая специальность, возникшая в последние несколько лет, по которой открыты хорошо оплачиваемые позиции в огромном числе международных и российских компаний. Ей обучают разнообразные интернет-платформы, в том числе самых престижных университетов мира. В то же время, эта дисциплина отсутствует в современных классификациях науки и образования, по ней не существует сколько-нибудь признанных программ обучения. Что же это за дисциплина – является ли она частью математики, или компьютерных наук, или что? Какова ее связь со статистикой?

— Большое спасибо за проявленный Вами интерес к моим мнениям, возможно, не совсем неоправданный, так как в моем послужном списке статистика занимает достойное место – я ведь преподавал в вузах и математическую статистику, и социально-экономическую статистику, и даже проработал с годик в Париже в Организации Экономического Сотрудничества и Развития (ОЭСР, 1992-1993) в качестве консультанта в области статистики энергетики. Возможно, был бы там до сих пор, но в 1993 г. мне дали грант в США на развитие кластерного анализа, и я, получив одобрение ЦЭМИ РАН, где тогда работал, передвинулся в университет Ратгерс, Нью-Джерси (1993-98). Кластер-анализ – моя главная научная специализация за последние двадцать-тридцать лет.

Возвращаясь к Вашим вопросам, хочется сразу сказать следующее. Если исходить только из предмета, то я не вижу разницы между статистикой и наукой данных. Разница – в подходах. Грубо говоря, статистика – часть науки, наука данных – часть инженерии. (Парадокс, не так ли? Ничуть. В США и Англии наука о данных – часть компьютерных наук, которые прочно входят в состав «инжиниринга».) Цитирую из своего учебника: Наука о данных имеет дело с такими данными, которые оказались в распоряжении исследователя более или менее случайно, не как результат целенаправленного эксперимента, а как результат чьих-то наблюдений или просто сведения воедино данных, полученных из разных источников. Это может быть база данных о протеинах, недавно исследованных в лабораториях Европы. Или данные о социально-экономическом состоянии регионов России или стран Европы в таком-то году. Или совокупность сообщений, отправленных членами какой-либо социальной сети в течение определенного промежутка времени. В подобных ситуациях типичные вопросы таковы. Какой смысл можно извлечь из этих данных? Есть ли какая-нибудь структура в данных о рассматриваемом множестве объектов? Могут ли эти признаки помочь в прогнозировании тех? Подобная ситуация скорее характерна для путешественника, чем ученого. Ученый-статистик сидит за столом, получает воспроизводимые данные об окружающем мире и старается включить их в грандиозную научную картину мира. Путешественник же должен понять, как ему лучше себя вести здесь и сейчас. Наука о данных дает универсальные методы для универсальных ситуаций, тогда как статистика старается использовать адекватные методы для конкретных ситуаций и, тем самым, отбрасывает большинство данных как мусор, который невозможно переработать. Очевидно, в связи с глобальной диджитализацией и огромными объемами данных, доступными теперь любому пользователю, подход науки о данных оказывается значительно более востребованным. Поэтому у нас – избыток студентов, а у вас – вероятно, нет.

Надо сказать, ни наука, ни образование во всем мире оказались не готовы к такому повороту событий. Вот и нет науки о данных в существующих классификациях. Впрочем, наука о данных тоже оказалась не готова. Нет единства мнений о ее составе и структуре. Очевидная идея - брать методы, наиболее популярные среди разработчиков. Но погоня за модой не обязательно наилучшая тактика. В этом плане мне повезло. Еще в семидесятые годы мне, под давлением тотальной «статистической» критики, пришлось вырабатывать принципиальный взгляд на задачи анализа данных, увенчавшийся формулированием всего четырех задач и соответствующих методов как базовых, ключевых. Одна из этих задач, связанная с анализом главных компонент, вообще не входила в состав ни «машинного обучения», ни «майнинга данных». Я сформулировал эти четыре ключевые задачи в своем учебнике “Core data analysis” (Springer, 2011, 2019) и, возможно, эти идеи оказали определенное влияние. Так, очень популярная монография-учебник очень влиятельной американской группы – Хасти, Тибширани и Фридман из Стэнфорда – опубликованная впервые в 2001 г., содержит описание более 20 подходов, тогда как содержание их учебного пособия 2013 г. значительно сужено в направлении моего списка.

— В анонсе Вашего выступления на Международной научно-практической конференции «Наука о данных», которая состоится 4-7 февраля 2020 г. в Санкт-Петербурге, Вы пишете, что в науке данных сосуществуют два несовместимых взгляда на математическую природу данных. «Согласно одному взгляду – данные не более чем случайная выборка из вероятностного распределения, используемая, чтобы пролить свет на свойства этого распределения. Согласно второму взгляду, данные — это таблица, структуру которой надо изучить. В настоящее время этот взгляд – победитель». Скажите, что, по-вашему, из этого следует? Большие данные нельзя использовать как источник информации о генеральной совокупности? Или для этого потребуются какие-то дополнительные итерации?

— В своем вопросе Вы цитируете мое мнение, что в науке данных сосуществуют две разных математических модели для понятия признака, одна вероятностная, другая – геометрическая. На мой взгляд, это констатация факта. Из нее ничего особенного не следует. Например, в физике в каких-то ситуациях свет удобно представлять, как совокупность волн, в других – совокупность частиц. Пользуйтесь большими данными, если сумеете, для любых целей – на здоровье!

— Складывается впечатление, что Вы как бы противопоставляете исследование вероятностей и деятельность по измерению политических, экономических, демографических и иных массовых явлений. Так ли это? Ведь измерение чего-либо, особенно если речь идет о массовых явлениях, невозможно в отрыве от вероятности?

— Противопоставляю ли я исследования по теории вероятности и массовые измерения? Никоим образом. Все зависит от задачи. Например, даже при измерении такого простого, на первый взгляд, показателя как численность населения России - путем всеобщей переписи или иным способом, возникает масса исключений – кто-то болеет, а кто-то едет в поезде, которые трудно учесть без моделирования вероятностей. Напротив, когда мы анализируем связи между признаками в базе данных, мы имеем дело с фиксированным набором объектов, для анализа которого мы вовсе не обязательно должны прибегать к вероятностям – частот вполне хватает! Вероятности могут понадобиться только если мы захотим перенести наши выводы в теоретическую плоскость – и вот тут-то хотелось бы предостеречь от их использования, так как вероятностная природа базы данных обычно неизвестна. Главное – наука о данных измерениями не занимается. Она занимается только анализом данных, которые уже измерены.

Возможно, в этом и состоит существенное отличие науки данных от статистики. В статистике, особенно ее социально-экономической части, есть большая измерительная компонента, которая полностью отсутствует в науке о данных, как ее теперь понимают.

— В недавнем фильме «Измеритель удачи», посвященном Вам и Вашей деятельности, Вы рассказываете, что в молодости занимались вопросами измерения явлений, которые, как считается, нельзя измерить. Меня, как статистика, также интересует эта проблема. Вот, например, «Индекс счастья», который регулярно публикует одна уважаемая международная организация. Вы думаете, счастье можно измерить?

— Все зависит от подхода. Еще Пушкин в сходной ситуации объявил: «Не продается вдохновенье, но можно рукопись продать!» Конечно, не стоит в научных целях спрашивать индивида, насколько он удовлетворен своим положением «здесь и сейчас» – ответ очень зависит от психического склада и состояния. Однако можно заниматься подсчетом доли индивидов, удовлетворенных своей жизнью. В одной стране – 70%, в другой – 40%. По-моему, можно сделать обоснованный вывод, что в первой стране уровень счастья выше, и правительство может спать спокойнее.

— Большое спасибо Вам за ответы! До встречи на конференции в Санкт-Петербурге 4-7 февраля 2020 г !

Назад в "События"

Апрель 2024