8 октября в Санкт-Петербурге стартует Международная конференция CODATA 2017 «Global Challenges and Data-Driven Science» («Обработка больших объёмов данных и глобальные вызовы современности»). О том, почему необходимо создавать отечественные базы больших данных, и каким образом этот процесс связан с переходом России на цифровую экономику «Форпосту» рассказал академик РАН, научный руководитель НПК «Механобр-Техника» Леонид Вайсберг.
Леонид Абрамович, очевидно, что информационные технологии стремительно меняют наш мир. Без гаджетов и интернета сегодня трудно представить свою жизнь даже ребёнку. Но какова роль больших баз данных в этих изменениях? И для чего они нужны в повседневной жизни?
Большие данные – это систематическое и постоянное накопление информации, которая протекает мимо нас, но может понадобиться в тот или иной момент. Самый простой пример – навигация. Система накапливает информацию и сбрасывает её нам. Это экономит наше время, делает путь из точки «А» в точку «Б» быстрее.
Сегодня мы уже живём в эпоху больших данных. Обработка массивов информации и их анализ становится конкурентным преимуществом. Приведу известный пример из реальной жизни. Несколько лет тому назад одна крупная фирма, торгующая в интернете и рассылающая рекламу, получила претензию. Некий человек был недоволен тем, что последние три дня его 15-летней дочери начала приходить реклама товаров для беременных. Компания извинилась, но через 2 недели оказалось, что дочь действительно беременна. То есть на основе анализа больших данных изменения запросов и вкусов у беременных, компания выявила, что её может заинтересовать данная конкретная группа товаров.
В ближайшем будущем потребность в больших данных возрастёт. Поверьте, ваш телефон через 5 лет будет определять ваш уровень сахара в крови, давление и записывать кардиограмму. А затем отправлять на центральный сервер поликлиники. И врач всё это увидит на мониторе своего компьютера. Эта информация станет частью массива больших данных, который доктор сможет в нужное время использовать для сравнительного анализа.
Большие данные – это инструмент для перехода на цифровую экономику?
Цифровые технологии сегодня позволяют без участия человека спроектировать через определённые программы на компьютере деталь, показать её конструктору в объёме, просчитать на прочность, подобрать нужный материал, из которого она должна быть изготовлена, передать в 3-D принтер и выдать готовое изделие. Но это невозможно без больших баз данных.
Мы знаем о том, какие нагрузки необходимо выдержать этой детали, и именно на основе больших баз данных можем понять, каким запасом прочности должен обладать материал, который мы планируем использовать. Эту информацию люди получают десятилетиями при испытаниях новых материалов в разных условиях. На удар, на кручение, на жароустойчивость и так далее. Если эта информация не систематизирована, если она не стала частью больших данных, то вам придётся поднимать старые материалы, смотреть старые отчёты.
Суть цифровой экономики в том, чтобы действовать быстро и уверенно, не терять время на получение и структурирование информации. Её внедрение действительно нереально без возможности пользоваться глобальным объёмом данных в той сфере, которая вас интересует, и в тот конкретный момент, когда вам это необходимо.
А какова роль фундаментальной науки в формировании больших данных и, как следствие, создании условий для перехода на цифровую экономику?
Зачем мы строим ускоритель и разгоняем частицу? Нам надо понять, как она себя будет вести в этом магнитном поле и с этой скоростью. Таким образом мы получаем информацию, которая войдёт в базу и станет общедоступной. Дальше мы поворачиваем ручку и меняем магнитное поле – вот вторая цифра в этой базе. Так постепенно и выстраивается массив данных. На его основе можно стоить аналитические цепочки, опираясь на вековой опыт экспериментов учёных.
Можно ли использовать большие данные для развития краеугольных для нашей экономики отраслей – минерально-сырьевого комплекса, металлургии?
Конечно. Допустим, вы управляете металлургической печью. Дозируете компоненты, сделали автоматику, но вам нужно понимать, как ведёт себя тот или иной материал при той или иной температуре. Ваш анализ строится именно на основе больших данных – вы мгновенно понимаете, какой компонент необходимо добавить, чтобы происходило раскисление или усвоение добавок.
То же самое в геологоразведке. Существуют современные методы обнаружения углеводородов, когда беспилотник фиксирует определённый уровень концентрации метана, скопившийся над месторождением. Но ведь это может быть болото, которое тоже выделяет газ. Сравнительный анализ интенсивности выделения метана на основе больших данных мгновенно даст ответ на вопрос о том, с чем мы имеет дело.
В горном деле мы технологически отстаём очень сильно. Мы умеем запускать спутники и прокладывать навигацию на Луне, но до сих пор не научились осуществлять навигацию комбайна в горной выработке без человека. А ведь из-за этого гибнут люди. Печальная статистика известна – один человек на миллион тонн добытого угля.
Во многом это следствие некоторой инерционности минерально-сырьевого сектора. Причём, при добыче твёрдых полезных ископаемых она проявляется гораздо ярче. В части внедрения инноваций при бурении и добыче углеводородов всё обстоит гораздо лучше. У той же «Газпромнефти» есть научно-исследовательский центр, где ведутся серьезные изыскания, создаются технологии, которые затем успешно внедряются в производство.
Почему отечественные базы больших данных уступают зарубежным?
К сожалению, они действительно очень плохо систематизированы и обработаны. Мы можем создавать новые материалы, технологии, но мы не знаем об их поведении при определённых условиях. Для того, чтобы получить необходимую информацию, приходится пользоваться западными большими данными.
Возможно, это часть нашей ментальности. Мы не очень любим даже в частной жизни на основе своих наблюдений создавать какую-то базу данных. Мы обязательно упадём второй раз на одной и той же арбузной корке. Почему? Потому что этот опыт не вошёл на основе нашей базы данных в подкорку. У большинства из нас бумаги на письменном столе лежат хаотично, а не разложены аккуратно, не рассортированы по темам. Найти нужную из-за этого бывает очень сложно.
Фактически, Вig data начинается с наведения порядка на собственном столе.