Программирование и анализ больших данных в почвоведении

Современная наука во многом опирается на массивы разнородных данных, накопленных за долгие годы исследований. С развитием информационных технологий с конца 1990-ых мы вошли в новую эру — глобального информационного анализа и синтеза, основанного на базах данных и ГИС, нейросетях и машинном обучении, виртуальной и дополненной реальности, а также на специализированных программах доступа и взаимодействия с ними, реализуемых посредством языков программирования, фреймворков и онлайн сервисов.

Этот программный инструментарий нужен в первую очередь для обеспечения продовольствием растущее население, ведь уже сейчас 10% населения Земли страдает от недостатка продовольствия, а если оправдается даже самый скромный прогноз роста числа людей — то к 2100 году для обеспечения продовольственной безопасности нам может потребоваться площадь земельных ресурсов, превышающая потенциальные возможности нашей планеты.

Первоначально перед специалистами по информатизации почвоведения стояла задача формализации понятий и создания гармонизированных баз данных (например, Harmonized World Soil Database). Далее  на основе полученных материалов разрабатываются стандартизированные системы институциональных механизмов, технологий, документаций и протоколов доступов к базам данных через интернет, которые обеспечивают эффективное совместное использование информации:

Все более важно понимать, как именно организовать большое количество данных в базах и других элементах инфраструктуры, чтобы эффективно делать запросы и получать необходимую информацию. «Большие данные» (Big data) в этом контексте являются объемным набором разнообразных данных, зачастую обновляемых в реальном времени и хранящимся как в форме традиционных реляционных баз данных, так и в форме слабо или вовсе не структурированных данных. Формат данных при этом может быть любым — численные или текстовые, изображения, видео.

Нет какого-то численного критерия, когда данные начинают считать большими, главное — что эти данные сложно или даже невозможно анализировать реляционными методами. Так наиболее понятными примерами больших данных являются непрерывно поступающие сведения о температуре и влажности с датчика, установленного в поле.

Сейчас главная цель — открыть возможность быстро и просто извлекать необходимые массивы данных и использовать их в аналитических и прогностических целях на разных уровнях от локального до общемирового. Для решения этой задачи специалистам необходимо объединить три компонента:

  • программирование (создание и управление базами данных и нейросетями);
  • data mining (извлечение массивов данных и поиск закономерностей);

  • специализация (профессиональные знания в предметной области).

Учитывая, что в ближайшие годы продолжится также развитие сельскохозяйственной робототехники, дронов, сенсорных датчиков и других технологий точного земледелия и учета — их программирование для выполнения заданных операций дополнит спектр практического применения программирования в агросекторе. 

Наиболее популярными языками программирования для аналитических задач почвоведения являются семейство C (собственно C, C++, C#) и Python; для анализа данных последнее время более активно используется фреймворк Pandas (Python) и язык программирования R. Чтобы работать с онлайн-сервисами необходимы дополнительно знания HTML, CSS, PHP и JavaScript; для получения массивов данных из баз потребуется навык работы с SQL-запросами, а для неструктурированных данных — нереляционными NoSQL-базами и моделью программирования MapReduce экосистемы распределенных вычислений Apache Hadoop. Онлайн-платформы для обработки больших данных и облачных вычислений: Amazon Web Service, Google Cloud, Microsoft Azure; Arduino — онлайн-платформа с открытым кодом, хороша для прототипирования инновационных проектов. 

Приоритетные цели анализа больших данных:

  • понимание текущего состояния почвенных ресурсов и сельскохозкультур;
  • оценка и минимизация рисков при поддержке принятия решений;
  • прогнозирование изменения климата для оценки влияния на урожай;
  • логистика, обеспечение безопасного хранения и перевозки продовольствия;
  • увеличение объемов производства продукции более высокого качества;
  • поиск фундаментальных закономерностей и научные исследования.

Инновации в сельском хозяйстве, позволяющие наращивать урожай при сохранении экологических и других ресурсов — тренд будущего. Большую роль играет также снижение продовольственных потерь на всех уровнях агропромышленного цикла. Для решения всех эти задач нужно повышать уровень айти-подготовки почвоведов и специалистов сельского хозяйства, включая знания в области баз данных и Big data, навыки программирования на Python и R, управления дронами и роботами, интеграции и анализа массивов разнородных данных.

Запись опубликована в рубрике Агромаркетинг. Добавьте в закладки постоянную ссылку.