по Материалам XVI Международной научной конференции диатомологов «Диатомовые водоросли: морфология, систематика, флористика, экология, палеогеография, биостратиграфия», посвященной 90-летию со дня рождения З.И. Глезер 19 - 24 августа 2019 г. Автоматический учет диатомовых водорослей Байкала: подходы и перспективы
Ёлшин К.А.1, Молчанова Е.И.1, Усольцева М.В.2, Лихошвай Е.В.2 Кonstantin А. Elshin, Еlena I. Molchanova, Мarina V. Usoltseva,
1Иркутский государственный университет путей сообщения (Иркутск, Россия)
УДК 004.032.26+004.93.1+004.855.5
В данной статье опробован подход к идентификации и учету створок байкальской диатомовой водоросли Synedra acus subsp. radians с использованием Tensor Flow Object Detection API. В результате работы сформирован набор изображений, проведено обучение. Показано, что после 15000 итераций обучений было получено общее значение функции потерь равной 0,04. При этом точность классификации равна 95%, а точность построения ограничивающих прямоугольников также равна 95%. Ключевые слова: идентификация; глубокое обучение; нейронные сети; диатомовые водоросли.
Введение Диатомовые водоросли (Bacillariophyta) представляют собой микроскопические одноклеточные организмы, которые обитают практически во всех водных средах (General…, 2019). Они являются объектами мониторинга водных экосистем, микропалеонтологии, судебно-медицинских исследований и т. д. Общеевропейские исследовательские проекты ADIAC и DIADIST в области биоинформатики направлены на разработку соответствующих баз данных изображений и аналитических методов для автоматической идентификации диатомовых водорослей (Buf, Bayer, 2002). При мониторинге фитопланктона Байкала выявлено 5 видов диатомовых водорослей, которые вносят значительный вклад в общую биомассу. Это: Aulacoseira baicalensis (K. Meyer) Simonsen, Synedra acus subsp. radians (Kützing) Skabitchevsky, Aulacoseira islandica (O. Müller) Simonsen (= Aulacoseira skvortzowii Edlund, Stoermer et Taylor), Stephanodiscus meyeri Genkal et Popovskaya и Nitzschia graciliformis Lange-Bertalot et Simonsen emend. Genkal et Popovskaya (Поповская и др., 2002). Наиболее распространенным в последние годы является Synedra acus subsp. radians. Существуют автоматизированные комплексы, которые можно использовать для учета фитопланктона, например, Flow Cam (Phytoplankton..., 2019) и Carl Zeiss ZEN Intellesis (ZEISS..., 2019). Данный инструментарий является дорогостоящим, что не позволяет использовать его в наших условиях. В Лимнологическом институте СО РАН идентификация микроорганизмов и их подсчет в пробах воды водоемов области выполняется сотрудниками вручную (Поповская и др., 2002). Из-за трудоемкости работ и большого количества проб актуальной задачей является постановка автоматического подсчета и идентификации диатомей в исследуемых пробах. В целях перспективы автоматизации этих исследований с помощью компьютерной обработки изображений необходимо оценить возможности современных математических моделей, алгоритмов и программных средств, создать базу данных для их хранения и программной обработки.
Методы исследований В июне 2017 г. Google опубликовал TensorFlow Object Detection API (Supercharge..., 2019) – набор моделей и инструментов для детекции изображений на языке python. Данное API использует нейронные сети глубокого обучения для поиска объектов на изображении. В репозитории много скриптов для подготовки обучающих данных, обучения моделей и визуализации результатов. Применение данного API включает следующие шаги: сбор данных, предобработка, разметка данных, конвертация размеченных данных в формат TFRecord, выбор модели, обучение модели, оценка результатов.
Результаты и их обсуждение Сбор данных. С помощью светового микроскопа Axiovert на десятикратном увеличении в разрешении 1392x1040 пикселей сфотографированы створки диатомовых водорослей вида Synedra acus subsp. radians из культур и природных образцов. Всего было сделано 87 фотографий с общим количеством створок более 200. Предобработка. Из набора данных были исключены фотографии с большим количеством наложений объектов друг на друга. Количество фотографий уменьшилось до 43. Сформированный набор данных содержал фотографии без применения какой-либо обработки, так как было показано отсутствие положительного влияния предварительной обработки фотографий на точность классификации диатомовых водорослей (Pedraza et al., 2019). Разметка данных. Чтобы использовать полученные изображения для обучения нейронной сети, необходимо было выполнить их разметку. Эта задача состояла в том, чтобы вручную выделить координаты расположения диатомовых водорослей. Для облегчения этого процесса был использован инструмент LabelImg (LabelImg..., 2019). Была применена аннотация PascalVOC, которая представляет xmlфайл с описанием координат ограничивающих прямоугольников выделенных объектов и меткой класса для каждого объекта. Конвертация размеченных данных. Алгоритм конвертации полученных xml файлов с разметкой в специальный формат TFRecord описан в (Training..., 2019). Данный формат использовался в TensorFlow Object Detection API в ходе обучения модели нейронной сети. Выбор модели. Обучение сети, в используемом API, выполнялось по методу fine-tuning (Guide…, 2019), что требует выбора настроенной модели нейронной сети. Выбор модели осуществлялся из списка, представленного в репозитории (Tensorflow..., 2019). Для обучения была выбрана модель faster_rcnn_inception_v2_coco, которая по данным исследований работы (Object…, 2019) обладает хорошей точностью идентификации и приемлемой производительностью. Обучение модели и достигнутая точность. Перед обучением, выборку данных необходимо было разделить на обучающую и тестовую. Для разбиения данных использовано соотношение 80/20. В обучающую выборку попало 34 изображения, а в тестовую 9. Стоит помнить, что объектов на изображении было разное количество. Таким образом, в обучающей выборке из 34 изображений суммарно было 170 объектов выбранного микроорганизма, на тестовой выборке, состоящей из 9 изображений, было 45 объектов. Обучение модели производилось на компьютере с 24Гб оперативной памяти и процессором Intel Xeon x5650. Для достижения значения функции потерь ниже 0,05, что рекомендуют авторы (Object..., 2019), потребовалось 18 часов обучения. Функция потерь задается формулой, представленной в (Detection…, 2019). После 15000 итераций обучений было получено общее значение функции потерь равной 0,04. При этом точность классификации равна 95%, а точность построения ограничивающих прямоугольников также равна 95%. Формулы расчета данных метрик представлены в (Detection..., 2019). Идентификация и подсчет диатомей является работой, требующей большого количества времени. В связи с этим, автоматизация с помощью компьютерной обработки имеет первостепенное значение для исследования диатомовых водорослей в ближайшем будущем. Для подтверждения эффективности этого подхода необходимо продолжить исследования на задачах идентификации других видов, что требует пополнения базы данных изображений.
Работа выполнена в рамках Госзадания АААА-А16-116122110059-3 и НИОКТР АААА-А18-118051090005-8 на базе приборного центра «Электронная микроскопия», входящем в ЦКП «Ультрамикроанализ» ЛИН СО РАН. Авторы заявляют об отсутствии конфликта интересов, требующего раскрытия в данном сообщении.
Список литературы
Статья поступила в редакцию 1.06.2019
Об авторах Ёлшин Константин Александрович – Кonstantin А. Elshin аспирант, Иркутский государственный университет путей сообщения, Иркутск, Россия (Irkutsk State University of Communications, Irkutsk, Russia) kostyayolshin@mail.ru Молчанова Елена Ивановна – Еlena I. Molchanova доктор технических наук moleli59@gmail.com Усольцева Марина Владимировна – Marina V. Usoltseva кандидат биологических наук usmarina@inbox.ru Лихошвай Елена Валентиновна – Yelena V. Likhoshway доктор биологических наук, профессор likhoshway@mail.ru Корреспондентский адрес: 664033, г. Иркутск, ул. Улан-Баторская, 3, ЛИ СО РАН. Телефон (3952)42-32-80.
ССЫЛКА: Ёлшин К.А., Молчанова Е.И., Усольцева М.В., Лихошвай Е.В. Автоматический учет диатомовых водорослей Байкала: подходы и перспективы // Вопросы современной альгологии. 2019. № 2 (20). С. 295–299. URL: http://algology.ru/1547 DOI – https://doi.org/10.33624/2311-0147-2019-2(20)-295-299
При перепечатке ссылка на сайт обязательна
Automatic accounting of Baikal diatomic algae: approaches and prospects Кonstantin А. Elshin1, Еlena I. Molchanova1, Мarina V. Usoltseva2, Yelena V. Likhoshway2 1Irkutsk State University of Communications (Irkutsk, Russia) Using the TensorFlow Object Detection API, an approach to identifying and registering Baikal diatom species Synedra acus subsp. radians has been tested. As a result, a set of images was formed and training was conducted. It is shown that аfter 15000 training iterations, the total value of the loss function was obtained equal to 0,04. At the same time, the classification accuracy is equal to 95%, and the accuracy of construction of the bounding box is also equal to 95%. Key words: identification; deep learning; neural networks; diatoms.
References
Authors Elshin Кonstantin А Irkutsk State University of Communications, Irkutsk, Russia kostyayolshin@mail.ru Molchanova Еlena I. Irkutsk State University of Communications, Irkutsk, Russia moleli59@gmail.com Usoltseva Marina V. Limnological Institute SB RAS, Irkutsk, Russia usmarina@inbox.ru Likhoshway Yelena V. Limnological Institute SB RAS, Irkutsk, Russia likhoshway@mail.ru
ARTICLE LINK: Elshin К.А., Molchanova Е.I., Usoltseva М.V., Likhoshway Ye.V. Automatic accounting of Baikal diatomic algae: approaches and prospects. Voprosy sovremennoi algologii (Issues of modern algology). 2019. № 2 (20). P. 295–299. URL: http://algology.ru/1547 DOI – https://doi.org/10.33624/2311-0147-2019-2(20)-295-299 When reprinting a link to the site is required
Уважаемые коллеги! Если Вы хотите получить версию статьи в формате PDF, пожалуйста, напишите в редакцию, и мы ее вам с удовольствием пришлем бесплатно.
На ГЛАВНУЮ
|
|||
|
|