숙주나물과 콩나물과 같은 새싹 채소는 두과류 종자를 암조건에서 발아시켜 자라난 하배축과 떡잎, 뿌리를 섭취하는 형태이다. 이러한 방식은 발아 과정에서 플라보노이드와 같은 항산화 물질의 함량 증가로 인해 종자 상태로 섭취하는 것보다 다양한 이점을 제공한다(Gan et al. 2016, Ghani et al. 2016, Nair et al. 2013). 성분 변화 외에도 재배의 간편함과 소비자의 관심으로 인해 수요가 나날이 증가하고 있다(Nair et al. 2013). 이에 따라 소비자들이 선호하는 굵고 긴 하배축을 가지며 뿌리의 비율이 적은 새싹 채소를 개발하려는 연구가 꾸준히 증가하고 있다(Kang et al. 2006, Lim et al. 2022b, Złotek et al. 2019).
이러한 연구는 무기물이나 호르몬 처리와 같은 재배 방법뿐만 아니라, 새로운 품종을 육성하고 선발하려는 시도로 이어지고 있다(Kang et al. 2021; Kim et al. 2021, 2002; Lim et al. 2022a). 대량의 데이터를 기반으로 한 유전체 육종의 경우, NGS (Next-generation Sequencing)와 같은 새로운 기술의 발달로 더 많은 유전형 데이터를 상대적으로 쉽게 획득할 수 있는 반면, 이에 대응하는 표현형 데이터를 수집하는 과정은 여전히 수작업에 의존하고 있어 노동 집약적이고 시간 소모가 큰 어려움을 겪고 있다. 따라서 연구 보조를 위한 표현형 데이터 수집의 자동화가 필요한 시점이다.
최근 YOLO (You Only Look Once)나, CNN (Convolutional neural network), LSTMs (Long-Short Term Memories)와 같은 인공신경망을 활용하는 다양한 딥러닝 모델이 개발되고 있다. 이러한 인공 신경망을 활용하는 딥러닝 학습 모델의 특징은, 데이터의 특성을 스스로 학습하고 이를 통해 데이터를 분석하거나 예측하는데 있다. 이미지를 활용한 딥러닝 모델의 경우, 초기 학습을 위해 식별할 물체를 표시한 이미지를 학습 자료로 이용하고, 학습이 완료된 후에는 학습한 물체가 포함된 이미지를 제시하면 물체를 식별하고, 이미지 속 물체들을 분류하는 등 다양한 기능을 수행할 수 있게 된다. 즉 목적에 맞는 딥러닝 모델의 개발은 이미지 인풋만으로도 식물을 분류하거나 세포를 인식하는 등 다양한 활용이 가능해진다(Pratapa et al. 2021, Taghavi Namin et al. 2018).
인공 신경망을 활용하는 딥러닝 학습 모델들을 이용한 연구 사례들을 살펴보면, 작업의 자동화가 이전보다 훨씬 쉽게 이루어지고 있다. 이미 많은 작물의 경우 실시간 영상 및 사진으로 작물의 크기, 숙성 정도를 예측하고 질병을 탐지하고 있으며(Ko et al. 2023, Koirala et al. 2019, Lee et al. 2023), 인삼의 경우 딥러닝 연구를 통해 뿌리 부분의 퀄리티 확인 및 생장을 예측하는 등 다방면으로 연구가 진행되고 있다(Kim et al. 2023). 그러나 숙주나 콩나물 같은 새싹 채소의 경우에는 이러한 연구가 부족한 실정이다. 따라서 이번 연구에서는 숙주나 콩나물과 같이 두과류 작물의 발아된 새싹 채소 이미지를 통해 조직별 길이를 측정하는 모델을 개발하게 되었다.
이러한 연구는 식량 생산 측면에서의 적절한 수확기를 판단하는 역할을 할 뿐 아니라, 두과류를 활용한 유전 육종 연구에서도 유전형 데이터와 연계하여 사용하기 위한 표현형 수집에도 널리 활용될 수 있을 것으로 기대된다. 이 과정에서 비숙련자가 구분하기 어려운 하배축과 뿌리의 연결 부위를 자동으로 인식하고 구분함으로써, 연구자의 숙련도와 습관에 기대지 않는 객관적인 데이터 수집이 가능할 것으로 생각된다.
학습을 위한 이미지 생산을 목적으로 사용한 새싹 채소는 녹두(Vigna radiata)를 발아시켜 이용하는 숙주나물을 사용했으며, 이때 녹두 품종의 경우 숙주나물 재배를 목적으로 개발된 종실 크기 개선과 다수성의 특징을 가진 ‘산포’를 이용하였다(Kim et al. 2017). 재배는 37°C의 배양기(ISS-4075R, JEIO TECH, Korea)를 통해 17시간 동안 증류수를 이용해 침지 처리 후, 새싹재배기(ST004A, Sundotcom, Korea)를 통해 28°C의 온도를 유지하는 암조건에서 4시간마다 2분간 물을 분사하는 방식으로 재배되었다. 3일간 재배를 마친 후, 숙주나물은 데이터셋 제작을 위한 사진 촬영을 위해 사용되었다. 또한 딥러닝 학습을 마친 후, 다른 새싹 채소에서의 활용 가능성 평가를 위해 크기가 다양한 콩(Williams 82, 독새기콩, 풍산나물콩)과 동부(Vu81, Vu365) 역시 같은 방법으로 재배하고 사진을 촬영하여 사용하였다.
학습에 사용될 데이터 셋은 직접 촬영하였으며, 일정한 촬영조건을 유지하기 위해 삼각대를 통해 카메라를 고정시켜두고 촬영되었다. 촬영 조건은 검은 배경 아래에 숙주를 위치한 체 외부 조명을 통해 일정한 밝기를 유지한 상태에서, 추후에 길이 측정을 용이하도록 30 cm 자와 함께 촬영되었다. 모든 사진들은 삼성 갤럭시 폴드 3의 기본 카메라 어플리케이션을 통해 촬영되었으며, 이를 통해 3000×4000 JPEG 형식의 이미지를 획득하였다(Fig. 1, Table 1)
촬영된 이미지들은 Fig. 1과 같이 RoboFlow (Roboflow Inc. USA)를 이용하여 자엽에서 뿌리까지의 부위인 숙주의 하배축(Hypocotyl)부분과 뿌리(Root)부분으로 나누어 라벨링 작업을 수행했다. 그 후 Table 1과 같이 7:2:1의 비율로 딥러닝 과정에서 학습을 위한 Train set, 학습이 완료된 후 검증하기 위한 Validation set, 학습과 검증이 완료된 모델의 성능을 평가하기 위한 Test set으로 나누었다(Lee et al. 2023) (Table 1). 또한, 부족한 Raw image 수를 보충하고 딥러닝 학습 과정에서의 과적합 문제를 해결하고자 Flip과 Rotation 등, 다양한 Augmentation을 적용하여 최종적으로 109장의 이미지를 확보하고 이를 통해 딥러닝 학습을 진행하였다. 학습은 NVIDIA Quadro RTX 6000 그래픽 카드를 사용해 GPU 모드에서 진행되었으며, Anaconda를 이용한 가상 환경 내에서 YOLOv8 Segmentation 모델을 통해 수행되었다(Redmon et al. 2016). 학습은 640×640 크기의 이미지를 사용하였으며, 한 Batch당 16개의 이미지를 사용하였고, 초기 학습 횟수는 500 Epoch로 설정한 뒤 과적합 방지를 위한 Early stopping method를 통해 진행되었다 (Table 2).
숙주, 콩나물과 같은 새싹 채소에서의 표현형 수집을 용이하게 하기 위한 딥러닝 모델 개발을 위해 숙주를 바탕으로 콩, 동부의 다양한 품종을 새싹 채소 형태로 재배하고 이미지를 수집하는 과정이 앞서 이루어졌다. 학습 과정에서는 과적합 방지를 위한 조기 종료를 도입하였으며, 그 결과 341 epoch에서 441 epoch까지의 학습에서 validation loss 수치에 개선이 없어 441 epoch에서 학습이 종료되었고, 이때 생성된 최적의 가중치 파일을 사용하였다. 학습 수행 결과 레이어 수와 파라미터 수는 각각 331개, 27,240,806개로 나타났다. 학습이 진행됨에 따라 모델이 예측한 값과 실제 값의 차이를 나타내는 train/box_loss, train/seg_loss, train/cls_loss 수치는 1 epoch에서 각각 3.3521, 4.6004, 4.2613이였는데, 학습이 완료된 후 441 epoch에서는 각각 0.4594, 0.3848, 0.3291을 기록하여 점점 감소하는 모습을 보였다.
학습이 점차 이루어지면서 잘못된 예측을 나타내는 loss curve가 감소해감에 따라 오류율 역시 감소하고 모델의 성능은 개선되어갔다(Fig. 2). 학습한 모델을 검증하는 validation set에 대한 오류율인 val/box_loss, val/seg_loss, val/cls_loss의 수치는 초기 1 epoch에서 각각 2.9715, 4.5142, 4.3758이었으나 학습이 완료된 후 441 epoch에서는 0.7537, 0.5198, 0.4319으로 점차 감소하는 모습이 나타났다. 예측에 대한 정밀도와 재현율을 나타내는 metrics/precision과 metrics/recall, 그리고 종합적인 성능 지표인 mAP (Mean average precision)에 대해서도 1 epoch에서는 각각 0, 0, 0.0014의 값을 가졌지만, 학습이 완료된 후에는 0.9099, 0.9333, 0.9859을 기록하였다. 세 가지 수치 모두 학습이 진행됨에 따라 증가함으로써, 신뢰도 있고 재현 가능한 결과가 나왔음을 나타냈다. 예측을 진행한 하배축(hypocotyl)과 뿌리(root)에 대해 부위별로 예측 정밀도를 살펴보면 0.953과 0.885로 평균 0.919의 값을 가지며, 하배축 부분이 뿌리에 비해 상대적으로 더 정확히 예측됨을 나타내었다. 실제로 이를 통해 Fig. 3의 결과와 같이 숙주를 대상으로 한 모델의 예측에서, 하배축 영역과 뿌리 영역을 정확하게 감지하는 것을 확인할 수 있었다(Fig. 3).
길이측정 기능의 경우, ImageJ와 같은 방식으로 수식 (1)과 같이 이미지 내 포함된 자를 기준으로 하여 Ground Truth 값을 얻어낸 후, 이를 기준으로 하여 예측된 숙주의 하배축과 뿌리의 Segmentation에 대입하여 근삿값을 획득하도록 하였다. 먼저 이미지에서 기준이 되는 자를 식별한 후, 1 cm에 해당하는 Pixel의 크기를 계산한다. 다음으로, Segmentation 된 이미지의 중심선 부분을 따라 길이를 측정하고 이를 앞서 구한 기준이 되는 Pixel로 나누어 길이를 획득한다. 이를 통해 Fig. 4와 같이 감지된 숙주 이미지에서 하배축과 뿌리를 대상으로 길이의 근삿값을 획득할 수 있다(Fig. 4, Table 3).
숙주 이외의 새싹 채소에 대해서도 같은 모델을 적용하여 활용도를 올리고자, 콩나물(Williams 82, 독새기콩, 풍산나물콩)과 동부(Vu365, Vu81) 샘플에 대해 학습용 이미지를 만들고, 재학습 시키는 과정을 진행하였다. 그 결과 Fig. 5와 같이 다양한 두과류의 새싹 채소 형태도 안정적으로 식별하는 결과를 획득할 수 있었다(Fig. 5). 테스트로 사용한 두과류로는 콩(Glycine Max)의 표준 품종으로 여겨지는 Williams 82품종과 종자의 크기에 따른 대립종(독새기콩), 소립종(풍산나물콩) 그리고 동부(Vigna unguiculata)의 종자 크기에 따른 대립종(Vu365), 소립종(Vu81)이 사용되어 종자의 크기와 관련 없이 발아된 형태의 두과류 종자에 두루 사용할 수 있음을 나타내었다.
예측에 이용되는 사진의 촬영 조건에 따라, 배경이나 조명 조건, 각 개체간의 거리에 의하여 숙주의 하배축과 뿌리를 정상적으로 인식하지 못하는 사례가 종종 발생하였다. Fig. 6의 C와 같이 정돈되지 않은 환경에서 너무 밀집하여 사진을 촬영한 경우, D와 같이 사진 상의 숙주 중 일부분만 식별되는 문제가 있었다(Fig. 6). 이러한 오류가 발생하는 사진 촬영자의 숙련도에 따라 촬영 환경을 적절히 제어하지 못하는 경우가 발생하기도 하고, 학습을 위한 숙주 이미지 데이터가 부족함에 있다고 판단된다. 따라서 이를 개선하기 위해 적절한 사진 촬영 환경을 조성하고, 더 많은 양의 숙주 이미지 데이터를 확보 및 학습을 추가로 진행한다면 미식별 되는 숙주의 인식을 개선할 수 있을 것으로 기대된다.
이번 연구에서는 새싹 채소의 각 부위를 식별하고 길이를 측정하는 딥러닝 모델을 개발하였다. Roboflow를 통하여 숙주 이미지의 라벨링 작업을 진행하고 YOLOv8의 Segmentation 모델을 사용하여 숙주를 비롯한 두과류 작물의 새싹 채소 형태에서 하배축과 뿌리를 식별 및 길이를 측정할 수 있도록 하였다. 비록 연구에 사용된 Dataset의 크기가 작았음에도, 하배축과 뿌리를 성공적으로 구분하고 식별하였으며 이를 바탕으로 길이의 근삿값을 구할 수 있었다. 다만, 촬영 조건이 정돈되지 않은 환경에서는 인식률이 감소하였다. 추후 연구에서는 더 다양한 환경에서의 사진을 학습을 위한 Dataset으로 활용한다면, 농업 현장에서 활용할 때의 식별률이 개선될 수 있을 것으로 생각된다.
또한 이러한 딥러닝 모델을 기반으로 한 자동 길이 측정은 대규모의 표현형 데이터를 수집해야 하는 연구에서 일관적이고 정확한 데이터 수집에 크게 기여할 것으로 기대된다. 연구자의 숙련도와 기준점에 따라 달라질 수 있는 변수를 제어함으로써, 여러 연구자가 함께 표현형을 수집하는 경우에도 발생할 수 있는 오차를 해결할 수 있다. 이는 일관된 기준을 적용하여 대규모 연구에서의 데이터 신뢰성을 높이고, 연구 결과의 정확성을 보장하는데 도움이 될 것이다.
본 연구는 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원으로 수행되었습니다(No. 2022R1A4A1030348).
Download Form