특용작물은 그들의 특별한 용도와 효능으로 농업, 의학, 산업 등 다양한 분야에서 중요한 자원으로 인식되어 많은 연구가 진행되어 왔다(Bae et al. 2021, Jang et al. 2017, Kim et al. 2017). 특히, 더덕과 씀바귀는 전통적으로 약용으로 사용되어 왔으며, 그들의 유용성과 다양한 활용 가능성은 연구자들과 산업계의 많은 관심을 받고 있다
더덕(Codonopsis lanceolata)은 초롱꽃과에 속하는 여러해살이 덩굴식물로, 한국, 일본, 중국, 만주 등지에 분포하고 있다. 더덕은 천연 인슐린이라고 불리는 이눌린 성분이 많이 함유되어 있어 당뇨를 개선하는 데 도움이 되며(Jeong et al. 2017), 사포닌 성분은 폐와 기관지 기능을 건강하게 유지하는데 기여하는 것으로 알려져 있다. 또한, 더덕 잎은 항산화 활성이 높아 최근 기능성 식품 및 화장품 소재로서 다양한 이용을 모색하고 있다(Hossen et al. 2016).
씀바귀(Ixeris dentata)는 뿌리와 잎에 있는 흰 즙이 맛이 써서 그러한 이름이 붙은 씀바귀는 국화과에 속하는 여러해살이풀이다. 우리나라, 중국, 일본 등지에 분포하고 있으며 혈관 질환 예방과 같은 다양한 약효가 있어 오래전부터 약재로 많이 사용되고 있다(Lim 1997).
참조전사체는 특정 생물 종에 대한 전사체의 표준 또는 기준 집합을 제공하며, 이는 유전자 탐색 및 변이 분석, 유전자 발현, 생물학적 경로 및 네트워크 분석, 그리고 종간⋅종내 비교 등 다양한 분석을 가능하게 한다. 특히, 표준 유전체 해독 이전에 생명 현상의 핵심 정보인 유전자 정보를 상대적으로 짧은 시간과 적은 비용으로 획득할 수 있으며 표준 유전체 조립 이후 유전자 탐색을 위한 annotation에도 활용할 수 있는 이점이 있다.
이에 본 연구팀은 PacBio Iso-Seq 기반의 고품질 참조전사체 서열을 농촌진흥청에 구축된 슈퍼컴퓨터를 이용하여 고속으로 다양한 전사체 기능 예측 프로그램으로 분석하여 더덕과 씀바귀 연구를 위한 전사체 정보를 구축하였다.
구축된 대량의 참조전사체 정보의 활용성을 높이기 위해 체계적이고 통합적인 관리와 효율적인 제공이 매우 중요하다. 이에 우리는 Microsoft Access를 기반의 더덕 및 씀바귀의 참조전사체 데이터베이스를 구축하였고 본 논문을 통해 소개하고자 한다.
더덕과 씀바귀의 DB 구축을 위해 본 연구팀은 PacBio 기반의 IsoSeq 기술로 sequencing된 후 CD-HIT-EST (Fu et al. 2012)를 이용하여 중복성이 제거된 전사체 서열(Lee et al. unpublished)을 제공받아 서열의 기능 예측을 위해 먼저 Transdecoder (Haas n.d.)를 이용해 정확한 CDS 지역을 예측하고 아미노산 서열을 확보하였다. 구체적으로 TransDecoder.LongOrfs를 이용하여 전사체 서열 내 가장 긴 ORF를 찾은 후 이를 대상으로 UniRef90 및 Pfam DB 기반의 상동성 정보를 이용하는 TransDecoder.Predict의 2단계를 거쳐 CDS 및 아미노산 서열을 확보하였다.
사용자가 본 DB에 수록된 전사체의 기능 예측을 보다 수월하게 할 수 있도록 본 DB는 크게 4가지 방법을 이용하여 확보된 다양한 정보를 제공한다. 가장 먼저 Diamond (Buchfink et al. 2021)를 이용하여 GenBank NR DB 및 Arabidopsis 유전자 DB (Araport11)를 대상으로 앞서 확보된 전사체 별 아미노산 서열에 대한 유사성 검색(E-value 1e-5)을 통해 유사 유전자의 정보를 확보하였다. 두번째로 InterProScan (Jones et al. 2014)을 이용하여 아미노산 서열에 존재하는 기능성 도메인을 검색하였다. 세번째로 BLAST2GO (Conesa & Götz 2008)를 이용하여 전사체의 Geno Ontology 정보를 확보하였다. 마지막으로 KAAS (Moriya et al. 2007)를 이용하여 대사경로와 관련된 유전자 기능 예측 정보를 확보하였다. E-value를 옵션으로 설정한 Diamond 분석을 제외한 분석은 모두 default 옵션으로 수행되었으며 농촌진흥청 슈퍼컴퓨터 1호기를 이용하여 일반 서버 대비 분석 시간을 90%이상 절감하였다.
전사체 DB는 Microsoft Access를 기반으로 구축하였다. 전사체 서열을 담고 있는 Sequence와 기능 예측 정보를 담고 있는 Annotation 두 개의 테이블로 구성되어 있으며(Fig. 1) 사용자 인터페이스(Figs. 2-3)는 Microsoft Access의 폼 디자인 기능을 이용하여 구성하였다. 데이터베이스는 단일 파일로 제공되어 사용자는 별도의 작업이 필요없이 파일을 열어 전사체 서열 및 기능 예측 정보를 검색하고 정보를 이용할 수 있다.
더덕 참조 전사체 DB (Fig. 2)는 총 49,677개의 전사체 서열 및 기능 예측 정보를 담고 있다. 전사체 서열의 평균 길이는 2,756 bp이다. GenBank NR 내 서열과 유사성을 가진 서열은 26,910개고 Araport11와 유사성이 있는 서열은 25,736개이다. InterProScan (Jones et al. 2014) 상 기능성 도메인을 가진 서열은 21,860개이며 Geno Ontology 정보를 가진 서열은 17,711개이다. 마지막으로 KEGG 대사경로 정보를 갖는 서열은 13,239개이다.
씀바귀 참조 전사체 DB (Fig. 3)는 총 73,757개의 전사체 서열 및 기능 예측 정보를 담고 있다. 전사체 서열의 평균 길이는 2,654 bp이다. GenBank NR 내 서열과 유사성을 가진 서열은 69,258개고 Araport11와 유사성이 있는 서열은 63,714개이다. InterProScan (Jones et al. 2014) 상 기능성 도메인을 가진 서열은 52,200개이며 Geno Ontology 정보를 가진 서열은 45,941개이다. 마지막으로 KEGG 대사경로 정보를 갖는 서열은 31,324개이다.
본 참조전사체 DB는 사용자들이 쉽고 유연성 있게 더덕과 씀바귀의 참조 전사체 정보를 활용할 수 있도록 하는 것에 초점을 맞추어 개발하였다. 먼저, 컴퓨터에 익숙하지 않은 사용자들과 오픈소스 또는 크로스 플랫폼 솔루션을 선호하는 사용자들의 접근성을 높이기 위해 필요할 경우 쉽게 DB를 Export하여 Excel 등에서 활용할 수 있도록 테이블 구조를 Sequence와 Annotation으로 단순하게 구성하였다(Fig. 1). 다음으로 사용자 편의성 증대를 위해 DB 화면을 단순화하여 디자인하였다. 구체적으로 DB를 실행하면 나타나는 하나의 화면에서 사용자는 복잡한 과정 없이 참조 전사체 서열 및 기능 예측 정보를 확인하고 데이터 검색을 모두 수행할 수 있다(Fig. 2). 특히, 확장성 등 단점에도 불구하고 높은 작업 유연성 확보를 위해 단일 파일 DB로 구축하여 인터넷이나 내부 네트워크 연결이 없이도 정보에 접근할 수 있도록 하여 네트워크 접근이 제한적인 환경이나 네트워크 장애 시에도 작업을 계속할 수 있도록 하였다.
빅데이터⋅딥러닝 기반의 디지털 전환이라는 급격한 시대의 흐름은 육종도 예외는 아니어서 육종 초기단계부터 적극적으로 유전형 및 표현형 등 오믹스 빅데이터를 확보하고 이를 AI와 접목하여 품종개발에 활용하고자 하는 다양한 연구와 노력들이 계속되고 있다(Jeon et al. 2023).
그러나 주요 작물 대비 다양한 오믹스 데이터 부족으로 육종의 디지털화가 어려운 특용작물의 현 상황을 고려할 때 본 더덕과 씀바귀 참조 전사체 DB는 유전자 탐색, 유전자 발현 분석 등 유전자 단위의 활용 뿐만 아니라 유전체를 대신하여 종내⋅외 비교 및 마커 개발을 위한 변이 정보 확보 등 다양한 용도에 활용될 수 있을 것으로 생각된다.
특히, 2차 대사산물이 작물 유용성과 직결되는 특용작물의 특성을 고려할 때 본 DB에서 제공하고 있는 KEGG Ontology 및 pathway 정보는 관련 유전자, 대사경로 및 대사물질 연구에 매우 유용하게 사용될 수 있을 것으로 기대된다.
더덕과 씀바귀의 참조 전사체 DB 구축은 이들 특용작물의 농업적 가치와 산업적 활용성을 높일 수 있는 자산이 될 수 있을 것으로 기대한다.
더덕과 씀바귀 DB는 NABIC (http://nabic.rda.go.kr)을 통해 제공 중에 있으며 NABIC 관리 하에 주기적으로 업데이트될 예정이다. 또한 더덕과 씀바귀 이외에도 황기 등 품목을 계속해서 확대해 나갈 예정이다.
본 연구에서는 특용작물 더덕(Codonopsis lanceolata)과 씀바귀(Ixeris dentata)의 참조전사체 데이터베이스(DB)를 구축하였다. PacBio Iso-Seq 기술을 기반으로 해독된 참조 전사체 서열을 농촌진흥청의 슈퍼컴퓨터를 기반으로 다양한 프로그램을 이용하여 초고속으로 유사 유전자 탐색, 도메인 검색 및 대사경로 관련 정보를 확보하였다. 구축된 정보는 Microsoft Access를 기반으로 단순한 사용자 인터페이스를 가진 단일 파일 DB로 구축하여 전사체 서열 및 기능 예측 정보의 효율적인 접근과 관리를 가능하게 하였다. 더덕 참조전사체 DB는 총 49,677개의 전사체 서열을, 씀바귀 참조전사체 DB는 총 73,757개의 전사체 서열을 포함하고 있다. 이들 참조전사체 DB는 유전자 탐색, 유전자 발현 분석, 종간⋅종내 비교 및 마커 개발 등 다양한 유전체 분석에 활용될 수 있으며, 특히 2차 대사산물 연구에서의 활용 가능성이 기대된다. 본 연구를 통해 구축된 참조전사체 DB는 더덕과 씀바귀의 농업적 가치와 산업적 활용성을 높이는 데 기여할 것으로 예상된다.
본 성과물(논문, 산업재산권, 품종보호권 등)은 농촌진흥청 연구사업(과제번호: PJ01503502)의 지원에 의해 이루어진 것임
Download Form