◦معرفی GenBank
NCBI GenBank مشهورترين پایگاه داده های توالی نوکلئوتیدی و مستندات مربوط است كه به عنوان بخشی از کتابخانه ملی پزشکی (National Library of Medicine) در سال198۲ پایه گذاری شد. ابزارهای موجود براي دسترسي به دادههاي این پایگاه عبارتند از :BLAST (1990)، Entrez (1992)، GenBank (1992) و PubMed (1997). به دليل تسليم انواع دادههاي ژنومي، رشد اطلاعات در اين بانك بسيار سريع بوده است (شكل زير). به طور ميانگين، ماهانه ۳ ميليون توالي و ۱۴۰۰ گونه جديد به اين بانك اطلاعاتي افزوده ميگردد به طوري كه تقريبا هر ۱۰ ماه حجم اطلاعات آن دوبرابر ميشود.

همان طور كه در بالا گفته شد، دادههاي این پایگاه با بانک داده های DNA ژاپن(DDBJ) و آزمایشگاه بیولوژی مولکولی اروپا (EMBL) در حال تبادل بوده و هر سه پایگاه اطلاعات خود را روزانه رد و بدل میکنند.
توجه: GenBank حاوي دادههاي تكراري و اضافي (مانند تواليهاي وكتوري) است. بخشي از آن به دليل تسهيل ورود اطلاعات بوده است اما دليل عمده آن مجاز نمودن تسليم تواليهاي مشابه تكراري از سوي آزمايشگاههاي مختلف بوده است تا بتوان ذخيرهاي از گوناگوني ژنتيكي (polymorphism) ايجاد نمود.
بخش های عمومی GenBank بر حسب نوع موجود كه به بخشهاي تاكسونوميك مشهورند عبارتند از:
BCT (Bacterial and Archeal)،
MAM (Mammalian)،
Inv (Invertebrate)،
PHG (Phage)،
PLN (Plant and Fungi)،
PRI (Primate)،
ROD (Rodent)،
SYN (synthetic=cloning vectors)،
VRL (Viral)
VRT (other vertebrate)
GenBank همچنین به دلايل فني (ماهيت حجيم و با كيفيت پايين دادهها) بخشي از اطلاعات خود را در قسمتهاي اختصاصی زیر ذخيره ميكند:
PAT (patents)،
EST (Expressed sequence tag)،
STS (sequence tagged site)،
GSS (Genome survey sequence)،
HTG (High throughput genome)
CON (Contig).
روشهاي تسليم داده به بانک های اطلاعاتی اولیه توالی نوكلئوتيدي
داده های موجود در GenBank و بانک های مشابه از دو طریق تامین می شود:
1- از تحقیقات پژوهشگران در دنیا
2- از مراکز توالی یابی ژنومها در دنیا به شکل های مختلف EST، STS ،GSS ،HTC و توالیهاي بلند موجود در کاسمید ها و BAC کلون ها.
راه های زیر برای دریافت توالی وجود دارد:
دادههاي كم حجم و معمولا مشتمل بر يك توالي با استفاده از نرمافزار Sequin و حجم انبوه دادههاي ژنومي با استفاده از نرمافزار Bankitتسليم ميشوند. تسليم اطلاعات از طرق On-line (WWW) يا email و يا حتي ارسال فلاپي ديسك امكانپذير است. همان طور كه در شكل زير ديده ميشود، داده ها اكثرا از طريق WWW تسليم ميشوند.

-
WWW
-
Bankit
-
WebIn
-
Sakura
-
Sequin
-
e-mail
-
Sequin
-
Diskette
-
Sequin
توجه:
-
تسليم تواليهاي كوتاه cDNA مانند نتايج آزمايشهاي نمايش تفرقي بيان ژنها (Differential display) و يا EST ها از طریق بانک EST ها و روال مربوط انجام می شود.
-
از اول ژانویه 2000 توالی های ژنومی بلند GSS از طریق BanKit پذیرفته نمی شوند و باید در dbGSS فرستاده شوند.
اجزاي يك ركورد GenBank:
هر رکورد معمولي GenBank از سه قسمت تشکیل شده است:
Header: اطلاعات ویژه یک توالی در آن قرار گرفته است؛
Features: در این بخش Annotation های یک رکورد نمایش داده می شود؛
Sequence: توالی رکورد را نشان می دهد.
بخش عنوان يا Header:
اين بخش از ركورد حاوي اطلاعاتي نظير نام لوكوس (كه گاهي همان شماره دسترسي است)، نوع مولكول، زمان تسليم اطلاعات، تعريف حاوي نام توالي، شماره دسترسي، شماره نسخه (شماره دسترسي باضافه يك عدد براي نشان دادن دفعات اصلاح آن ركورد)، منشاء توالي و تاكسونومي موجود منشاء، كليد واژهها، آدرس مقالات مربوط ميباشد. شماره دسترسي مهمترين جزء اين قسمت است زيرا تنها اين شماره يگانه بوده و بهترين گزينه براي مراجعه مجدد به اين ركورد ميباشد.

بخش ويژگيها يا Features:
در اين بخش اطلاعاتي كه در مورد ويژگيهاي توالي است ميايد. طول توالي، محل توالي رمزكننده پروتئين (CDS) و اگزونها (در صورت وجود)، گوناگوني در توالي (Variation)، توالي پروتئين رمز شده توسط آن توالي نوكلئوتيدي و مانند آنها در اين بخش فهرست ميشوند.

توالي يا Sequence:
با ارائه آماري از انواع نوكلئوتيد و پس از كلمه Origin توالي شروع ميشود. اعداد در سمت چپ توالي موقعيت باز كنار آن در طول توالي را نشان ميدهد. توالي ممكن است به كوچكي يك اولگيونوكلئوتيد (بيش از ۲۰ جفت باز) در قسمت STS تا به بزرگي ميليونها باز (تواليهاي كروموزمهاي به دست آمده از پروژههاي ژنوم) باشد.

ساير انواع ركوردهايGenBank:
-
دادههای EST : http://www.ncbi.nlm.nih.gov/dbEST/index
قسمت برچسب های بياني توالیها (Expressed sequence tags) حاوي تواليهاي کوتاهي است كه معمولا یکبار توالی یابی شدهاند و مشتمل بر بخشي از توالي يك ژن هستند. این توالیها همچنين از آزمایشهای نمایش متفاوت (differential display) و RACE بدست می آیند. توضيح بيشتر اين نوع ركوردها در بخش ترانسكريپتوميكس خواهد آمد.


2- دادههای GSS: http://www.ncbi.nlm.nih.gov/dbGSS/index
در این قسمت توالی های بررسي ژنومی (Genome Survey Sequences) ذخيره می شود. توالی های GSS کوتاه بوده و یکبار توالی یابی شده اند. این توالی های تصادفي بوده و معمولا از انتهاهای کلونهای کاسمیدی و BAC بدست می آیند. توالی های مذکور در dbGSS ذخيره شده و از طریق قسمتGSS در GenBank نیز قابل دسترسی است. توالی و شماره دسترسی موجود در دو منبع مشابه بوده ولی شكل رکورد متفاوتی دارند.

3- دادههای STS: http://www.ncbi.nlm.nih.gov/dbSTS/index
قسمت برچسب جایگاه توالی (Sequence tagged sites) حاوی توالی های کوتاه و یگانه در ژنوم است.از این توالی ها برای ایجاد نقشه های ژنتیکی استفاده می شود. این توالی ها از طریق dbSTS و بخش STS GenBank قابل دسترسی می باشند.
۴- دادههای HTG: http://www.ncbi.nlm.nih.gov/HTG
این قسمت حاوی توالی های ژنومی است که توسط مراکز توالی یابی ژنومی در مقیاس وسیع بدست آمده است. این توالی ها از فازهای اتمام نیافته (صفر و 1 و 2) و اتمام یافته (فاز 3) هستند. از داده های موجود در این قسمت می توان براي جستجوی BLAST بر علیه بانک دادههای HTGs وmonth استفاده کرد که توالی آن در هر ماه به GenBank فرستاده می شود.
۵- دادههایdbSNP:http://www.ncbi.nlm.nih/SNP
این پایگاه پلی مورفیسم های تک نوکلئوتیدی را ذخیره می کند. حذف ها و تداخل های هر توالی، تکرارهای پلی مورفیک و تنوع میکروساتلیتی در این پایگاه قرار می گیرد.
۶- دادههای HTC: http://www.ncbi.nlm.nih/HTC
در ماه می سال 2000 سه پایگاه اطلاعاتی DDBJ، EMBL و GenBank برای ایجاد یک پایگاه جدید موافقت کردند. در این بخش توالی های cDNA قرار دارد که به صورت high throughput تولید شده اند و دارای بخش های 5’UTR، 3’UTR و یا بخشی از ناحیه رمز شونده (coding sequence ) می باشند. بعد از اتمام توالی یابی HTC ها، به بخش عمومي يا تاکسونومیک GenBank انتقال می یابند. توالیهای HTC در ورود به بخش تاکسونومیک واژه کلیدی HTC را در ابتدای خود دارند. اما پس از ورود این واژه از ابتدای توالی حذف می شود.
مجموعه توالی های مرجع استخراج شده از GenBank را گویند که تصحیح شده و غیر تکراری هستند. يعني برخلاف GenBank، در پايگاهRefseq هر رکورد مربوط به یک ژن یا فرم پیرایش شده از یک ژن میباشد. در بانک دادههای RefSeq شماره دسترسی هر مولکول با دستوري ویژه تعيين ميشود که در جدول زیر مشخص شده است.

نمونهاي از محتويات يك ركورد RefSeq كه بسيار مشابه ركوردهاي GenBank ميباشد در ذيل آمده است.

معرفی بانک اطلاعاتی توالی DNA آزمایشگاه زیست مولکولی اروپا (EMBL)
پایگاه دادههای توالی نوکلئوتیدی EMBL توالیهاي DNA و RNA بدست آمده توسط پژوهشگران منفرد، يا پروژه های تعیین توالی ژنوم موجودات و توالی های موجود در Patentها را ذخیره کرده و امکان بازیابی آن را به کاربران می دهد. سرعت رشد دادههاي اين بانك و تقسيمبندي آن بسيار مشابه GenBank ميباشد (تصاوير زير).

نمونهاي از يك ركورد EMBL در زير آمده است. اجزاي مهم ركورد در روي شكل نشان داده شده است. دو حرف ابتداي هر سطر نشان دهنده Field آن داده است.
نمونهاي از ركوردهاي EMBL.


نویسنده : عبدالرشید زبـرجد