NCBI GenBank مشهورترين پایگاه داده های توالی نوکلئوتیدی و مستندات مربوط است كه به عنوان بخشی از کتابخانه ملی پزشکی (National Library of Medicine) در سال198۲ پایه گذاری شد. ابزارهای موجود براي دسترسي به داده‌هاي این پایگاه عبارتند از :BLAST (1990)، Entrez (1992)، GenBank (1992) و PubMed (1997). به دليل تسليم انواع داده‌هاي ژنومي، رشد اطلاعات در اين بانك بسيار سريع بوده است (شكل زير). به طور ميانگين، ماهانه ۳ ميليون توالي و ۱۴۰۰ گونه جديد به اين بانك اطلاعاتي افزوده مي‌گردد به طوري كه تقريبا هر ۱۰ ماه حجم اطلاعات آن دوبرابر مي‌شود.

همان‌ طور كه در بالا گفته شد، داده‌هاي این پایگاه با بانک داده های DNA ژاپن(DDBJ) و آزمایشگاه بیولوژی مولکولی اروپا (EMBL) در حال تبادل بوده و هر سه پایگاه اطلاعات خود را روزانه رد و بدل می‌کنند.

توجه: GenBank حاوي داده‌هاي تكراري و اضافي (مانند توالي‌هاي وكتوري) است. بخشي از آن به دليل تسهيل ورود اطلاعات بوده است اما دليل عمده آن مجاز نمودن تسليم توالي‌هاي مشابه تكراري از سوي آزمايشگاه‌هاي مختلف بوده است تا بتوان ذخيره‌اي از گوناگوني ژنتيكي (polymorphism) ايجاد نمود.

بخش های عمومی GenBank بر حسب نوع موجود كه به بخش‌هاي تاكسونوميك مشهورند عبارتند از:

BCT (Bacterial and Archeal)،

MAM (Mammalian)،

Inv (Invertebrate)،

PHG (Phage)،

PLN (Plant and Fungi)،

PRI (Primate)،

ROD (Rodent)،

SYN (synthetic=cloning vectors)،

VRL (Viral)

VRT (other vertebrate)

GenBank همچنین به دلايل فني (ماهيت حجيم و با كيفيت پايين داده‌ها) بخشي از اطلاعات خود را در قسمت‌هاي اختصاصی زیر ذخيره مي‌كند:

PAT (patents)،

EST (Expressed sequence tag)،

STS (sequence tagged site)،

GSS (Genome survey sequence)،

HTG (High throughput genome)

CON (Contig).

روش‌هاي تسليم داده به بانک های اطلاعاتی اولیه توالی نوكلئوتيدي

داده های موجود در GenBank و بانک های مشابه از دو طریق تامین می شود:

1- از تحقیقات پژوهشگران در دنیا

2- از مراکز توالی یابی ژنوم‌ها در دنیا به شکل های مختلف EST، STS ،GSS ،HTC و توالی‌هاي بلند موجود در کاسمید ها و BAC کلون ها.

راه های زیر برای دریافت توالی وجود دارد:

داده‌هاي كم حجم و معمولا مشتمل بر يك توالي با استفاده از نرم‌افزار Sequin و حجم انبوه داده‌هاي ژنومي با استفاده از نرم‌افزار Bankitتسليم مي‌شوند. تسليم اطلاعات از طرق On-line (WWW) يا email و يا حتي ارسال فلاپي ديسك امكان‌پذير است. همان طور كه در شكل زير ديده مي‌شود، داده ها اكثرا از طريق WWW تسليم مي‌شوند.



  • WWW

  • Bankit

  • WebIn

  • Sakura

  • Sequin


  • e-mail

  • Sequin


  • Diskette

  • Sequin

توجه:

    • تسليم توالي‌هاي كوتاه cDNA مانند نتايج آزمايش‌هاي نمايش تفرقي بيان ژن‌ها (Differential display) و يا EST ها از طریق بانک EST ها و روال مربوط انجام می شود.

    • از اول ژانویه 2000 توالی های ژنومی بلند GSS از طریق BanKit پذیرفته نمی شوند و باید در dbGSS فرستاده شوند.



اجزاي يك ركورد GenBank:

هر رکورد معمولي GenBank از سه قسمت تشکیل شده است:

Header: اطلاعات ویژه یک توالی در آن قرار گرفته است؛

Features: در این بخش Annotation های یک رکورد نمایش داده می شود؛

Sequence: توالی رکورد را نشان می دهد.


بخش عنوان يا Header:

اين بخش از ركورد حاوي اطلاعاتي نظير نام لوكوس (كه گاهي همان شماره دسترسي است)، نوع مولكول، زمان تسليم اطلاعات، تعريف حاوي نام توالي، شماره دسترسي، شماره نسخه (شماره دسترسي باضافه يك عدد براي نشان دادن دفعات اصلاح آن ركورد)، منشاء توالي و تاكسونومي موجود منشاء، كليد واژه‌ها، آدرس مقالات مربوط مي‌باشد. شماره دسترسي مهمترين جزء اين قسمت است زيرا تنها اين شماره يگانه بوده و بهترين گزينه براي مراجعه مجدد به اين ركورد مي‌باشد.

 



بخش ويژگي‌ها يا Features:

در اين بخش اطلاعاتي كه در مورد ويژگي‌هاي توالي است مي‌ايد. طول توالي، محل توالي رمزكننده پروتئين (CDS) و اگزون‌ها (در صورت وجود)، گوناگوني در توالي (Variation)، توالي پروتئين رمز شده توسط آن توالي نوكلئوتيدي و مانند آنها در اين بخش فهرست مي‌شوند.

 



توالي يا Sequence:

با ارائه آماري از انواع نوكلئوتيد و پس از كلمه Origin توالي شروع مي‌شود. اعداد در سمت چپ توالي موقعيت باز كنار آن در طول توالي را نشان مي‌دهد. توالي ممكن است به كوچكي يك اولگيونوكلئوتيد (بيش از ۲۰ جفت باز) در قسمت STS تا به بزرگي ميليون‌ها باز (توالي‌هاي كروموزم‌هاي به دست آمده از پروژه‌هاي ژنوم) باشد.

 


ساير انواع ركوردهايGenBank:

  1. داده‌های EST : http://www.ncbi.nlm.nih.gov/dbEST/index

قسمت برچسب های بياني توالی‌ها (Expressed sequence tags) حاوي توالي‌هاي کوتاهي است كه معمولا یکبار توالی یابی شده‌اند و مشتمل بر بخشي از توالي يك ژن هستند. این توالی‌ها همچنين از آزمایش‌های نمایش متفاوت (differential display) و RACE بدست می آیند. توضيح بيشتر اين نوع ركوردها در بخش ترانسكريپتوميكس خواهد آمد.

 






2- داده‌های GSS: http://www.ncbi.nlm.nih.gov/dbGSS/index

در این قسمت توالی های بررسي ژنومی (Genome Survey Sequences) ذخيره می شود. توالی های GSS کوتاه بوده و یکبار توالی یابی شده اند. این توالی های تصادفي بوده و معمولا از انتهاهای کلون‌های کاسمیدی و BAC بدست می آیند. توالی های مذکور در dbGSS ذخيره شده و از طریق قسمتGSS در GenBank نیز قابل دسترسی است. توالی و شماره دسترسی موجود در دو منبع مشابه بوده ولی شكل رکورد متفاوتی دارند.





3- داده‌های STS: http://www.ncbi.nlm.nih.gov/dbSTS/index

قسمت برچسب جایگاه توالی (Sequence tagged sites) حاوی توالی های کوتاه و یگانه در ژنوم است.از این توالی ها برای ایجاد نقشه های ژنتیکی استفاده می شود. این توالی ها از طریق dbSTS و بخش STS GenBank قابل دسترسی می باشند.

۴- داده‌های HTG: http://www.ncbi.nlm.nih.gov/HTG

این قسمت حاوی توالی های ژنومی است که توسط مراکز توالی یابی ژنومی در مقیاس وسیع بدست آمده است. این توالی ها از فازهای اتمام نیافته (صفر و 1 و 2) و اتمام یافته (فاز 3) هستند. از داده های موجود در این قسمت می توان براي جستجوی BLAST بر علیه بانک داده‌های HTGs وmonth استفاده کرد که توالی آن در هر ماه به GenBank فرستاده می شود.

۵- داده‌هایdbSNP:http://www.ncbi.nlm.nih/SNP

این پایگاه پلی مورفیسم های تک نوکلئوتیدی را ذخیره می کند. حذف ها و تداخل های هر توالی، تکرارهای پلی مورفیک و تنوع میکروساتلیتی در این پایگاه قرار می گیرد.

۶- داده‌های HTC: http://www.ncbi.nlm.nih/HTC

در ماه می سال 2000 سه پایگاه اطلاعاتی DDBJ، EMBL و GenBank برای ایجاد یک پایگاه جدید موافقت کردند. در این بخش توالی های cDNA قرار دارد که به صورت high throughput تولید شده اند و دارای بخش های 5’UTR، 3’UTR و یا بخشی از ناحیه رمز شونده (coding sequence ) می باشند. بعد از اتمام توالی یابی HTC ها، به بخش عمومي يا تاکسونومیک GenBank انتقال می یابند. توالی‌های HTC در ورود به بخش تاکسونومیک واژه کلیدی HTC را در ابتدای خود دارند. اما پس از ورود این واژه از ابتدای توالی حذف می شود.

مجموعه توالی های مرجع استخراج شده از GenBank را گویند که تصحیح شده و غیر تکراری هستند. يعني برخلاف GenBank، در پايگاهRefseq هر رکورد مربوط به یک ژن یا فرم پیرایش شده از یک ژن می‌باشد. در بانک داده‌های RefSeq شماره دسترسی هر مولکول با دستوري ویژه تعيين مي‌شود که در جدول زیر مشخص شده است.



نمونه‌اي از محتويات يك ركورد RefSeq كه بسيار مشابه ركوردهاي GenBank مي‌باشد در ذيل آمده است.

 


 

معرفی بانک اطلاعاتی توالی DNA آزمایشگاه زیست مولکولی اروپا (EMBL)

پایگاه داده‌های توالی نوکلئوتیدی EMBL توالی‌هاي DNA و RNA بدست آمده توسط پژوهشگران منفرد، يا پروژه های تعیین توالی ژنوم موجودات و توالی های موجود در Patentها را ذخیره کرده و امکان بازیابی آن را به کاربران می دهد. سرعت رشد داده‌هاي اين بانك و تقسيم‌بندي آن بسيار مشابه GenBank مي‌باشد (تصاوير زير).

 
 
صفحه اصلی

www.ibp.ir

پرتال بیوانفورماتیک ایرانیان

 


 

نمونه‌اي از يك ركورد EMBL در زير آمده است. اجزاي مهم ركورد در روي شكل نشان داده شده است. دو حرف ابتداي هر سطر نشان دهنده Field آن داده است.

نمونه‌اي از ركورد‌هاي EMBL. 

 

 
 

 

 

 

 منبع:

www.ibp.ir

پرتال بیوانفورماتیک ایرانیان