خبر 26مرداد 1402
آتشسوزی در منطقه «سردره» پاوه از روز گذشته آغاز شد که متأسفانه به علت وزش باد گسترده، مراتع منطقه را با سرعت به کام خود می کشید.
کاهش پرورش بز و جلوگیری از چرای دام در مرتع یکی از دلایل آتش سوزی است. بز با خوردن سرشاخه ها و بوته ها از گیاهانی مصرف می کند که قابلیت آتش گیری دارند. تجارب استرالیا نیز نشان داده که چراندن بز در مرتع جهت جلوگیری از آتش سوزی موثر است.
آنالیز داده های ژنومی با مدل مختلط خطی تک متغیره و چند متغیره در نرمافزار MTG2
وحید جلیلی1 و سید عباس رافت2
1 دانشجوی کارشناسی ارشد، گروه علوم دامی دانشکده کشاورزی دانشگاه تبریز
2 استاد گروه علوم دامی، دانشکده کشاورزی، دانشگاه تبریز
نویسنده مسئول: Email:vahidjalili1373@gmail.com
در چند سال اخیر نرمافزارهای آماری و ژنتیکی بسیاری برای مقاصد مختلف تدوین شده و در اختیار کاربران مربوطه قرار داده شده است. در سالهای اخیر به علت مواجهه با سونامی دادهها به خصوص در بخشهای ژنتیکی و اصلاح نژادی ما نیازمند یک نرمافزار قوی برای آنالیز دادهها هستیم هدف از این تحقیق معرفی نرمافزاری است که بتواند داده های بزرگ در زمان کمتری آنالیز کند و برخی از نرمافزارها به علت بالا بودن زمان محاسباتی بیشتر مورد استفاده قرار نمیگیرد و به همین خاطر در سالهای اخیر نرمافزارهایی که میتوانند دادههای بزرگ را در زمان کمتری آنالیز کنند، طرفداران زیادی دارند در علوم دامی بخصوص ژنتیک و اصلاح نژاد دام تعداد نرمافزارهای تخصصی برای مقاصد آماری و برآورد پارامترهای ژنتیکی نیز کم نبوده که می توان از بین آنها به نرمافزارهای آموزشی (Gregore, SIP, GENUP) و نرم افزارهای براورد پارامترهای ژنتیکی و اجزای واریانس (DMU ،Matvec،WOMBAT،DFREML،MIXEDprocedure،MTDFREML،Quercus) و اجزایکواریانس (GSED,GENEPOP, BOTTLENECK) و نرمافزارهای ژنتیک جمعیت ASReml وThrgibbsf90 ، و نرم افزارهای آنالیز لینکاژی و تشخیص و نقشه یابی(MQTL ،DnaSP ،POPGENE, QTL, Multimapper) اشاره کرد. انتخاب نرم افزار به سلیقه، هدف کاربر در تحقیق و هزینه ای که برای تحقیق در بخش مورد نظر پرداخت می کند، بستگی دارد. در سالهای اخیر بدلیل بزرگ بودن دادهها بخصوص در بخش ژنتیک، محققین به دنبال نرمافزاری هستند که با هزینه کمترین زمان آنها به هدف خود برساند که از این لحاظ MTG2 نسبت به بقیه نرمافزارها برتری دارد. به طور کلی، MTG2 یک برنامه (نرم افزار) کامپیوتری است که با به اجرا در آوردن یک مدل مختلط خطی چند متغیره میتواند ساختارهای کواریانس پیچیده را با استفاده از اطلاعات ژنومی تهیه کند.
کلمات کلیدی: تکنیک تجزیه باقیمانده، ژنتیک و اصلاح نژاد ، نرمافزارهای آماری و ژنتیکی،، MTG2
MTG2[1] همان ورژن چند متغیره از GCTA-REML است که میتواند REML را برای واریانس ژنتیکی و محیطی و کواریانس بین چند صفت را با بهترین پیشبینی نااریب خطی[2] برای شایستگی ژنتیک کمی تخمین بزند (lee and van der werf, 2016). پیشرفتهای حاصل در زمینه ژنتیک کمی و بهبود ژنتیکی دام ها تا حد زیادی مدیون توسعه روش های مناسب در برآورد پارامترها و آنالیز آماری صفات کمی است. این روش ها را می توان به دو دسته کلی روش های فراوانی گرا (کلاسیک) و بیزین تقسیم کرد که هر چند ممکن است در بعضی موارد نتایج حاصل از دو روش با هم مشابه باشند، ولی به هر حال، این روش ها از دو دیدگاه فلسفی متفاوت پیروی میکنند که به همین خاطر این روش ها، تحت عنوان دو مکتب کلاسیک و بیزین تقسیم بندی می شوند. روش هایی که بیشتر ما در برآورد ارزش های اصلاحی یا مؤلفه های واریانس با آنها آشنا هستیم عمدتاً از مکتب کلاسی کمی باشد. به طور بسیار خلاصه در مکتب کلاسیک فرض بر این است که هر صفت تحت تأثیر دو سری عوامل ثابت و تصادفی قرار می گیرند، یکسری داده جمع آوری میشوند و با استفاده از آنها پارامترهای نامعلوم برآورد میشوند. کاربرد معمول mtg2 در آنالیز دادهای (نا)متعادل تکرار شده در طول زمان، آنالیز طرحهای آزمایشی (نا)متعادل، آنالیز آزمایشات محیطی، آنالیز مدلهای یک و چند متغیره در ژنتیک و اصلاح نژاد دام میباشد .ترکیب الگوریتم AI[3] مستقیم با یک تجزیه ویژه از ماتریس خویشاوندی ژنتیکی، که برای اولین بار توسط تامسون و شآو در سال 1990 پیشنهاد شد (Thompson and Shaw 1990)، در MTG2 به کار گرفته شده است . با به کار گیری مدلهای تکمتغیره و چندمتغیره و مدلهای مختلط خطی رگرسیون تصادفی با یک ساختار کواریانس ژنتیکی اثبات شد که کارآیی محاسباتی میتواند تا 1000< برابر در مقایسه با برنامههای بر پایه [4]MME افزایش یابد((lee and van der werf, 2016 بعلاوه در برآورد بیان واریانس ژنتیکی به وسیله مارکرهای ژنتیکی(مثل اسنیپها و غیره)، AI به عنوان یه الگوریتم ژنتیکی کارآمد برای برآورد تخمین REML معرفی شده است(lee and van der werf, 2006 And Lee et al. 2012 ) . با توجه به کارهای انجام شده در مورد AI، نشان داده شده است که پیادهسازی الگوریتم AI به صورت مستقیم از نظر ریاضی آسان و از نظر محاسباتی خیلی کارآمد است (به خصوص در مدلهای مختلط خطی چند متغیره) (Lee and J.H.J van der Werf, 2016).
دستورات استفاده شده در MTG2 یک تغییر ساده از سینتکس Plink و GCTA است. در این نرمافزار، از مدلهای مختلط خطی و مدلهای رگرسیونی تصادفی برای تخمین واریانس-کواریانس ژنتیکی بین صفات چندگانه و صفات بیان شده در محیطهای مختلف، استفاده میشود.
دو محدودیت اصلی برای mtg2 و GEMMA وجود دارد که آن عدم داشتن توانایی حل تکنیک تجزیه ویژه با بیش از یک [5]GRM است و در صورت انجام مدل هایی با چند GRM به علت عدم استفاده از تکنیک تجزیه ویژه، این عمل به کندی انجام میگیرد.
جدول 1: مقایسه زمان محاسباتی توسط 4 نرمافزار کاربردی در هنگام استفاده از دادههای 1908 موش (lee and van der werf, 2016) |
فایلهای مورد استفاده در mtg2، شبیه به نرمافزارهایی همچون Plink یا GCTA است. برای کسب اطلاع از نحوه ساخت یا آشنایی بیشتر با این نرمافزار شما میتوانید به سایت https://sites.google.com/site/honglee0707/mtg2 یا https://www.cog-genomics.org/plink/2.0/formats مراجعه فرمایید.
مدل و تکنیک مَد نظر محقق تعیین کننده فرمول یا سینتکس مورد استفاده در MTG2 است مثلا فرمول یا کُد یا دستور استفاده شده برای مدلهای خطی به همراه تکنیک تجزیه ویژه متفاوت از مدل مختلط بدون تجزیه ویژه است.
Mtg2 از cmd به عنوان کامپایلر (زمینه اجرایی) استفاده می کند پیش از شروع کار و ورود دستورات مورد نظر در mtg2، ابتدا باید تمام فایل مورد نیاز برای دستور مورد نظر را در یک پوشه مجزا قرار داده و با استفاده از دستورcd در cmd آدرس فایل مورد نظر را معرفی کنید و سپس میتوانید مدلهای مختلف را با سینتکسهای مربوطه در نرمافزار بیاورید.
سینتکس یا دستور کلی استفاده شده در MTG2 طبق دستور زیر است فقط چند تفاوت اساسی دارد که در ادامه به آن میپردازیم.
در صورت استفاده از مدل مختلط خطی تک متغیره و چند متغیره با تکنیک تجزیه ویژه، از آپشن –eig برای معرفی فایل grm استفاده میکنیم که باعث میشود mtg2 با تشکیل ماتریس بردار ویژه و ارزش ویژه این مدل را در زمان کمتری انجام دهد. ماتریس ارزش ویژه و بردار ویژه را میتوان با دستور زیر در mtg2 ساخت.
در صورت استفاده از مدل مختلط خطی چند متغیره با مدلسازی کواریانس باقیمانده، بدلیل وجود فنوتیپهای چندگانه صفات مختلف از آپشن cov1 استفاده میکنیم. این آپشن را میتوان همراه با روش تجزیه ویژه نیز به کار برد که در دستور زیر هر دو دستور آورده شده است.
در مدل مختلط خطی رگرسیون تصادفی همه فایلهای مورد نیاز برای استفاده کردن از این مدل شبیه به مدل مختلط خطی است فقط یک فایل با فرمت .par در این مدل وجود دارد که باعث متمایز بودن این مدل از مدل چند متغیره میشود که با دستور -rrm برای برنامه شناسانده میشود. این فایل از دو خط (یا ردیف) تشکیل شده است که خط اول نشانگر مرتبه برای چند جملهای لژاندر برای هر اثر تصادفی است. و خط دوم ارزشهای متناظر برای هر محیط یا شرایط مورد آزمایش است.
در هنگام استفاده از مدل رگرسیون تصادفی ، در صورت استفاده از ماتریس طرح متعادل در محیط های مختلف (بدون داده گمشده یا NA) و همراه با grm واحد، زمان محاسباتی را میتوان با بکارگیری تکنیک تجزیه ویژه کاهش داد.
مدل رگرسیون تصادفی با مدلسازی کواریانس باقیمانده زمانی استفاده میشود که فنوتیپهای چندگانه در محیطهای مختلف(اندازهگیری مکرر) وجود داشته باشد که نیازمند به یک مدلسازی کواریانس از باقیماندهها هستیم که میتوان با استفاده از یک مدل اثرات تصادفی چندگانه که شامل grmهای با ماتریس متعادل است، آن را انجام داد. برای اجرای این مدل نیازمند فایل با فرمت .txt که با کُد –mg شناسانده میشود، هستیم که این فایل دارای اسم فایلهای grm است. با استفاده از این فایل برنامه میتواند مدل را با استفاده از grm چندگانه انجام دهد. دستور مدل رگرسیون تصادفی با و بدون استفاده از تکنیک تجزیه ویژه به صورت زیر است.
تمام فایلهای مورد استفاده در مدل رگرسیون تصادفی با تابع اسپلاین (جزو توابع چندضابطه ای-چندجملهای است) شبیه مدل مختلط خطی چند متغیره است با تفاوت بر این که در این مدل از یک فایل به فرمت.par نیز استفاده میکنند که با کُد spl شناسانده میشود. این فایل از سه لاین یا ردیف یا خط تشکیل شده است که لاین اول مربوط به تعداد گره برای تابع اسپلاین برای هر اثر تصادفی است و لاین دوم مربوط به ارزشهای متناظر برای هر محیط و لاین سوم مکان یا محل هر گره را نشان میدهد.
دستور کلی و دستور برای یک مثال با 4 ارزش متناظر برای هر محیط در مدل رگرسیون تصادفی با تابع اسپلاین به صورت زیر است. در این مدل میتوان از با استفاده از تکنیک تجزیه ویژه و مدلسازی کواریانس باقیمانده زمان محاسباتی را به حداقل رساند.
در صورت استفاده از مدل رگرسیون تصادفی چندمتغیره ما نیازمند فایل با فرمت 0par هستیم که با آپشن –rrm شناسانده میشود. برای مثال در شکل مقابل ما فایل با فرمت .par داریم که دارای 5 ردیف است که اعداد در لاین اول نشانگر تعداد سایت برای هر صفت است که در شکل روبرو برای هر صفت 4 سایت وجود دارد و لاین دوم مرتبه چندجملهای لژاندر k=2 را برای اثرات تصادفی نشان میدهد. لاین سوم نشانگر ارزشهای متناظر برای محیط متناظر برای صفت اول است (مثلا زمان اندازه گیری سطح گلوکز خون بعد از تزریق درون صفاقی در بررسی سانگ هونگ لی و همکاران در2016) است. و لاین سوم و چهارم به همین ترتیب برای صفت دوم است. برای کاهش زمان محاسباتی در این مدل میتوانیم از تکنیک تجزیه ویژه در این مدل استفاده کرد.
دستور کلی و دستور یک مثال(اسم فایلهای استفاده شده در این مٍثال example5 است) برای مدل رگرسیون تصادفی چندمتغیره به صورت زیر است.
وقتی فرد فنوتیپهای چندگانه میان محیط های مختلف دارد (اندازهگیری مکرر) نیاز به یک مدل برای کواریانس باقیمانده است تا مدلی برای اثرات تصادفی چندگانه با محتوی یک grm در ماتریس واحد را انجام دهد. در همچین شرایطی از مدل رگرسیون تصادفی چندمتغیره با کواریانس باقیمانده میان محیطها استفاده میشود. در این مدل باید فایل با فرمت .rtmx یک فایل متنی باشد. این فایل دارای اسم فایلهای grm است. برای کاهش زمان محاسباتی در این مدل نیز میتوانیم از تکنیک تجزیه ویژه استفاده کنیم. برای اجرای این مدل از دستور (اسم فایلهای استفاده شده در این مٍثال example5 است) زیر استفاده میشود.
در صورت وجود فنوتیپهای چندگانه بین صفات برای افراد، نیاز به یک مد بای محاسبه کواریانس باقیمانده بین صفات است، که می تواند با –cov1 بدست آورده شود که در این صورت باید از مدل رگرسیون تصادفی چند متغیره با کواریانس باقیمانده میان کواریانس محیطی و کواریانس باقیمانده بین صفات استفاده کرد. هر سه آپشن موجود در این مدل یعنی –eig ، -rrm و –cov ، به صورت قابل ملاحظهای زمان محاسباتی توسط برنامه را کاهش میدهند.
Mtg2 دارای آپشنهای اضافی زیادی است که میتواند برای سهولت انجام محاسبه در دستور نرمافزار به کار برده شود که بدلیل زیاد بودن مطالب نمیتوانیم در این تحقیق ذکر کنیم ولی میتوانید با از سایت نرمافزار مربوطه نسبت به این موارد آشنایی بیشتری داشته باشید.
همان طور که از تحقیق لی و همکاران در سال (2016) مشاهده شد در هنگام به اجرا در آوردن رگرسیون تصادفی و مدل مختلط خطی چند متغیره، MTG2 این مدلها را در زمان پایینتری انجام میدهد در حالی برنامه برنامه های مشابه آن زمان بالاتری را صرف انجام مدلهای مشابه نشان میدهند. و در صورت افزایش صفات یا مرتبه مدل تغییر چندانی در زمان محاسباتی توسط MTG2 ایجاد نمیشود ولی سایر برنامههای مشابه افزایش قابل ملاحظهای در زمان محاسباتی نشان میدهند. همان طور که در جدول 1 مشاهده میشود GEMMA عملکردی برای مدل رگرسیون تصادفی ندارد در حالی که MTG2 این مدل را در زمان پایینتری نسبت به برنامههای مشابه انجام میدهد. و چون در دهههای بعدی با موج عظیمی از دادهها سروکار خواهیم داشت پس نیازمند یک نرمافزار قویتری هستیم . در این بین mtg2 میتواند بهترین جایگزین برای نرمافزارهای مشابه باشد.
Lee, S. H., & Van der Werf, J. H. (2016). MTG2: an efficient algorithm for multivariate linear mixed model analysis based on genomic information. Bioinformatics, 32(9), 1420-1422.
Lee S.H., Van der Werf J.H.J. (2006) An efficient variance component approach implementing an average information REML suitable for combined LD and linkage mapping with a general complex pedigree. Genet Sel. Evol., 38, 25–43.
Lee, S. H., Yang, J., Goddard, M. E., Visscher, P. M., & Wray, N. R. (2012). Estimation of pleiotropy between complex diseases using single-nucleotide polymorphism-derived genomic relationships and restricted maximum likelihood. Bioinformatics, 28(19), 2540–2542.
Sharrett A.R. (1992) The Atherosclerosis Risk in Communities (ARIC) Study. Introduction and objectives of the hemostasis component. Ann. Epidemiol., 2, 467–469.
Thompson E.A., Shaw R.G. (1990) Pedigree analysis for quantitative traits: variance components without matrix inversion. Biometrics, 46, 399–413.
Lee, S. H. MTG2 manual. https://sites.google.com/site/honglee0707/mtg2