معلومة

معنى التحقق من صحة تجربة ميكروأري

معنى التحقق من صحة تجربة ميكروأري


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

لدي سؤال سريع: ماذا يعني التحقق من صحة تجربة ميكروأري؟

كنت أقرأ ورقة يقولون فيها أن بيانات التجربة تظهر أن الجينات الثلاثة radB و dp1 و dp2 يتم تنظيمها بشكل مشترك بعد تشعيع جاما "التحقق من صحة تجربتنا ميكروأري".

حاولت أن أجد شيئًا ما في Google لكنه لم يتضح بعد.


ميكروأري قليل النوكليوتيد

19.3 المناقشة

الميزة الرئيسية لمصفوفة ميكروأري قليلة النوكليوتيد هي قدرتها على اكتشاف مسببات الأمراض المتعددة والجديدة في اختبار واحد. تعمل التحسينات التقنية في التضخيم غير المحدد وإزالة الحمض النووي الريبي المضيف على تحسين الحساسية ، وهو عامل مقيد رئيسي عند إجراء مقارنة مباشرة مع تقنيات مثل النسخ العكسي الخاص بالفيروس - تفاعل البوليميراز المتسلسل (RT-PCR). علاوة على ذلك ، ساهم برنامج تصميم المجس المحسن أيضًا في زيادة الحساسية ، وبسط تصميم قليل النوكليوتيدات استجابة لظهور مسببات الأمراض الجديدة. أصبحت إضافة مجسات جديدة إلى مصفوفة ميكروأري عالية الكثافة الآن سريعة وغير مكلفة نسبيًا ، مما يسمح بالاستجابة في الوقت المناسب للتغيرات في وبائيات المرض.

بالنسبة لفيروسات lyssavirus ، لا تميز اختبارات المعيار الذهبي الحالية بين الأنواع المختلفة ، حتى عندما يكون الفيروس قابلاً للاسترداد من العينات السريرية. يوفر التسلسل الآلي لمبليكونات تفاعل البوليميراز المتسلسل ، أو تسلسل الجيل التالي ، بدائل محتملة للأنواع ، ولكنها قد تكون مكلفة وتتطلب مستويات عالية من الخبرة واستثمارات رأسمالية كبيرة. تقدم المصفوفات الدقيقة قليلة النوكليوتيد بديلاً يتطلب خبرة أقل نسبيًا وبأسعار معقولة من قبل المختبرات الأصغر. هذا مهم بشكل خاص في حالة وجود أكثر من فيروس ليسسا وتم تشخيص المريض بداء الكلب. في السنوات الأخيرة ، تطلبت الوفيات البشرية بسبب الإصابة بفيروس الخفافيش الأوروبي من النوع 2 (EBLV-2) وفيروس Duvenhage (DUVV) وفيروس Irkut تحقيقًا مكثفًا لتأكيد العامل المسبب لتقديم طمأنة لسلطات الصحة العامة بأن RABV كان غير مسؤول.

من الواضح أن العيب الرئيسي لمصفوفة ميكروأري قليلة النوكليوتيد ، لا سيما في انتشاره إلى أجزاء من العالم حيث تسبب فيروسات lyssavirus و RABV المرض. الاستثمار الأولي مطلوب لشراء معدات محددة لتضخيم الحمض النووي والتهجين والماسحات الضوئية لقياس شدة الإشارة. التكاليف المستهلكة والكواشف ، بما في ذلك تكلفة شرائح ميكروأري ، هي أيضًا عائق أمام الإدخال ، بالإضافة إلى تكلفة التدريب وصيانة المهارات للموظفين لإجراء الفحص. يعد اكتشاف الفيروسات بالميكروأري أبطأ إلى حد كبير عند مقارنته بالتقنيات الأخرى ، مثل RT-PCR في الوقت الحقيقي ، وهذه التكنولوجيا هي التي تهيمن على الابتكارات في تشخيص داء الكلب مع الانتشار التدريجي في العالم النامي.

في الختام ، تم تطبيق المصفوفات الدقيقة قليلة النوكليوتيد للكشف عن RABV والأعضاء الآخرين من جنس فيروس ليسسا ، 6،23 ولديها القدرة على تحديد أنواع فيروس ليسسا في عينة معينة. ومع ذلك ، فإن العوائق التي تحول دون تطبيقه على نطاق واسع ، بخلاف النظام الأساسي للفيروسات الشاملة أو منصة مسببات الأمراض الشاملة ، كبيرة ، ومن غير المحتمل أن تجد مصفوفة قليلة النوكليوتيد الدقيقة تطبيقًا واسع النطاق في اكتشاف RABV كاختبار تشخيصي.


نماذج الشيخوخة من ذبابة الفاكهة

ساتومي ميوا ، آلان كوهين ، في دليل النماذج لشيخوخة الإنسان ، 2006

تحليل ميكروأري

تحليل المصفوفة الدقيقة هو طريقة تستخدم رقائق الجينات التي يمكن لآلاف من الرنا المرسال أن ترتبط بها ويمكن قياسها كمياً. باستخدام هذه الرقائق لتحديد مستويات الرنا المرسال في الأنسجة المختلفة أو في الأفراد الخاضعين للعلاجات المختلفة ، يمكن تحديد عشرات أو مئات الجينات المحددة التي تختلف فيما يتعلق بالأنسجة أو العلاج ، مما يساعد في فهم ميكانيكي للاختلافات. يمكن بعد ذلك إجراء مزيد من العمل باستخدام مناهج تحديد المواقع المرشح (انظر أدناه). على عكس QTL ، الذي ينظر في التباين الأليلي ، ينظر تحليل المصفوفة الدقيقة في تنظيم الجينات: يحتمل ، ولكن ليس بالضرورة ، نتيجة للتباين الأليلي.

كما هو الحال مع QTLs ، يجب توخي الحذر ليس فقط للتحكم في الخلفية الجينية والبيئة ، ولكن أيضًا لقصر تفسير النتائج على الخلفية الجينية والبيئة المدروسة. أيضًا ، يجب أن نتذكر أن تحليل المصفوفة الدقيقة مترابط بطبيعته ، وأن مزيدًا من الدراسة للأنماط ضروري بشكل عام للتفسير الواضح. ومع ذلك ، يظل تحليل المصفوفة الدقيقة أحد أقوى التقنيات لفحص العمليات الجينية الكامنة وراء التباين الفسيولوجي.

ذبابة الفاكهة على وجه الخصوص مناسبة تمامًا لتحليل المصفوفة الدقيقة (أ) لأن الجينوم صغير نسبيًا ، مما يعني أنه يمكن تحليل معظمها باستخدام مصفوفة ميكروية واحدة وأن الأنماط التي يحتمل أن تكون مهمة أقل احتمالا أن يتم تفويتها ، و (ب) لأن وظائف تمت بالفعل دراسة العديد من الجينات ، مما يسهل تفسير النتائج. تم استخدام تحليل ميكروأري في ذبابة الفاكهة لوصف تغيرات التعبير الجيني أثناء التقييد الغذائي ومع تقدم العمر (Pletcher وآخرون.، 2002 ).


معنى التحقق من صحة تجربة ميكروأري - علم الأحياء

8 ساعات بسبب الصيانة في مركز البيانات الخاص بنا. يمكن أن يكون هذا الفاصل الزمني أقصر اعتمادًا على تقدم العمل. نحن نعتذر عن أي شيء غير مناسب. *** --> *** سيتم إيقاف DAVID من الساعة 5 مساءً بتوقيت شرق الولايات المتحدة يوم الجمعة 6/24/2011 إلى الساعة 3 مساءً بتوقيت شرق الولايات المتحدة يوم الأحد 6/26/2011 بسبب الصيانة في مركز البيانات الخاص بنا. يمكن أن يكون هذا الفاصل الزمني أقصر اعتمادًا على تقدم العمل. نحن نعتذر عن أي شيء غير مناسب. *** --> *** نقبل حاليًا مستخدمي الإصدار التجريبي لخدمة الويب DAVID الجديدة التي تتيح الوصول إلى DAVID من لغات برمجة مختلفة. يرجى الاتصال بنا للحصول على الوصول. *** --> *** تم تغيير تعيين رمز الجينات لتحميل القائمة وتحويلها. يرجى الاطلاع على إعلان منتدى DAVID للحصول على التفاصيل. --> *** الإعلان عن خدمة ويب DAVID الجديدة التي تتيح الوصول إلى DAVID من لغات برمجة مختلفة. مزيد من المعلومات. *** --> *** سيتم إيقاف DAVID 6.8 للصيانة يوم الخميس الموافق 23/2/2016 من الساعة 9 صباحًا حتى 1 مساءً بتوقيت شرق الولايات المتحدة *** -->
*** مرحبًا بك في DAVID 6.8 ***
*** إذا كنت تبحث عن DAVID 6.7 ، فيرجى زيارة موقع التطوير الخاص بنا. ***
-->
*** مرحبًا بك في DAVID 6.8 مع قاعدة المعرفة المحدثة (مزيد من المعلومات). ***
*** إذا كنت تبحث عن DAVID 6.7 ، فيرجى زيارة موقع التطوير الخاص بنا. ***
-->
*** مرحبًا بك في DAVID 6.8 مع قاعدة المعرفة المحدثة (مزيد من المعلومات). ***
*** خادم DAVID 6.7 معطل حاليًا للصيانة. ***
--> *** يرجى القراءة: نظرًا لصيانة مركز البيانات ، سيكون DAVID غير متصل من الجمعة 17 يونيو @ 4 مساءً بتوقيت شرق الولايات المتحدة حتى يوم الأحد ، 19 يونيو مع إمكانية إعادة الاتصال بالإنترنت في وقت أقرب. *** -->


مناقشة

هنا ، قمنا بتقييم إمكانات RNA-seq للتنبؤ بنقاط النهاية السريرية مقارنة بالمصفوفات الدقيقة. لقد أنشأنا ملفات تعريف التعبير الجيني من 498 عينة من ورم الخلايا البدائية العصبية الأولية باستخدام RNA-seq والمصفوفات الدقيقة ، والتي تمثل ، على حد علمنا ، الوصف الأكثر شمولاً لنسخة كيان سرطاني واحد. نبرهن على أن ملامح التعبير الجيني للورم الأرومي العصبي معقدة للغاية ، بما يتوافق مع النتائج التي تم التوصل إليها في المشهد الترانسكريبتومي للخلايا البشرية الأخرى المنشورة مؤخرًا [9 ، 12 ، 30]. في مجموعة الورم الأرومي العصبي بأكمله ، وجدنا 48415 جينًا و 204352 نسخة يتم التعبير عنها ، والتي تضم 86.7٪ و 77.3٪ من جميع الميزات المشروحة في قاعدة بيانات AceView ، على التوالي. حددنا أيضًا & gt39000 exons جديدة للتعبير عنها في الورم الأرومي العصبي ، مما يوفر دليلًا إضافيًا على أن النسخة البشرية لا تزال تتجاوز التعقيد الذي تعكسه قواعد البيانات المرجعية الحالية مثل RefSeq و Gencode و AceView. كشفت مقارنة ملفات تعريف التعبير الجيني لأربع مجموعات فرعية سريرية وراثية رئيسية أن RNA-seq حدد ما يقرب من ضعف عدد DEGs مثل المصفوفات الدقيقة. من الجدير بالذكر أن DEGs المحددة بواسطة RNA-seq تتألف من 80.1 ٪ من DEGs المكتشفة بواسطة المصفوفات الدقيقة ، مما يشير إلى موثوقية تحديد DEGs بأي من الطريقتين. أحد أسباب الأرقام المتضاربة التي تلقاها RNA-seq والمصفوفات الدقيقة مشتق من حقيقة أن 6939 DEGs التي تم تحديدها بواسطة RNA-seq لم يتم تمثيلها بواسطة مسبار على المصفوفة الدقيقة. بالإضافة إلى ذلك ، لم يتم اكتشاف 4،776 DEGs بواسطة المصفوفات الدقيقة على الرغم من تمثيل الجينات بواسطة مسبار ، والذي قد يُعزى جزئيًا على الأقل إلى نهجنا التحليلي الذي كان يأخذ ملفات تعريف التعبير على مستوى النص في الاعتبار. مجتمعة ، تثبت دراستنا أن RNA-seq قادر على توفير رؤى أكثر تفصيلاً عن الخصائص النسخية للورم الأرومي العصبي من المصفوفات الدقيقة.

لمقارنة إمكانات النماذج المستندة إلى RNA-seq و microarray بشكل منهجي للتنبؤ بنقطة النهاية السريرية ، استخدمنا العديد من خطوط أنابيب التعليقات التوضيحية للبيانات ونظرنا في مستويات مختلفة من الميزات لإنشاء تسعة ملفات تعريف تعبيرية لكل عينة مستمدة من بيانات RNA-seq ، تكملها ملف تعريف تعبير واحد مشتق من تحليلات ميكروأري. لقد أنشأنا 360 نموذجًا تنبئيًا لست نقاط نهاية تغطي مجموعة واسعة من صعوبات التنبؤ. أظهر تقييم أداء التنبؤ في مجموعة التحقق أن نقطة النهاية تمثل العامل الأكثر صلة الذي يؤثر على أداء النموذج ، وهو ما يتماشى جيدًا مع نتائج دراسة MAQC-II [7]. على النقيض من ذلك ، لم تؤثر المنصة التقنية (أي ، RNA-seq مقابل المصفوفات الدقيقة) ولا خط أنابيب التعليقات التوضيحية لبيانات RNA-seq بشكل كبير على تباين أداء التنبؤ. بشكل جماعي ، تُظهر بياناتنا أن النماذج المستندة إلى RNA-seq والنماذج القائمة على ميكروأري تؤدي بشكل مشابه في التنبؤ السريري بنقطة النهاية.

لاحظنا أيضًا أن النماذج المستندة إلى مستويات الميزات المختلفة تنبأت بنقاط النهاية السريرية بدقة مماثلة. في المقابل ، تشير هذه النتيجة إلى أن النماذج المستندة إلى مستويات تقاطع exon تؤدي أداءً جيدًا على قدم المساواة مع النماذج القائمة على مستويات الجينات. قد تؤثر هذه النتائج على تطوير المصنفات القائمة على التعبير لاستخدامها في الإعدادات السريرية ، والتي يتم نقلها بشكل متكرر من التحليلات عالية الإنتاجية إلى المقايسات المستندة إلى RT-qPCR [6 ، 20]: في حين أن المقايسات القائمة على مستويات التعبير الجيني قد تفتقر إلى التحديد نظرًا لعدم اليقين بشأن متغيرات النسخ الأساسية ذات الصلة ، توفر تقاطعات exon التي تم تحديدها بواسطة RNA-seq مصدرًا لا لبس فيه لمعلومات التعبير لتطوير اختبارات تشخيصية محددة.

لا تدعم نتائجنا الفرضية القائلة بأن المعلومات النصية الأكثر شمولاً التي يوفرها RNA-seq بالمقارنة مع المصفوفات الدقيقة قد تحسن أداء التنبؤ القائم على التعبير الجيني بشكل عام. قد يكون التفسير المحتمل لهذه النتيجة أن التعقيد المتأصل لبيانات تسلسل الحمض النووي الريبي قد يعزز التأثيرات المفرطة في عملية تطوير النموذج ، مما يؤدي إلى أداء تنبؤ داخلي مفرط التفاؤل لا يمكن إعادة إنتاجه في مجموعات التحقق الخارجية [31]. ومع ذلك ، لاحظنا أن الارتباط بين أداء التحقق الداخلي والخارجي كان متطابقًا تقريبًا بالنسبة للنماذج المستندة إلى RNA-seq والنماذج المستندة إلى المصفوفة الدقيقة ، مما يشير إلى أن تأثيرات الإفراط في التركيب مستقلة عن النظام الأساسي التكنولوجي. يمكن الاستدلال على تفسير بديل لنتائجنا من الملاحظة التي تشير إلى أن نسبة الميزات المشروحة RefSeq في نماذج التنبؤ كانت في نطاق أو حتى أعلى من نسبتها في قاعدة بيانات AceView لمعظم نقاط النهاية. قد تشير هذه النتيجة إلى أن المعلومات التنبؤية للجينات المشروحة RefSeq التي تمثلها المصفوفات الدقيقة القياسية مشبعة ، وأن المعلومات التنبؤية لبيانات النسخ الأكثر تعقيدًا التي يوفرها RNA-seq زائدة عن الحاجة إلى حد كبير. وتجدر الإشارة ، مع ذلك ، إلى أن نماذج نقاط النهاية التي كان من الصعب التنبؤ بها (أي ، EFS HR ، OS HR) تميل بشكل غير متناسب إلى توظيف الميزات التي لم يتم شرحها في RefSeq ، مما يشير إلى أن هذه الميزات قد تساهم بشكل كبير في دقة التنبؤ في نقاط النهاية هذه.

كان كلا النموذجين المعتمدين على التعبير الجيني المشتق من تحليلات RNA-seq و microarray قادرين على التنبؤ بنتائج المريض في مجموعة الورم الأرومي العصبي بأكمله بدقة ، وبالتالي التحقق من صحة النتائج من الدراسات السابقة والتأكيد على فائدتها السريرية المحتملة لتقدير المخاطر في الورم الأرومي العصبي [16-18 ، 20 ]. والجدير بالذكر أننا لاحظنا أن النماذج التي تحتوي على 100 إلى 1000 ميزة في المتوسط ​​كان أداؤها أفضل من النماذج التي تحتوي على ميزات أقل. قد يجادل هذا الاكتشاف ضد الجهود الطموحة لتقليل أرقام الميزات في النماذج التنبؤية ، كما حدث في الماضي [20 ، 32]. بالإضافة إلى ذلك ، وجدنا أن أفضل النماذج أداءً كانت قادرة على التنبؤ بنتائج المرضى المعرضين لمخاطر عالية بدقة مماثلة للتوقيعات متعددة الجينات المنشورة سابقًا [18 ، 20 ، 33] ، وبشكل مستقل عن العلامات التنبؤية الحالية. في حين أن القيمة التنبؤية لمثل هذه التواقيع متعددة الجينات تحتاج إلى التحقق من صحتها في مجموعات الورم الأرومي العصبي المستقلة عالية الخطورة ، فقد تمثل هذه النتائج نقطة انطلاق لإنشاء تقييم للمخاطر قائم على العلامات الحيوية في هذه المجموعة الفرعية للمريض الصعبة.


أساليب

تطبيع

للتقييم التجريبي باستخدام E-MEXP-1091 و <"type": "entrez-geo" ، "attrs": <"text": "GSE12930" ، "term_id": "12930" >> GSE12930 ، مجموعات البيانات المنخفضة تم استخدام نهج [24] لتطبيع البيانات. ثم تم إجراء التطبيع حسب الجين بتوسيط بيانات التعبير بواسطة الوسيط. تم إجراء التحليل على جميع الجينات بغض النظر عن الأعلام.

GSEA والعالمية

تم إجراء جميع التحليلات في R [25]. تم استخدام مكتبة الموصل الحيوي [26] وحزمة GSEA 1.0 R [5]. بالنسبة للمنهجية العالمية ، تم استخدام وظيفة الاختبار العالمي في مكتبة الاختبارات العالمية لتحديد المسارات المهمة.

اختبار الترتيب

افترض أن هناك جينات M تنتمي إلى مسار. اطرح من كل قيمة تعبير جيني ، قيمة التعبير الوسيط التي تم الحصول عليها من مجموعات العلاج والمراقبة المشتركة. تعمل هذه العملية على محاذاة البيانات وبالتالي تحفيز التحليلات اللاحقة على أن تكون حساسة للتغيرات في المتوسط. بعد ذلك ، من أجل ي ذ الموضوع في المجموعة أنا، دع & # x003c9اي جاي، تمثل متجه الرتب لقيم كثافة المحاذاة لـ م الجينات في المسار. يضع

استخدام الرتب يخدم غرضين. أولاً ، يلتقط لكل موضوع ، نمط الارتباط لقيم التعبير المحاذاة. ثانيًا ، يسمح بإجراء تحليل غير معلمي لاحق.

بدافع من أساليب Feigin و Alvo [27] ، نقترح اختبار الإحصاء

حيث يشير رئيس الوزراء إلى تبديل المتجه. في ظل فرضية عدم وجود تغيير بين المجموعتين الإحصائية س يجب أن تكون صغيرة الحجم. يترك سObsتكون قيمة الإحصاء المرصود.

بعد ذلك ، نقترح اختبار التقليب بناءً على س. في ظل الفرضية الصفرية التي تقول إنه لم يحدث أي تغيير ، فإن الموضوعات في المجموعتين قابلة للتبادل. ومن ثم ، فإننا نحسب لكل اختيار ن1مواضيع من ن قيمة الإحصاء س. ثم يتم إعطاء قيمة p الاسمية كـ

عندما يكون العدد الإجمالي للتبديلات الممكنة كبيرًا ، نختار عشوائيًا 1000 تبديل من بينها.

اختبار الرتبة المعدل

يتم تحديد اختبار التصنيف بشكل مستقل عن الجينات الأخرى الموجودة في المصفوفة الدقيقة. اعتبر إيفرون وتبشيراني [28] فرضيتين مختلفتين فيما يتعلق بمشكلة تقييم الأهمية الإحصائية للمسار. تنص فرضية العدم العشوائي على أن ملف م تم اختيار الجينات في مسار الاهتمام بشكل عشوائي من المصفوفة. ومن ثم ، يتم الحصول على التوزيع الفارغ لإحصاء الاختبار من خلال النظر في قيمته على جميع المجموعات الممكنة من م الجينات في المصفوفة. من ناحية أخرى ، لكل موضوع يتوافق مع م-ناقل قيم التعبير. تنص فرضية التقليب في هذه الحالة على أن النواقل مستقلة وموزعة بشكل متماثل ، وبالتالي ، يتم الحصول على توزيع إحصائية الاختبار عن طريق تبديل النواقل. كما يشير إيفرون وتيبشيراني [28] ، فإن كلا الفرضيتين بها أوجه قصور. يميل الأول إلى تجاهل الارتباطات بين الجينات بينما لا يأخذ الثاني في الاعتبار الصفيف الذي يتم استخلاص الجينات منه. بدلاً من ذلك ، اقترحوا إحصائية معدلة تعيد توحيد الإحصاء المرصود سObsمع يعني م * والانحراف المعياري & # x003c3 * على النحو التالي:

أين م *، & # x003c3 * هي المتوسط ​​والانحراف المعياري الذي تم الحصول عليه عن طريق الاختيار العشوائي لمجموعات الجينات من المصفوفة الدقيقة بالكامل و مسو & # x003c3س هي المتوسط ​​والانحراف المعياري الذي تم الحصول عليه من خلال تبديل الملصقات للمسار المحدد.


اختيار الجينات الخاضعة للتنظيم التفاضلي وتحليل بيانات أمبير

تم البحث عن طريقة لاختيار الجينات الموضوعية لتجنب الاعتماد ببساطة على قطع تغيير طية تعسفي واحد ، والذي من المعروف أنه يتأثر بشكل مفرط بمستويات التعبير المطلق الصغيرة والكبيرة. تتضمن الطريقة المختارة (أ) تحديد نسبة X٪ العليا من التغييرات الطية الأعلى داخل الصناديق الضيقة لمستويات التعبير المطلق ، (ب) رفض القيم المطلقة الصغيرة جدًا ، و (ج) الترتيب اللاحق للجينات بواسطة أضعاف مجمعة التغيير / حساب الفرق المطلق.

(أ) تحديد X٪ العلوي لتغييرات الطية الأعلى ضمن مستويات التعبير المطلق المرتب

تحتوي البيانات من تجربة Affymetrix نموذجية على متوسط ​​فرق (متوسط ​​الفرق) ، والتي يمكن وصفها بالفرق في الشدة بين قليل النوكليوتيد المطابق تمامًا وأوليغنوكليوتيد غير متطابق. لتوضيح هذه المعلمة من حيث النموذج الحالي ، سيتم استخدام مصطلح "التعبير المطلق" بدلاً من "متوسط ​​الفرق". كما هو موضح عادة في الأدبيات ، يتم تعيين قيم التعبير المطلق الدنيا والسلبية على رقم مشترك من أجل القضاء على الجينات ذات مستويات التعبير السلبي ورفض المعلومات غير القابلة للتفسير بشكل أساسي. لذلك ، كمرشح تمرير أول ، تم تعيين الجينات التي لها قيم تعبير مطلقة أقل من 20 على 20 وتم رفض جميع الجينات التي لها قيمة 20 في جميع الأنظمة الغذائية الأربعة على الفور. تركت هذه العملية 9391 جينًا في الكبد من أصل 13179 جينًا أصليًا ممثلة في Mu11K GeneChip. تم بعد ذلك تطبيق معلمة إضافية ، أعلى تغيير في الطية ، على هذه الجينات المتبقية. يمكن تعريف مركبات الكربون الهيدروفلورية على أنها:

حيث تمثل A و B و C و D وما إلى ذلك نتائج المصفوفة الدقيقة الفردية لكل جين

يتأثر التحديد المقترح لمركب الكربون الهيدروفلوري بدرجة كبيرة بالتعبير المطلق ، ويمكن بسهولة ملاحظة الاتجاهات في مجموعة البيانات لدينا حيث يرتبط مركب الكربون الهيدروفلوري سلبًا بالتعبير المطلق. على سبيل المثال ، يمكن ملاحظة أنه مع وجود قيم تعبير مطلقة أعلى من 5000 ، فمن غير المرجح أن يكون HFC أكبر من 1.5 ، ولكن مع وجود قيم تعبير مطلقة تقترب من 50 ، فمن السهل جدًا ملاحظة HFC بمقدار 2. وتجدر الإشارة إلى أن التجربة الحالية تتكون من أربعة أنظمة غذائية أو معالجات ، ومع ذلك ، يمكن حساب مركبات الكربون الهيدروفلورية بسهولة لأي عدد من الظروف التجريبية. علاوة على ذلك ، يمكن ملاحظة اتجاهات مماثلة في العديد من مجموعات بيانات Affymetrix التي قمنا بفحصها (البيانات غير معروضة).

كان الهدف النهائي هو تطوير نموذج يراعي القيم المطلقة عند تصفية الجينات عند تغيير الطية. اختيار الجينات المعبر عنها تفاضليًا هو في الأساس بحث عن القيم المتطرفة ، بمعنى آخر. بيانات الجينات التي تقع خارج التوزيع الطبيعي للاختلافات المتعلقة بحالة التحكم ، والتي لا يمكن عزوها إلى الصدفة أو التباين الطبيعي. من أجل تحديد تلك الجينات المتطرفة ، من الضروري إما قياس تباين النظام أو وضع افتراضات صحيحة فيما يتعلق بالتوزيع الطبيعي للتباين. في النموذج الحالي ، نفترض أن: (1) التباين في قياسات التعبير الجيني مرتبط بمستوى التعبير المطلق و (2) أنه إذا تم قياس عينة واسعة من النسخ ، فسيكون عدد قليل من الجينات في الواقع قيمًا متطرفة حتى في أقسى العلاجات التجريبية. الافتراض (1) هو مفهوم تحليلي عام إلى حد ما ، بمعنى آخر. أن البيانات الأقرب إلى عتبة القياس كلما زاد التباين في ذلك القياس. يبدو أن الافتراض (2) صالح من الناحية التجريبية عند مسح الأدبيات الخاصة بتجارب المصفوفات الدقيقة عالية الكثافة التي تقيم الأحداث البيولوجية الشديدة ، من تقييد السعرات الحرارية [10،11] إلى موت الخلايا المبرمج [12،13]. في هذه التجارب ، من خلال تقنيات الاختيار المختلفة ، وجد أن أقل من 5٪ من العدد الإجمالي للجينات التي تم فحصها تم تنظيمها بشكل تفاضلي. لذلك ، من أجل تطوير النموذج الحالي لاختيار الجينات ، تم تقييم صلاحية اختيار القيم المتطرفة لمجموعة من الجينات شديدة التغير ، من 5 ٪ من السكان وما فوق.

تم تطوير النموذج الحالي عن طريق تجميع بيانات التعبير الجيني في فئات ضيقة عبر نطاق قيم التعبير المطلق ، بمعنى آخر. 20-50, 50-100, 100-150, إلخ. ثم اختيار 5٪ العليا من قيم مركبات الكربون الهيدروفلورية لمزيد من الدراسة. تم تنفيذ Binning بطريقة تضمن عدم وجود حاوية تحتوي على جينات صفرية أو عدد جينات أقل من سلة المهملات ، وبالتالي لم تكن أحجام الحاويات متساوية دائمًا. من الممكن البحث بشكل منفصل عن 5٪ من الجينات التي تحتوي على أكبر نسبة من مركبات الكربون الهيدروفلورية في كل فئة ، ومع ذلك ، من أجل تبسيط الاختيار العام ، قمنا بنمذجة العلاقة بين التعبير المطلق ، المحدد على أنه MIN (الأنظمة الغذائية A ، B ، C ، D) القيمة و HFC (eqn 1) لتعيين تغيير أضعاف الحد (LFC). يمكن نمذجة العلاقة باستخدام معادلة بسيطة للنموذج LFC = أ + ب / س (مع أ و ب حسب عدد الجينات التي سيتم اختيارها). يوضح الشكل 1 أ أنه كلما أصبحت معايير الاختيار أكثر صرامة (أعلى 5٪ → 3٪ → 1٪ من الجينات) ، تتغير منحنيات LFC ، لكنها تتقارب عند مستويات التعبير فوق 1000. تحتوي المعادلة البسيطة على معلمتين لهما تداعيات مختلفة على الجين اختيار. أولا، أ يحدد الخط المقارب ، والذي يتوافق مع الحد الأدنى لقيمة تغيير الطية الأعلى التي يمكن ملاحظتها عند أي قيمة مطلقة معينة. ثانيا، ب يؤثر على LFC بقيمة مطلقة معينة ، وبالتالي يتأثر بشدة بهذه القيمة الأخيرة. على سبيل المثال ، كلما انخفضت القيم المطلقة كلما زاد LFC والعكس صحيح.

العلاقة بين القيمة المطلقة وتغيير الطي المحدود (LFC) والتباين عبر نطاق التعبير المطلق. أ) تشير المنحنيات المختلفة إلى LFC المطلوب عند قيم مطلقة مختلفة من أجل اعتبار الجين متغيرًا بشكل كبير. مع زيادة معايير الاختيار ، يزداد LFC ، مما يشير إلى أن نموذج التغيير بنسبة 5٪ (الخط الأخضر) أكثر تساهلاً من نموذج تغيير أضعاف 1٪ (الخط الأحمر). أنتجت نماذج تغيير الطيات المختلفة المنحنيات بالمعادلات التالية: أ) في الكبد: نموذج LFC 5٪ = 1.52 + (100 / قيمة مطلقة) 3٪ نموذج LFC = 1.55 + (140 / قيمة مطلقة) 1٪ نموذج LFC = 1.70 + (185 / قيمة مطلقة). ب) يتيح فحص تباين كل جين عبر العلاجات الغذائية الأربعة تحديد تلك الجينات التي تم تحديدها بشكل كبير. (•) يمثل الجينات الأقل من مستوى الثقة 99.9٪ ، () يمثل تلك الجينات المختارة بواسطة نموذج التغيير 5٪ أضعاف ، و (+) يمثل تلك الجينات فوق مستوى الثقة 99.9٪. تمثل الخطوط المختلفة مستويات ثقة مختلفة (أنا. 99.9%, ثانيا. 99.999٪ و ثالثا. 99.99997٪). مع زيادة نموذج تغيير الطية (5٪ → 1٪) ، زاد التوافق بين نموذج تغيير الطية وبيانات التباين (بمستوى ثقة 99.9٪) (الجدول المضمن: x (y٪) ، حيث يمثل x عدد الجينات المطابقة (و y النسبة المئوية للجينات المطابقة)).

باستخدام المعادلات في الشكل 1 أ ، يكون اختيار الجينات لمزيد من الدراسة موضوعيًا وبسيطًا وعالميًا. يتم اختيار الجين باستخدام نهج HFC إذا كان MAX (A ، B ، C ، D) / Min (A ، B ، C ، D) & gt a + b / Min (A ، B ، C ، D). بعد تطبيق مرشح الجينات LFC 5 ٪ ، بقي 489 جينًا في القائمة من بين 9391 جينًا يُحتمل التعبير عنها بشكل تفاضلي ، تم اختيارها من الجينات الأصلية 13179 الممثلة في GeneChip. عندما تهتم بأعلى 3٪ أو 1٪ فقط من الجينات المهمة ، فإن العدد الإجمالي للجينات التي تفي بمتطلبات LFC ، وبالتالي عدد الجينات لكل حاوية ، ينخفض ​​بسرعة (245 و 102 جينًا ، على التوالي).

(ب) رفض القيم المطلقة الصغيرة جدًا

أخيرًا ، في محاولة لتحديد حد أدنى لمستوى التعبير بشكل موضوعي ، قمنا بفحص التوزيع النهائي للمكالمات الغائبة والمكالمات الحالية (Absence Call) عبر صناديق الجينات في المجموعة المتبقية من الجينات. تقرر أنه لن يتم استخدام مكالمات الغياب / الحضور Affymetrix بداهة كمعايير حاسمة لاختيار الجينات المنظمة بشكل كبير ، ولكن يفضل استخدامها كمعايير ما بعد الاختيار. تمت الإشارة سابقًا إلى أن استدعاء الغياب يمثل مشكلة ، وله عيبان محتملان: 1) يعتمد تخصيص مكالمة الغياب على مخصصة توصيف مطابقات قليل النوكليوتيد وعدم تطابق الأمبير التي تم الطعن في صحتها سابقًا ، و 2) لا يمكن الاعتماد عليها تجريبياً للجينات الفردية ، بمعنى آخر. الثقة في النداء ليست عالية [14]. ومع ذلك ، كان من المتوقع أن توزيع المكالمات الغائبة عبر العديد من الجينات في مجموعة من مستويات التعبير المطلق لن يكون عشوائيًا ، وأن الاتجاه سيكون بمثابة فحص متقاطع مهم للثقة الموضوعة في الجينات المتغيرة عند مستويات تعبير منخفضة.

كما هو متوقع ، أظهر توزيع المكالمات الغائبة أنه كان في الغالب الجينات منخفضة التعبير (95 ٪ من الجينات تسمى التعبير الغائب المطلق ≤ 207) ، والتي تم تسميتها غائبة في جميع الأنظمة الغذائية الأربعة بواسطة برنامج تحليل Affymetrix. يدعم هذا التحليل أيضًا فكرة أنه يمكن تطوير عتبة لمستوى التعبير الأدنى المطلق تجريبيًا لكل مجموعة بيانات تم فحصها. في الحالة الحالية ، قد يعني هذا أن أي جين ، لا يحتوي على الأقل على قيمة 207 في حالة تجريبية واحدة ، يجب رفضه بشكل مستقل عن تغيير الطية الذي تم قياسه. في الممارسة العملية ، سيتم أيضًا رفض أكثر من 95٪ من الجينات التي تستوفي هذه المعايير على أساس أنها كانت دائمًا غائبة في جميع الظروف التجريبية. لذلك ، تم القضاء على هذه الجينات في آخر طريقة للترشيح الجيني. بعد إزالة هذه الجينات المعبر عنها بشكل منخفض ، بناءً على هذه المعايير الموضوعية ، بقي 329 جينًا في القائمة من أصل 13179 مجموعات مسبار الجينات الأصلية. تم اعتبار الجينات المختارة من المحتمل أن يتم تنظيمها بشكل مختلف من خلال علاجاتنا الغذائية بمعنى أن هذه هي الجينات الأكثر تنظيمًا تفاضليًا في سياق التجربة الحالية.

(ج) التنازل عن الرتبة الجينية

بعد الاختيار العام للجينات ، تم تعيين رتبة "الأهمية" أو "مستوى الاهتمام" ، والتي تم تعريفها على أنها رقم الرتبة (RN) ، بناءً على كل من حجم التغيير الطي وقيم التعبير المطلق لكل جين محدد. تم تحديد RN لكل جين من خلال حساب قيمة التصنيف (RV) ، والتي يمكن تعريفها على النحو التالي: RV = HFC * (Max - Min). RV هي قيمة مجردة تعطي ببساطة أهمية كبيرة لتلك الجينات التي لديها تغيير في أضعاف عالية واختلافات عالية في وقت واحد في قيم التعبير المطلق. بعد حساب RV ، تم فرز قوائم الجينات ومن ثم تعيين رتبة بسيطة من 1،2،3،4. 329 بترتيب أهمية RV ، حيث يتوافق الجين مع RN 1 مع الجين صاحب أعلى RV. كل من RV و RN هي ببساطة مساعدات لمناقشة تأثيرات الجينات التفاضلية ، والتي تضيف مفهوم الوزن النسبي أو "الأهمية" بين الجينات المختارة. يوفر هذا المفهوم بعد ذلك أساسًا إضافيًا لاختيار الجينات لدراسات التحقق من الصحة كما هو مفصل أدناه.

(د) التحقق من صحة النموذج

تفاعل البلمرة المتسلسل في الوقت الحقيقي

تتأثر النتائج التي تم الحصول عليها من تجربة ميكروأري بكل خطوة في الإجراء التجريبي ، من تصنيع المصفوفة إلى تحضير العينة وتطبيقها إلى تحليل الصورة [15]. يرتبط تحضير عينة (كدنا) بشدة بكفاءة خطوة النسخ العكسي ، حيث يمكن أن تؤثر الكواشف والإنزيمات على حد سواء على نتيجة التفاعل. تؤثر كل هذه العوامل في المقابل على تمثيل النصوص في مسبار (كدنا) النهائي ، مما يستلزم الحاجة إلى التحقق من صحة التقنيات التكميلية. تم الإبلاغ عن التحليل بواسطة مقايسات حماية اللطخة الشمالية و RNAse بشكل شائع في الأدبيات ، ومع ذلك ، فإن تقنية التحقق من الصحة "المعيار الذهبي" الناشئة هي RT-PCR [16]. نظرًا لأن المصفوفات الدقيقة تميل إلى أن يكون لها نطاق ديناميكي منخفض ، مما يؤدي إلى تمثيل صغير ولكنه مهم لتغيرات الطيات في التعبير الجيني ، يتم استخدام RT-PCR مع نطاق ديناميكي أعلى للتحقق من صحة الاتجاهات الملحوظة بدلاً من تكرار القيم المطلقة التي تم الحصول عليها بواسطة الشريحة التجارب [17،16،18].

بعد اختيار الجينات الموجودة في نظام التصنيف ، تم إجراء RT-PCR في ثلاث نسخ لكل حالة تجريبية (النظام الغذائي A ، B ، C ، D) باستخدام نفس المخزونات المجمعة من RNA للكبد (5 فئران / تجربة). تمت مقارنة الجينات بعناصر التحكم الذاتية β-actin و GAPDH ، والتي تم تحديد أنها لم تتغير بشكل كبير عبر العلاجات الغذائية بواسطة كل من LFC (بيانات المصفوفة الدقيقة) والطالب. ر-اختبار (RT-PCR). بعد ذلك ، تم حساب التغييرات المهمة بواسطة RT-PCR بواسطة اختبار t للطالب بمستوى α الاسمي المحدد مسبقًا وهو 0.05 حيث تمت مقارنة النظام الغذائي B و C و D بشكل مستقل مع نظام التحكم أ. التوافق العام للاتجاهات بين الطريقتين كان 73٪ (على سبيل المثال كما لوحظ زيادة / نقص في التعبير الجيني الذي شوهد بواسطة ميكروأري بواسطة RT-PCR). بالنسبة لتلك الجينات التي اتفقت نتائجها بين التجربتين ، أشارت 68٪ من هذه النتائج إلى تغيرات أكبر في أضعاف بواسطة RT-PCR من تلك التي تم تحديدها بواسطة تحليل الصفيف. يشمل هذا التوافق الجينات التي تم تحديدها على أنها تغيرت بشكل كبير وكذلك الجينات التي تم تحديد أنها لم تتغير بشكل كبير. عندما تم فحص الجينات التي تم تغييرها بشكل كبير بواسطة RT-PCR فقط ، زاد التوافق قليلاً إلى 80 ٪.

ما يمكن ملاحظته على الفور من خلال مخطط الألوان (الجدول 1) هو أن الجينات ذات RN المرتفع (RV المنخفض) لديها القليل من التوافق بين التقنيتين حيث يشير اللون الأحمر إلى عدم وجود توافق بينما يشير اللون الأزرق إلى واحد أو اثنين (من ثلاثة) من النتائج لم توافق. عند فحص سينسيز الأحماض الدهنية (FAS) على وجه التحديد ، وهو جين معبر للغاية ، يمكن للمرء أن يرى بسرعة أن تغييرات طيات ميكروأري أقل من 2 يمكن إثباتها بين التقنيتين التجريبيتين ، مما يعزز قوة نموذج تغيير الطية هذا.

نظرًا لأن معايير الاختيار مع بيانات المصفوفة الدقيقة كانت هي أن HFC يجب أن يكون أكبر من نموذج LFC ، فإن التوقع هو أنه يمكن التحقق من خط اتجاه LFC بواسطة RT-PCR. هذا هو الحال في الغالب عبر النطاق الديناميكي الكامل للبيانات المختارة بواسطة النموذج باستثناء الجينات المعبر عنها بشكل منخفض جدًا مثل الجين الورمي RAS. بالنسبة للجينات ذات RN الأقل قليلاً (RV الأعلى) ، مثل ABCA1 و HSP5 ، يُلاحظ بعض التوافق ، مما يشير إلى الثقة في اكتساب هذه الجينات ، وأنه لا يزال من الممكن أخذها في الاعتبار كمجموعة عند البحث عن الاتجاهات في التعبير الجيني . بالنسبة للجينات ذات RN أقل من 176 (RV & gt 1156 مثل USF-2) ، فإن التوافق يقترب بسرعة من 100٪ ، مما يشير إلى ثقة عالية عند مناقشة اتجاهات الجينات أو نتائج الجينات الفردية. هذه النتائج في تعزيز كلي لمفهوم أن ال RN يرتبط بالثقة / الصلاحية ضمن مجموعة الجينات المختارة الناتجة عن نموذج LFC.

تم تحديد الجينات التي تمت مناقشتها والتحقق من صحتها في هذا التقرير باستخدام نموذج التغيير بنسبة 5٪ ، ومع ذلك يمكن أن تتنوع نسبة تغيير الطيات لتلبية احتياجات كل من الباحث والتجربة. It must be stressed that the 5% fold change model was chosen under the assumption that a relatively small percentage of genes will have their expression altered under any given condition. Therefore, selecting a fold change model of 5% may be either too permissive, where false positives are selected as differentially changed, or too restrictive, where true positives are not selected. Within the context of the present study, validation of the microarray results indicates that genes with low rank values are often more difficult to confirm by complementary techniques. Using the data obtained from RT-PCR, if one assumes that all genes with a RN below 176 (corresponding to RV > 1156) can be validated, then one would expect that these genes would be concentrated at higher expression levels. However, when the spread of those genes with a rank of 1 to 176 is examined, it was observed that these genes comprise a wide range of expression levels, indicating that the fold change model is objectively selecting differentially regulated genes across a wide range of absolute expression levels (data not shown), and that confidence in that selection increases with RV.

Variance Analysis with Real-time PCR

Variability is introduced into microarray data from two sources: biological variation (whether في المختبر أو في الجسم الحي) and measurement variation (hybridization, processing, scanning, etc.). In a brief effort to examine variability between individual mice, بمعنى آخر. biological variability, RT-PCR measurements across control mice were examined using a subset of the genes examined by RT-PCR. Each gene was examined in triplicate in each of the five mice, and the variation in ΔCt (detection threshold) was determined. The Ct indicates the relative abundance of any particular gene, and when normalized to an endogenous control (β-actin and GAPDH) allows the relative amounts of a gene to be calculated. RT-PCR indicated as did the microarray variance data, that lowly expressed genes have a higher variation thereby hinting that biological and measurement variance are both influenced by absolute expression levels. The equation of the line was deemed significant (with a p-value of 0.014 and 0.013 when normalized against β-actin and GAPDH, respectively). This again confirms the concept that highly expressed genes have little variance, and that small fold changes do represent a meaningful biological event.

Validation of the LFC model via characterization of measurement variability

The concept that variability and absolute expression are related has recently been examined by Coombes and colleagues however, they examined only the variability of replicate spots on a single slide [19]. This concept has now been further extended here to the examination of variability between genes on different microarrays. Measurement variance was examined following the development of the LFC model, and was therefore treated as a separate method for the confirmation of this model. To further understand the nature of measurement variability within the current study, duplicate Mu11K Affymetrix microarrays for the controls were examined. A pooled RNA sample from mice (ن = 5) fed the control diet was hybridized to two different chips, and the data was analyzed in order to characterize measurement variability (data not shown). It was apparent from the trend that as absolute expression levels increase, the coefficient of variation (CV= SD/MAE) decreases. By overlaying the trendline of the variability data on those genes determined to be significantly regulated by the LFC model, the CV upper confidence level for these selected genes could be elucidated.

In order to estimate the CV without taking into account extreme values of the duplicate we used a robust estimator, represented by the following equation:

Where ن = 2 and p = 0.5 (as the median CV of duplicate gene sample was used), the above equation enabled the CV to be determined by narrow bins of mean expression level, where extreme values are not accounted for.

The mean absolute expression of 13057 data points (genes) across the four diets were plotted against CV, and indicated a similar trend for the variability data where a high mean absolute expression results in a low CV (Figure 1b). Applying the CV derived from the duplicate sample data (eqn. 2) to the quadruplicate diet data enables the calculation of the CV upper confidence level (by bins of absolute expression level) using the following equation:

Where n= 4 and p= 0.001, 0.00001, 0.0000003, depending on the level of confidence desired (1-p).

Equation 3 allows us to identify those genes with a variance above the measurement variability . This greater variability arose due to combined pool (biological) and treatment variabilities.

This confidence level, by altering ص, could then be raised or lowered according to the level of confidence desired therefore, modeling the variance data provides an objective method for examining the variation of genes across the complete range of absolute expression values. The spread of the data indicates that most of the 13000 genes are both lowly expressed and highly variable across the four chips. A further examination of the data indicated that 95% of the genes determined to be 'absent' across all four diets by Affymetrix software had a mean absolute expression less than 207.

With the LFC model, genes were initially selected if they were in the top X% of the bin highest fold changes however the starting point (X%) was solely chosen based on the percentage of genes shown to be differentially regulated across a wide-range of published biological studies. However, the genes selected by the X% fold change model were then verified, with concordance results, by both RT-PCR and the variance data. Genes identified by the 5% fold change model were overlayed on the variance data corresponding to the four diets, and the confidence level for the X%-data selection was determined (Figure 1b). Concordance of 94.1%, 96.6% and 98.4% for the 5%, 3% and 1% fold change models, respectively, was observed with an upper confidence level selection of 99.9% (Figure 1b, inset table). In addition, overall concordance between microarray data and RT-PCR was examined in the different fold change models and indicated 73.3%, 81.5%, and 94.4% concordance for the 5%, 3%, and 1% fold change models, respectively (Figure 1a). The degree of concordance with RT-PCR results and the high confidence level (99.9%) obtained with the variance data reinforces that the X% fold change model is a simple, efficient, objective and statistically valid method for the identification of significantly differentiated genes.


FGT Part 5 - Design of Microarray Experiments


1. Replication
averaging replicates will give better estimates of the mean. replicates allow statistical inferences to be made.

Biological vs Technical Replication. Techincal ccome from the same sample i ndifferent chips. biological came from different samples. replicates is a scale between biological and technical

3. Level of Inference
Always compromise between precision and generality
what level do conclusion need to be made --> to just the technical sample, to all experiment in cell lines, to all mices?
More general solution inferences capture more variance
more variablity mena more replicates

4. Stastitical issues
أ. Level of variability
statistically significant does not always mean biologically significant
ب. Multiple testing and False Discovery Rate (FDR)
Usually applies T-Test for each probesets. For each test, P-Values are the probabilities that the test would produce a result as least as extreme assuming the null hypothesis are true. We expect 5% chance that the test result in false positives for multiple test. The FDR was applied to avoid high false positives. Which accounts for the number of test applied.
ج. Effect size
How large of a change we want to detect
د. قوة
Our ability to discover truth. More replication more power

Common Design Principles
1. Single Factor
varying single factor at once. example with ot wothout drug. for dual channel place comparison of interest near each other. short time can be treatesd on a single factor experiment

-Paired Samples
Microarray experiments with paired designs are often encountered in a clinical setting where for example, samples are isolated from the same patients before and after treatment. Describe the reasons that it might be attractive to employ paired design in microarray experiment!

reduces variability in biological replicates
still captures variability with respect to response between patients

-Pooling vs Amplification
Mutiple isolation are pooled to give enough biological material of the expression level
gives more robust estimation of the expression level
but it can be dominated by one unusual samples
pool only when necessary and consider amplification as alternative
making sub pools is a compromise, ex: pool 15 into 3 x 5
amplificaiton is alternative to overcame limitation due to sample availability
but its not possible to introduce amplification without bias

-Practical Design
-Usually limited by cost and sample availability
-consider other experiment for informal estimation parameters
-usually 3-5 replicate for well known strain
or 30-200 for human population inference
consider extendable desing or pilot experiment


Comparing two conditions

A simple microarray experiment may be carried out to detect the differences in expression between two conditions. Each condition may be represented by one or more RNA samples. Using two-color cDNA microarrays, samples can be compared directly on the same microarray or indirectly by hybridizing each sample with a common reference sample [4, 6]. The null hypothesis being tested is that there is no difference in expression between the conditions when conditions are compared directly, this implies that the true ratio between the expression of each gene in the two samples should be one. When samples are compared indirectly, the ratios between the test sample and the reference sample should not differ between the two conditions. It is often more convenient to use logarithms of the expression ratios than the ratios themselves because effects on intensity of microarray signals tend be multiplicative for example, doubling the amount of RNA should double the signal over a wide range of absolute intensities. The logarithm transformation converts these multiplicative effects (ratios) into additive effects (differences), which are easier to model the log ratio when there is no difference between conditions should thus be zero. If a single-color expression assay is used - such as the Affymetrix system [7] - we are again considering a null hypothesis of no expression-level difference between the two conditions, and the methods described in this article can also be applied directly to this type of experiment.

A distinction should be made between RNA samples obtained from independent biological sources - biological replicates - and those that represent repeated sampling of the same biological material - technical replicates. Ideally, each condition should be represented by multiple independent biological samples in order to conduct statistical tests. If only technical replicates are available, statistical testing is still possible but the scope of any conclusions drawn may be limited [3]. If both technical and biological replicates are available, for example if the same biological samples are measured twice each using a dye-swap assay, the individual log ratios of the technical replicates can be averaged to yield a single measurement for each biological unit in the experiment. Callow وآخرون. [8] describe an example of a biologically replicated two-sample comparison, and our group [9] provide an example with technical replication. More complicated settings that involve multiple layers of replication can be handled using the mixed-model analysis of variance techniques described below.

'Fold' change

The simplest method for identifying differentially expressed genes is to evaluate the log ratio between two conditions (or the average of ratios when there are replicates) and consider all genes that differ by more than an arbitrary cut-off value to be differentially expressed [10–12]. For example, if the cut-off value chosen is a two-fold difference, genes are taken to be differentially expressed if the expression under one condition is over two-fold greater or less than that under the other condition. This test, sometimes called 'fold' change, is not a statistical test, and there is no associated value that can indicate the level of confidence in the designation of genes as differentially expressed or not differentially expressed. The fold-change method is subject to bias if the data have not been properly normalized. For example, an excess of low-intensity genes may be identified as being differentially expressed because their fold-change values have a larger variance than the fold-change values of high-intensity genes [13, 14]. Intensity-specific thresholds have been proposed as a remedy for this problem [15].

ال راختبار

ال ر test is a simple, statistically based method for detecting differentially expressed genes (see Box 2 for details of how it is calculated). In replicated experiments, the error variance (see Box 1) can be estimated for each gene from the log ratios, and a standard ر test can be conducted for each gene [8] the resulting ر statistic can be used to determine which genes are significantly differentially expressed (see below). This gene-specific ر test is not affected by heterogeneity in variance across genes because it only uses information from one gene at a time. It may, however, have low power because the sample size - the number of RNA samples measured for each condition - is small. In addition, the variances estimated from each gene are not stable: for example, if the estimated variance for one gene is small, by chance, the ر value can be large even when the corresponding fold change is small. It is possible to compute a global ر test, using an estimate of error variance that is pooled across all genes, if it is assumed that the variance is homogeneous between different genes [16, 17]. This is effectively a fold-change test because the global ر test ranks genes in an order that is the same as fold change that is, it does not adjust for individual gene variability. It may therefore suffer from the same biases as a fold-change test if the error variance is not truly constant for all genes.

Modifications of the راختبار

As noted above, the error variance (the square root of which gives the denominator of the ر tests) is hard to estimate and subject to erratic fluctuations when sample sizes are small. More stable estimates can be obtained by combining data across all genes, but these are subject to bias when the assumption of homogeneous variance is violated. Modified versions of the ر test (Box 2) find a middle ground that is both powerful and less subject to bias.

In the 'significance analysis of microarrays' (SAM) version of the ر test (known as the س test) [18], a small positive constant is added to the denominator of the gene-specific ر اختبار. With this modification, genes with small fold changes will not be selected as significant this removes the problem of stability mentioned above. The regularized ر test [19] combines information from gene-specific and global average variance estimates by using a weighted average of the two as the denominator for a gene-specific ر اختبار. ال ب statistic proposed by Lonnstedt and Speed [20] is a log posterior odds ratio of differential expression versus non-differential expression it allows for gene-specific variances but it also combines information across many genes and thus should be more stable than the ر statistic (see Box 2 for details).

ال ر و ب tests based on log ratios can be found in the Statistics for Microarray Analysis (SMA) package [21] the س test is available in the SAM software package [22] and the regularized ر test is in the Cyber T package [23]. In addition, the Bioconductor [24] has a collection of various analysis tools for microarray experiments. Additional modifications of the ر test are discussed by Pan [25].

Graphical summaries (the 'volcano plot')

The 'volcano plot' is an effective and easy-to-interpret graph that summarizes both fold-change and ر-test criteria (see Figure 1). It is a scatter-plot of the negative log10-transformed ص-values from the gene-specific ر test (calculated as described in the next section) against the log2 fold change (Figure 1a). Genes with statistically significant differential expression according to the gene-specific ر test will lie above a horizontal threshold line. Genes with large fold-change values will lie outside a pair of vertical threshold lines. The significant genes identified by the S, B, and regularized ر tests will tend to be located in the upper left or upper right parts of the plot.

Volcano plots. The negative log10-transformed ص-values of the F1 test (see Box 3b) are plotted against (أ) the log ratios (log2 fold change) in a two-sample experiment or (ب) the standard deviations of the variety-by-gene VG values (see Box 3a) in a four-sample experiment. The horizontal bars in each plot represent the nominal significant level 0.001 for the F1 test under the assumption that each gene has a unique variance. The vertical bars represent the one-step family-wise corrected significance level 0.01 for the F3 test (see Box 3b) under the assumption of constant variance across all genes. Black points represent the significant genes selected by the F2 test with a compromise of these two variance assumptions.


Target Deconvolution vs Target Discovery

The phenotypic approach to drug discovery falls within the realm of target deconvolution, and involves exposing cells, isolated tissues, or animal models, to small molecules to determine whether a specific candidate molecule exerts the desired effect – which is observed by a change in phenotype. 3 Whilst numerous animal models can be used for the characterization of small molecules and small-scale drug screening approaches, use of mammalian cells is often favored due to their compatibility with high-throughput screening (HTS) and greater physiological relevance.

The phenotypic approach goes beyond individual proteins or nucleic acids and involves the study of entire signaling pathways. The drug’s effect is determined before the specific biological (drug) target that underlies the observed phenotypic response is identified.

Target deconvolution

Advantages and challenges of phenotypic drug discovery

The greatest advantage phenotypic approaches have over target-based is their ability to demonstrate the efficacy of a drug in the context of a cellular environment. The drug is acting on the target in its ‘normal’ biological context, rather than on a purified target in a biochemical screen.

Cost, availability of cells, complex assay methodology, and throughput are all potential challenges associated with cell-based phenotypic screens. However, as assays become miniaturized and the use of three-dimensional cell models (organoids and spheroids) continue to gain momentum, both scalability and physiological relevance have been improved, leading to greater adoption of phenotypic approaches.

In addition, this resurgence in phenotypic screening has encouraged further major technological advances, including the development of iPS cell technologies, gene-editing tools, and detection and imaging assays, 5 which have again positively impacted this approach.

Target discovery

Advantages and challenges of target-based discovery

The fact that knowledge of a drug candidate’s molecular mechanism is understood from the offset presents as a key advantage over phenotypic approaches and target-based methods are typically easier to carry out, less-expensive to develop, and the process is generally faster. 6

Target-based drug discovery can exploit numerous approaches (including crystallography, computational modeling, genomics, biochemistry, and binding kinetics) to uncover exactly how a drug interacts with the target of interest, enabling: 6

  • Development of the structure-activity relationship (SAR) (the relationship between the structure and biological activity of a molecule)
  • Development of biomarkers
  • Discovery of future therapeutics that act at the specific target of interest
تقنيةDrug discovery approach
اللوني تقارب
Target deconvolution
Expression-cloning
Target deconvolution
Protein microarray
Target deconvolution
Reverse transfected cell microarray
Target deconvolution
Biochemical suppression
Target deconvolution
سيرنا
Target deconvolution/ discovery/ validation
ميكروأري الحمض النووي
Target discovery
Systems biology
Target discovery
Study of existing drugs
Target discovery

برمجة

The analysis of microarray data poses considerable computational challenges. Academic and commercial software environment and applications have been and are being developed to meet these challenges. The commercial applications have primarily focused on user-friendliness, by providing fancy point and click graphical user interfaces. While this may be a desirable feature for some, it is unlikely to be a useful feature for research. What is important to research is for the software to be flexible and extensible so as to allow the user to determine the analysis method thought to be best suited to address the scientific questions at hand. To this end, we have found the R statistical environment 48 to be an ideal match. It should be emphasized that R is not a software application designed to facilitate a certain number of prespecified analyses thought to be useful or important by the software developers, but rather “an environment to conduct statistical analyses and computation.” By providing the requisite building blocks, including an object-oriented programming language and outstanding facilities to produce graphics, the user is put in charge. These capabilities are complemented by extension packages contributed by other R users. Of special note is the Bioconductor project, 49 which provides a comprehensive library of extension packages specifically developed for the preprocessing, analysis, visualization, and annotation of molecular data. In addition to technical documentation, most Bioconductor packages offer vignettes, which serve as tutorials.

As an interpreted language, R may not be as fast as some compiled languages. It is possible to include C/C++ and FORTRAN code in R. It is also possible to call R from these languages to build stand-alone packages. Another powerful programming language used by the bioinformatics community is Python. R can be interfaced from Python through rpy and rpy2 . R can be installed on laptops, desktops, and servers running a variety of operating systems including GNU/Linux, Windows, and MacOS. It is open-source and distributed under a public license.

Many statistical algorithms and procedures used to analyze microarray data are parallelizable. Packages that allow the user to parallelize code over clusters or multicore servers include snow, multicore , and Rmpi . Graphical Processing Units (GPUs) provide another hardware resource for conducting stream computing. Two extension packages that enable the use of GPUs within R are gputools 50 and permGPU . 51

An important principle in conducting genomic research is reproducibility. This does not only apply to the scientific experiment where the use of technical or biological replicates is used to ascertain the reproducibility of the assay, but also applies to the quantitative component of the research. It should be noted that reproducibility is a necessary but not sufficient component of good research as poor research can be conducted in a reproducible fashion. The R statistical environment greatly facilitates the conduct of reproducible research by providing a framework for literate programming 57 through Sweave 56 by combining L A TهX (http://www.latex-project.org) as the typesetting engine and R as the computational engine.

Venables and Ripley 54 and Dalgaard 55 provide extensive and accessible accounts on conducting programming and statistical analyses using R. Gentleman et al. 56 and Hahne et al. 57 provide accounts on conducting statistical analysis using Bioconductor extension packages. All statistical analyses presented in this paper were conducted using R .


شاهد الفيديو: آني هندي Am I indian?? trying ancestry DNA test (كانون الثاني 2023).