معلومة

ماذا يحدث بين عقدتين في شجرة تطورية؟

ماذا يحدث بين عقدتين في شجرة تطورية؟


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

مرحبًا يا رفاق ، هل يمكنك مساعدتي في هذا !؟

ماذا يحدث بين عقدتين (في شجرة تطورية) أو بين عقدة وطرف؟

أ) يتغير حرف واحد على الأقل

ب) تموت كل الكائنات الحية

ج) لا يمكن أن يحدث شيء بين عقدتين

د) monophyly ، paraphyly ، polyphyly

هـ) لا شيء مما سبق

نزلت إلى E) و C). نظرًا لأن B) لا معنى له ، فإن الكائنات الحية لا تموت بين عقدتين - إنها تتطور. د) لا علاقة له بالسؤال المطروح أ) أعتقد أنه من المحتمل أن يكون خطأ أيضًا ، لأنه بين العقدة والطرف ، يظل الكائن الحي كما هو وأخيراً اعتقدت أن C) يمكن أن تكون الإجابة ، ولكن في نفس الوقت يمكن تشكيل سمة جديدة ،


السؤال ليس له معنى كبير وأعتقد أنك ذهبت إلى أبعد ما يمكن لأي شخص أن يذهب إليه.

أ) يتغير حرف واحد على الأقل

يعتمد ذلك على ما تعنيه بالحرف ويعتمد على التفاصيل الدلالية للشجرة. بشكل عام ، تحاول الشجرة التطورية ، التي تسمى عادةً شجرة النشوء والتطور ، تمثيل الوقت بطول الحواف بين عقدتين. الهدف بشكل عام هو عدم تمثيل أي شيء آخر.

في التعليقات ، جادلJohn أنه يمكن اعتبار الوقت شخصية. أنا شخصياً عندما أقرأ مصطلح "شخصية" أفكر في شخصية نمطية. في حين أنه سيكون دائمًا صحيحًا إلى حد كبير أنه بين عقدتين سيوجد بعض الاختلاف في الشخصية المظهرية ، إلا أنه ليس نتيجة أساسية لمفهوم الشجرة التطورية. هذا هو السبب في أنني جادلت بأن A خطأ. John يتخذ الموقف المعاكس في إجابته. لاحظ أيضًا أنه في بعض الأحيان (على الرغم من أنه نادرًا جدًا اليوم) تُستخدم حالات النمط الظاهري لبناء شجرة ، وبالتالي ، في مثل هذه الحالة ، ستكون نتيجة مباشرة للمنهجية التي يجب أن تختلف فيها عقدتان عن طريق قيمة صفة نمطية واحدة على الأقل .

هذا الخلاف بينJohn و I يسلط الضوء على أن السؤال تمت صياغته بشكل سيء وفي الواقع لا معنى له.

ب) تموت كل الكائنات الحية

حسنًا ، على الأرجح وقت كافٍ يفصل بين العقدتين بأن جميع الكائنات الحية التي تم تمثيلها في العقدة السلفية ماتت لكنها بالطبع تكاثرت ، بحيث يكون لدينا في الواقع عقدة أخرى تنحدر منها.

ج) لا يمكن أن يحدث شيء بين عقدتين

كما قلت ، فهي تتطور. لذا ، الأمور تحدث!

د) monophyly ، paraphyly ، polyphyly

كما قلت ، هذه المصطلحات لا معنى لها هنا!

هـ) لا شيء مما سبق

إذا كان هناك أي إجابة بديهية على السؤالما حدث بين عقدتينيكونفات الوقت. أعتقد أن الإجابة التي توقعها معلمك هنا هيهولكن من الممكن أيضًا (ق) أنه كان يتوقع أ. حقًا هذا سؤال مكتوب بشكل سيء جدًا.


إجابتك هي أ. لسبب واحد بسيط ، تمثل عقدتان مختلفتان على الأقل فرقًا ملحوظًا / قابلًا للقياس بين المجموعات ، لذلك يجب أن يكون هناك اختلاف واحد على الأقل بين أي عقدتين.

انظر إلى هذا المثال ، ما إذا كان A و B يمثلان الثدييات والطيور أو نوعين فرعيين من الشمبانزي ، أو سلالتين من الفيروسات ، حقيقة أنهما عقدتان منفصلتان يعني أن هناك بعض الاختلاف بينهما. عند إنشاء شجرة ، يجب أن يكون هناك اختلاف في حرف واحد على الأقل للحصول على أكثر من عقدة واحدة. الشجرة التي ليس لها اختلافات هي مجرد نقطة في حد ذاتها.

أيضًا ، لا تبقى الكائنات الحية كما هي بين عقدة وطرف (الطرف عبارة عن عقدة) لاستخدام المثال أدناه ، فإن العقدة المميزة بنجمة بين A و B هي أحدث سلف مشترك لـ A و B والتي تختلف عن نفس الشيء مثل ا او ب.


تصور وتعليق الأشجار النشوء والتطور باستخدام R + ggtree

يوضح هذا الدرس كيفية الاستخدام ggtree، وهو امتداد لحزمة ggplot2 لتصور الأشجار النشوء والتطور والتعليق عليها. تم تعديل العديد من الأمثلة هنا من المقالات القصيرة ggtree.

هذا الدرس يفعل ليس طرق الغلاف والبرامج الخاصة بـ توليد أشجار النشوء والتطور ، ولا تغطيها الترجمة نسالة. إليك كتاب تمهيدي سريع حول كيفية قراءة نسالة يجب عليك بالتأكيد مراجعتها قبل هذا الدرس ، لكنه ليس شاملاً بأي حال من الأحوال. يسمح التسلسل على مستوى الجينوم بفحص الجينوم بأكمله ، ومن هذا المنطلق ، توجد العديد من الأساليب والأدوات البرمجية لعلم الجينوم المقارن باستخدام تحليل النشوء والتطور المستند إلى SNP والجين ، إما من قراءات التسلسل غير المجمعة ، أو تجميعات المسودة / contigs ، أو تسلسل الجينوم الكامل . هذه الأساليب خارج نطاق هذا الدرس.


يأخذ انضمام الجار كمدخلات مصفوفة مسافة تحدد المسافة بين كل زوج من الأصناف. تبدأ الخوارزمية بشجرة لم يتم حلها تمامًا ، والتي تتوافق طوبولوجيتها مع تلك الخاصة بشبكة النجوم ، وتتكرر عبر الخطوات التالية حتى يتم حل الشجرة تمامًا وتُعرف جميع أطوال الفروع:

  1. بناءً على مصفوفة المسافة الحالية ، احسب المصفوفة Q < displaystyle Q> (المعرفة أدناه).
  2. ابحث عن زوج الأصناف المتميزة i و j (أي مع i ≠ j < displaystyle i neq j>) حيث يكون Q (i، j) أدنى قيمة له. يتم ربط هذه الأصناف بالعقدة التي تم إنشاؤها حديثًا ، والتي ترتبط بالعقدة المركزية. في الشكل على اليمين ، تم ربط f و g بالعقدة الجديدة u.
  3. احسب المسافة من كل تصنيف في الزوج إلى هذه العقدة الجديدة.
  4. احسب المسافة من كل تصنيف خارج هذا الزوج إلى العقدة الجديدة.
  5. ابدأ الخوارزمية مرة أخرى ، واستبدل زوج الجيران المنضمين بالعقدة الجديدة وباستخدام المسافات المحسوبة في الخطوة السابقة.

تحرير مصفوفة Q

المسافة من الزوج إلى العقدة الجديدة تحرير

لكل من الأصناف في الزوج المنضم ، استخدم الصيغة التالية لحساب المسافة إلى العقدة الجديدة:

δ (ز ، ش) = د (و ، ز) - δ (و ، ش)

المسافة بين الأصناف الأخرى من العقدة الجديدة تحرير

لكل تصنيف لم يتم اعتباره في الخطوة السابقة ، نحسب المسافة إلى العقدة الجديدة على النحو التالي:

تحرير التعقيد

أ ب ج د ه
أ 0 5 9 9 8
ب 5 0 10 10 9
ج 9 10 0 8 7
د 9 10 8 0 3
ه 8 9 7 3 0

الخطوة الأولى تحرير

أول انضمام إلى تحرير

أ ب ج د ه
أ −50 −38 −34 −34
ب −50 −38 −34 −34
ج −38 −38 −40 −40
د −34 −34 −40 −48
ه −34 −34 −40 −48

تحرير تقدير طول الفرع الأول

أول تحديث لمصفوفة المسافة تحرير

مصفوفة المسافة الناتجة D 1 < displaystyle D_ <1>> هي:

ش ج د ه
ش 0 7 7 6
ج 7 0 8 7
د 7 8 0 3
ه 6 7 3 0

الخطوة الثانية تحرير

ثانيًا انضمامًا إلى تحرير

ش ج د ه
ش −28 −24 −24
ج −28 −24 −24
د −24 −24 −28
ه −24 −24 −28

تقدير طول الفرع الثاني تحرير

يساعد ربط العناصر وحساب طول الفرع في رسم شجرة الانضمام المجاورة كما هو موضح في الشكل.

تحديث مصفوفة المسافة الثانية تحرير

د (ت ، د) = 1 2 [د (ش ، د) + د (ج ، د) - د (ش ، ج)] = 7 + 8 - 7 2 = 4 <2>> [d (u، d) + d (c، d) -d (u، c)] = < frac <7 + 8-7> <2>> = 4> د (ت ، هـ) = 1 2 [د (ش ، هـ) + د (ج ، هـ) - د (ش ، ج)] = 6 + 7 - 7 2 = 3 <2>> [d (u، e) + d (c، e) -d (u، c)] = < frac <6 + 7-7> <2>> = 3>

الخامس د ه
الخامس 0 4 3
د 4 0 3
ه 3 3 0

الخطوة الأخيرة تحرير

تم حل طوبولوجيا الشجرة بالكامل في هذه المرحلة. ومع ذلك ، من أجل الوضوح ، يمكننا حساب المصفوفة Q 3 < displaystyle Q_ <3>>. على سبيل المثال:

Q 3 (v، e) = (3 - 2) d (v، e) - ∑ k = 1 3 d (v، k) - k = 1 3 d (e، k) = 3-7-6 = - 10 (v، e) = (3-2) d (v، e) - sum _^ <3> د (ت ، ك) - مجموع _^ <3> د (ه ، ك) = 3-7-6 = -10>

الخامس د ه
الخامس −10 −10
د −10 −10
ه −10 −10

اكتملت الآن شجرة الانضمام المجاورة ، كما هو موضح في الشكل.

الخلاصة: مسافات مضافة تحرير

قد يُنظر إلى انضمام الجار على أنه استدلال جشع لمعيار الحد الأدنى المتوازن للتطور [5] (BME). لكل طوبولوجيا ، يحدد BME طول الشجرة (مجموع أطوال الفروع) ليكون مجموعًا مرجحًا معينًا للمسافات في مصفوفة المسافة ، مع اعتماد الأوزان على الهيكل. إن الهيكل الأمثل لـ BME هو الذي يقلل من طول هذه الشجرة. ينضم الجار الذي ينضم في كل خطوة بطمع إلى هذا الزوج من الأصناف والذي سيعطي أكبر انخفاض في طول الشجرة المقدر. لا يضمن هذا الإجراء العثور على المعيار الأمثل لمعيار BME ، على الرغم من أنه غالبًا ما يكون قريبًا جدًا.

الميزة الرئيسية لـ NJ هي أنها سريعة [6]: 466 مقارنة بالمربعات الصغرى ، الحد الأقصى من البخل وطرق الاحتمالية القصوى. [6] وهذا يجعله عمليًا لتحليل مجموعات البيانات الكبيرة (مئات أو آلاف الأصناف) ولإقلاع التمهيد ، ولهذه الأغراض قد تكون وسائل التحليل الأخرى (مثل الحد الأقصى من البخل ، والاحتمال الأقصى) محظورة من الناحية الحسابية.

انضمام الجار له خاصية أنه إذا كانت مصفوفة مسافة الإدخال صحيحة ، فستكون شجرة الإخراج صحيحة. علاوة على ذلك ، يتم ضمان صحة هيكل شجرة الإخراج طالما أن مصفوفة المسافة "مضافة تقريبًا" ، خاصة إذا كان كل إدخال في مصفوفة المسافة يختلف عن المسافة الحقيقية بأقل من نصف أقصر طول فرع في الشجرة. [7] من الناحية العملية ، نادرًا ما تحقق مصفوفة المسافة هذا الشرط ، لكن انضمام الجار غالبًا ما يبني هيكل الشجرة الصحيح على أي حال. [8] إن صحة انضمام الجار لمصفوفات المسافة المضافة تقريبًا يعني أنه متسق إحصائيًا في ظل العديد من نماذج التطور المعطاة لبيانات ذات طول كافٍ ، فإن انضمام الجار سيعيد بناء الشجرة الحقيقية باحتمالية عالية. بالمقارنة مع UPGMA و WPGMA ، فإن الانضمام المجاور له ميزة أنه لا يفترض أن جميع السلالات تتطور بنفس المعدل (فرضية الساعة الجزيئية).

ومع ذلك ، فقد تم استبدال الانضمام المجاور إلى حد كبير بطرق النشوء والتطور التي لا تعتمد على مقاييس المسافة وتوفر دقة فائقة في معظم الظروف. [ بحاجة لمصدر ] ضم الجار له ميزة غير مرغوب فيها وهي أنه غالبًا ما يعين أطوالًا سلبية لبعض الفروع.

هناك العديد من البرامج المتاحة لتنفيذ انضمام الجار. RapidNJ و NINJA هي تطبيقات سريعة مع أوقات تشغيل نموذجية تتناسب مع مربع عدد الأصناف تقريبًا. BIONJ و Weighbour هما متغيرات للانضمام إلى الجيران مما يحسن من دقته من خلال الاستفادة من حقيقة أن المسافات الأقصر في مصفوفة المسافات معروفة بشكل عام أكثر من المسافات الأطول. FastME هو تطبيق لأسلوب التطور الأدنى المتوازن وثيق الصلة.


قياس المسافة بين الشبكات

ال مقارنة الشبكة المشكلة مستمدة من تماثل الرسم البياني مشكلة. رسمان بيانيان (غير موجهين وغير مرجحين) جي1(الخامس1, ه1) و جي2(الخامس2, ه2) متشابهة إذا كان هناك تطابق واحد لواحد - تعيين مجموعة العقدة الخامس1 على الخامس2 مثل هذه الحافة (ش, الخامس) ∈ ه1 إذا وفقط إذا كانت الحافة (Φ (ش) ، Φ (الخامس)) ∈ ه2 9. تعقيد ملف مشكلة تماثل الرسم البياني، أي التحقق مما إذا كان هناك رسمان بيانيان محدودان متماثلان أم لا ، غير معروف بمصطلحات صارمة 10 ، 11 ، 12: مع ذلك ، توجد خوارزميات فعالة للعديد من فئات الرسوم البيانية 13. في أي حال ، التماثل هو مطابقة الرسم البياني الدقيق: إذا تم استخدامها كمسافة للمقارنة ، فإنها تعطي نتيجة ثنائية: الرسوم البيانية إما متشابهة ، أي متطابقة ، أو لا. ومع ذلك ، فهذه المعلومات رديئة ، لأن الشبكات تكاد لا تكون متطابقة في التطبيقات ، ويهتم المرء بتقييم مدى تشابهها. لمقارنة الشبكات بشكل فعال ، نحتاج إلى الانتقال إلى مطابقة الرسم البياني غير الدقيق، على سبيل المثال ، تحديد مسافة ذات قيمة حقيقية والتي ، كحد أدنى من المتطلبات ، لها خاصية التقارب إلى الصفر مع اقتراب الشبكات من التماثل.

دفع البحث عن أدوات دقيقة وفعالة لمقارنة الشبكات البحث في العديد من الاتجاهات المختلفة ، مما أدى إلى مجموعة متنوعة من الأساليب والخوارزميات. نقدم مراجعة قصيرة للعديد من الأساليب الأكثر استخدامًا لمقارنة الشبكات ، مع الاعتراف بأن الأدبيات وفيرة جدًا ولا يمكننا تغطيتها بشكل شامل ولا نريد تكرار النتائج المحددة بالفعل. باتباع الأساليب السابقة 6 ، نقوم بتقسيم طرق المقارنة بناءً على ما إذا كانت المسافات المستحثة تعتمد على مراسلات العقد. في الحالة السابقة-مراسلات العقدة المعروفة (KNC) - تحتوي الشبكتان على نفس مجموعة العقدة (أو على الأقل مجموعة فرعية مشتركة) ، والمراسلات الزوجية بين العقد معروفة. وبالتالي ، عادةً ، يمكن مقارنة الرسوم البيانية من نفس الحجم والقادمة من نفس مجال التطبيق فقط. في الحالة الأخيرة-مراسلات عقدة غير معروفة (UNC) - من الناحية المثالية ، يمكن مقارنة أي زوج من الرسوم البيانية (حتى مع اختلاف الأحجام ، أو الكثافة ، أو قادم من حقول تطبيق مختلفة): عادةً ما تلخص هذه الأساليب الهيكل العام في إحصاء واحد أو أكثر ، والتي يتم تفصيلها بعد ذلك لتحديد المسافة. وهكذا يعكس هذا المفهوم الأخير للمسافة الاختلاف في الهيكل العالمي للشبكات.

على سبيل المثال ، تخيل أن المرء يريد مقارنة شبكات النقل الجوي الأوروبية لشركات الطيران A و B. ومجموعات العقد (أي المطارات الأوروبية) هي نفسها ، وبالتالي يمكن تطبيق طريقة KNC لتحديد مدى المجموعتين من الحواف متشابهة ، أي إلى أي مدى تقدم شركتا الطيران نفس مجموعة الرحلات. إذا تم تمديد التمرين (الزوجي) ليشمل جميع شركات الطيران ، فستسمح النتائج الإجمالية للفرد بتجميع شركات الطيران التي توفر مجموعات مماثلة من الاتصالات. ولكن يمكن بدلاً من ذلك تحليل مجموعة البيانات نفسها ، بهدف مختلف ، بطريقة UNC ، لتسليط الضوء على أزواج من شركات الطيران التي تتشابه شبكتها من الناحية الهيكلية عالميًا. بعد ذلك ، على سبيل المثال ، قد يكتشف المرء أن خطوط الطيران A و B تمتلكان شبكة طيران شبيهة بالنجوم بشكل ملحوظ ، لكن الأولى تقع في أمستردام (مركز النجم) والثانية في برلين. هنا ، قد يؤدي توسيع التحليل ليشمل جميع شركات الطيران إلى تجميع مجموعات من شركات الطيران ذات الاستراتيجيات أو نماذج الأعمال المتشابهة.

يكشف فحص الأدبيات أن المشكلة الأخيرة تمت دراستها بشكل أكبر - وأن علم الأحياء هو مجال التطبيق الأكثر شيوعًا - وبالتالي فإن عدد طرق UNC المتاحة أكبر بكثير من تلك الخاصة بـ KNC. نقدم أدناه العديد من الطرق المستخدمة لمقارنة الشبكات ، وشرح بإيجاز تفاصيل نهجهم. عند القيام بذلك ، سنمنح في الغالب امتيازًا لأساليب الاستخدام العام ، أي التي تنطبق على الشبكات الموجهة والمرجحة أيضًا - وهذا يضيق بشكل كبير مجموعة المرشحين. في القسم التالي ، سنقارن عدديًا أداء مجموعة فرعية من هذه الطرق.

طرق مراسلة العقدة المعروفة (KNC)

اختلاف مصفوفات الجوار

يتم الحصول على المقاييس الأبسط والأكثر فاعلية عن طريق الحساب المباشر للاختلاف في مصفوفات التقارب بين الشبكتين. ثم يمكن استخدام أي قاعدة مصفوفة ، على سبيل المثال ، الإقليدية ، مانهاتن ، كانبيرا ، أو جاكارد 14. جميعها مناسبة لمقارنة جميع أنواع الرسوم البيانية (الموجهة أم لا ، الموزونة أم لا) ، باستثناء مسافة Jaccard التي يجب تمديدها إلى مسافة Jaccard المرجحة 15 (يتم استدعاء تعريفات المعايير الأربعة في ملف المعلومات التكميلية ، ثانية. S1). على الرغم من أن هذا النهج المباشر نادرًا ما يستخدم في مقارنة الشبكة ، إلا أننا نقوم بتضمينه في المجموعة ونعتبره نهجًا أساسيًا.

دلتا كون

يعتمد على مقارنة أوجه التشابه بين جميع أزواج العقد في الرسمين البيانيين 16 ، 17. يتم تعريف مصفوفة التشابه للرسم البياني بواسطة س = [ساي جاي] = [أنا + ε 2 دε] −1 ، أين أ هي مصفوفة الجوار ، د = دياج (كأنا) هي مصفوفة الدرجة ، كأنا هي درجة العقدة أنا، و ε & gt 0 هو ثابت صغير. الأساس المنطقي لهذه الطريقة هو أن مجرد قياس التداخل بين مجموعتي الحواف قد لا يعمل من الناحية العملية ، لأنه ليست كل الحواف لها نفس الأهمية. بدلا من ذلك ، الفرق بين ص- مسارات الخطوة ، ص = 2، 3،… توفر مقياسًا أكثر حساسية. في واقع الأمر ، يمكن توضيح ذلك ساي جاي يعتمد على كل ص- ممرات متصلة (أنا, ي). المسافة DeltaCon بين ن × ن مصفوفات التشابه س 1 = [ساي جاي 1] و س 2 = [ساي جاي 2] تم تعريفه أخيرًا باستخدام مسافة Matusita:

تؤكد المعادلة (1) أن DeltaCon يفي بالبديهيات المعتادة للمسافات. علاوة على ذلك ، يمكن إظهار 16 ، 17 أنه يلبي أيضًا بعض الخصائص المرغوبة فيما يتعلق بتأثير تغييرات معينة. هذه الخصائص هي: التغييرات التي تؤدي إلى الرسوم البيانية غير المتصلة تكون أكثر معاقبة في الرسوم البيانية الموزونة ، وكلما زاد وزن الحافة التي تمت إزالتها ، كلما زاد التأثير على المسافة ، يكون للتغيير تأثير أكبر في الرسوم البيانية منخفضة الكثافة مقارنة بالرسوم البيانية الأكثر كثافة ذات الحجم العشوائي المتساوي التغييرات تنتج تأثيرات أصغر من تلك المستهدفة.

التعقيد الحسابي لخوارزمية DeltaCon تربيعي في عدد العقد. لتحسين سرعة التنفيذ ، تم اقتراح نسخة تقريبية ، والتي تقيد حساب مصفوفات التشابه لمجموعات من العقد المختارة عشوائيًا 16: هذا الإصدار له تعقيد خطي في عدد الحواف والمجموعات. أخيرًا ، تم تمديد DeltaCon 17 لجعله قادرًا على العثور على العقد أو الحواف الأكثر مسؤولية عن الاختلافات بين الرسمين البيانيين.

قطع المسافة

تعتمد هذه الطريقة 12 على مفهوم خفض الوزن ، وهو معيار في نظرية الرسم البياني ويستخدم أيضًا في اكتشاف المجتمع 4. إعطاء رسم بياني (ربما موجه ، مرجح) جي = (الخامس, ه) بأوزان حواف ثاي جاي, أنا, يالخامس، ومجموعتين منفصلتين من العقد س, تيالخامس، يتم تعريف الوزن المقطوع بأنه (_(S ، T) = <مجموع> _,_) ، أي الوزن الإجمالي للحواف التي تتقاطع مع القطع من س إلى تي. مسافة القطع بين رسمين بيانيين جي1(الخامس, ه1) و جي2(الخامس, ه2) مع نفس مجموعة العقدة ثم يتم تعريفها على أنها

أين س ج = الخامسس. وبالتالي فإن شبكتين متشابهتين إذا كان لديهما وزن قطع مماثل لجميع الأجزاء الثنائية المحتملة للشبكة. يتم إجراء التعظيم من خلال الخوارزميات الجينية ، مما يجعل المقارنة بين الشبكات الكبيرة (آلاف العقد وأكبرها) غير مجدية. من ناحية أخرى ، هذه إحدى الطرق القليلة القادرة على مقارنة الرسوم البيانية الموزونة والموجهة.

طرق مراسلة العقدة غير المعروفة (UNC)

الإحصائيات العالمية

يمكن الحصول على مقاييس بسيطة من خلال مقارنة قيمة إحصائيات الشبكة ، مثل معامل التجميع 18 ، 19 ، 20 ، 21 ، القطر 19 ، 21 ، أو متوسط ​​المسافة 18. على الرغم من كونه بديهيًا وفعالًا من الناحية الحسابية ، إلا أن هذا النهج في كثير من الأحيان لا يسفر عن نتائج قوية. في واقع الأمر ، فإن القيم المماثلة لإحصائيات الشبكة لا تعني بالضرورة هياكل شبكات متشابهة (على سبيل المثال ، انظر المناقشة في المرجع 22) وفي الواقع ، غالبًا ما تفشل المقارنة في التقاط الميزات المحلية المهمة. من ناحية أخرى ، توفر هذه المقاييس البسيطة بديلاً منخفض التكلفة حسابيًا يمكن أن يكون مفيدًا للتحليل الأول.

وظائف الاستجابة الميزوسكوبية (MRFs)

تستغل هذه الطريقة المعلومات التي تحملها الخصائص الوسيطة للشبكات ، أي هيكلها المعياري 23. يتم تعريف ثلاث وظائف - تسمى MRFs - ، هاميلتوني ح(λ) ، إنتروبيا التقسيم س(λ) وعدد المجتمعات η(λ) ، التي تصف خصائص شبكة معينة بمقاييس mesoscopic مختلفة: المعلمة λ يضبط تجزئة الشبكة إلى مجتمعات. يتم تحديد مسافة الشبكة لمجموعة معينة من الرسوم البيانية: لكل زوج شبكة ، يتم تحديد المسافات بين MRFs المقابلة بواسطة مقاييس الوظيفة القياسية ، ثم يتم أخذ المكون الرئيسي الأول الذي تم الحصول عليه من PCA كمسافة. يستلزم ذلك عدم قابلية المقارنة بين مجموعات البيانات المختلفة ، نظرًا لأن المسافة بين شبكتين تعتمد على مجموعة البيانات التي تشكل جزءًا منها. من ناحية أخرى ، إنها الطريقة الوحيدة المتاحة بناءً على خصائص المقياس المتوسط ​​، وتسمح للمرء بالنظر في كل من الشبكات الموزونة وغير الموزونة غير الموجهة. تعتمد الكفاءة الحسابية للطريقة في الغالب على كفاءة خوارزمية اكتشاف المجتمع المستخدمة.

الأساليب المستندة إلى Graphlet

Graphlets هي رسوم بيانية فرعية صغيرة ومتصلة وغير متماثلة لشبكات كبيرة. تم اقتراحها في الأصل للشبكات غير الموجهة (غير الموزونة) 18 ، وتم توسيع استخدامها لاحقًا ليشمل الشبكات الموجهة 24،25. يشفرون معلومات مهمة حول بنية الشبكة ويوفرون أداة قيمة للمقارنة. يجب تعداد الأنواع المختلفة من الرسوم البيانية ، ويمكن القيام بذلك بطريقتين ، على سبيل المثال ، من خلال مراعاة أو عدم وجود مدارات لتشكيلها التلقائي 22 ، والتي تميز أدوار العقد في كل رسم بياني (انظر الشكل 1 ، حيث الرسوم البيانية تم تعدادها من جي0 إلى جي29 ومدارات من ا0 إلى ا72). عادةً لا يتم النظر في الرسوم البيانية التي تحتوي على أكثر من خمسة عقد ، وذلك لأسباب حسابية وبسبب تكرار الرسوم البيانية الأصغر داخل هيكلها.

Graphlets (من 2 إلى 5 عقدة) في شبكات غير موجهة وغير مرجحة (من المرجع 22). 30 الرسوم البيانية التي حددها Pržulj وآخرون. تم تصنيف 18 جي0 إلى جي29. في كل رسم بياني ، تنتمي العقد التي لها نفس التظليل إلى نفس مدار الشكل التلقائي ا0 إلى ا72، أي أن لهما نفس الخصائص ولا يمكن تمييزهما عن بعضهما البعض 22.

يعد حساب جميع الرسوم البيانية للشبكة ، من حيث المبدأ ، مهمة شاقة للغاية: إعطاء رسم بياني به ن العقد و إل edges ، وهو أسوأ وقت تشغيل للعد من 2 إلى ك-عقدة الرسوم البيانية (لكل من الحالة غير الموجهة والموجهة) مع إستراتيجية تعداد كاملة هي ا(ن ك ): يعطي حد أعلى أكثر إحكامًا ا(ناغورني كاراباخالأعلى ك−1) ، أين كالأعلى هي درجة العقدة القصوى للرسم البياني 20،24. من الناحية العملية ، لا يتم الوصول إلى هذه الحدود التشاؤمية أبدًا: بفضل تنوع شبكات العالم الحقيقي ، واستغلال استراتيجيات العد الأكثر حكمة ، يمكن إجراء تحسينات كبيرة. اقترح Hočevar و Demšar 26 خوارزمية ORCA ، بناءً على استراتيجية عد معينة. تعقيدها ا(لوكالأعلى + تي4) لتعداد الرسوم البيانية من 2 إلى 4 عقد ، و ا(لوكالأعلى 2 + تي5) للرسوم البيانية من 2 إلى 5 عقد ، حيث تي4 و تي5 هي مصطلحات لا تذكر في معظم الحالات. اقترح Aparicio و Ribeiro و Silva 25 نهجًا آخر يعتمد على بنية بيانات معينة ، وهو جي تري 27: أظهرت أداءً أعلى فيما يتعلق بـ ORCA ، ولكن لم يتم توفير الحد الأعلى النظري لها.

تعتمد مسافات الشبكة المستندة إلى Graphlet على عدد الرسوم البيانية ، والتي يمكن تنظيمها بعدة طرق:

مسافات تردد الجرافيت النسبية (RGFD) 18. يتم حساب الرسوم البيانية البالغ عددها 29 من 3 إلى 5 عقد في كل شبكة. ثم يتم تحديد المسافة على أنها (د (_<1>,_ <2>) = <مجموع> _^<29>,|_(_<1>)-_(_ <2>) | ) أين Fأنا(⋅) تشير إلى عدد الرسم البياني أنا تم تسويتها فيما يتعلق بإجمالي عدد الرسوم البيانية في الرسم البياني.

اتفاقية توزيع درجة الجرافيت (GDDA) 22. يتم حساب 73 مدارًا ذاتي الشكل من الرسوم البيانية من 2 إلى 5 عقد في كل شبكة جي. لكل مدار ي = 0 ، 1 ، ... ، 72 ، توزيع درجة الرسم البياني (GDD) دجي ي (ك) ، وهو عدد العقد في جي مؤثر ك مرات ذلك المدار ، محسوبة. يتم تحجيم هذه الكمية لأول مرة على أنها دجي ي (ك)/ك، ثم تطبيعها من خلال المساحة الإجمالية تيجي ي تحت ي- الحصول على GDD نجي ي (ك) = (دجي ي (ك)/ك)/تيجي ي . ثم ، اتفاق ي- ال GDD بين الشبكات جي1 و جي2 يعرف ب

والمسافة النهائية GDDA تؤخذ على أنها المتوسط ​​الهندسي أو الحسابي لجميع الاتفاقيات الـ 73 أ ي (جي1, جي2).

مسافة ارتباط Graphlets (GCD): يافيروغلو وآخرون. قام 19 بالتحقيق في التبعيات بين الرسوم البيانية ووجد أن بعض المدارات زائدة عن الحاجة ، أي أنه يمكن الحصول على تعدادها بالفعل من تعداد المدارات الأخرى. أدى التخلص من المدارات الزائدة عن الحاجة إلى تحديد مقياس أكثر عقلانية وفعالية. على سبيل المثال ، تحتوي الرسوم البيانية التي تصل إلى 4 عقد على 4 مدارات زائدة ، ويؤدي التخلص منها إلى تقليل عدد المدارات إلى 11 من الرقم 15 الأصلي. ن-شبكة عقدة جي، ال نواقل درجات الرسوم البيانية 28 ، أي عدد المدارات المدروسة التي تلمسها كل عقدة ، يتم إلحاقها صفًا بصف لتشكيل a ن × 11 مصفوفة. بعد ذلك ، يُحسب معامل ارتباط سبيرمان بين جميع أزواج الأعمدة ، للحصول على 11 × 11 مصفوفة ارتباط Graphlet GCMجي. مسافة GCD بين الرسوم البيانية جي1 و جي2 يتم تعريفها أخيرًا على أنها المسافة الإقليدية بين الأجزاء المثلثية العليا من المصفوفات GCMجي1 و GCMجي2. يافيروغلو وآخرون. أظهر أن GCD-11 (المسافة مع المدارات غير الزائدة عن الحاجة) تفوقت على GCD-15 (مع المدارات الزائدة عن الحاجة) ، ولكن أيضًا GCD-73 و GCD-56 ، المسافات القائمة على الرسوم البيانية المكونة من 5 عقدة مع أو بدون مدارات زائدة ، على التوالي. أيضًا ، كان أداء GCD-11 أفضل من المسافات الأخرى المستندة إلى الرسوم البيانية في التعرف على نماذج الشبكة المختلفة.

NetDis 29: يقارن عدد الرسوم البيانية في الأحياء المتداخلة للعقد ، بدلاً من الشبكة بأكملها: وبشكل أكثر تحديدًا ، فهو يأخذ في الاعتبار شبكة الأنا المكونة من خطوتين لكل عقدة. يأتي الأساس المنطقي من الملاحظة التي تفيد بأن حجم الشبكة وكثافتها يؤثران بشدة على عدد الرسوم البيانية العالمية ، وأن هذا التأثير يمكن تخفيفه عن طريق تقييد الشبكات الفرعية المحلية. عدد الجرافيت (من جي0 إلى جي29) لكل شبكة غرور ثم تطبيعها فيما يتعلق بالأعداد المتوقعة من نموذج فارغ. للدلالة به سث(جي) المجموع عبر جميع شبكات الأنا للعدد الطبيعي للرسم البياني ث في الرسم البياني جي. ثم ، لحجم معين ك ∈ <3، 4، 5> من الرسوم البيانية:

أين م(ك) هو تطبيع التأثير المستمر netD2 س (ك) ∈ [-1 ، 1]. أخيرًا ، مسافة NetDis لـ ك-عقدة يتم تعريف الرسوم البيانية على أنها

لاحظ أن مقياس NetDis يعتمد فعليًا على ك، وهي بالتالي معلمة يتم اختيارها. يافيروغلو وآخرون. أشار 20 إلى بعض الجوانب الحاسمة للطريقة ، مثل اختيار نموذج فارغ ، والكفاءة الحسابية ، والأداء ، والتي هي بشكل عام أدنى من تلك الخاصة بالمسافات الأخرى المستندة إلى الرسوم البيانية.

جرافين 21. في هذه الطريقة ، متجهات درجة الرسم البياني للرسوم البيانية جي0 إلى جي29 يتم حسابها أولاً لكل عقدة ، ثم قياسها في [0 ، 1] قسمة كل مكون على العدد الإجمالي للرسم البياني المقابل في الشبكة بأكملها. ثم يتم إجراء تحليل المكون الرئيسي على متجهات درجة الرسم البياني المعاد قياسها ، والأول ص يتم الاحتفاظ بالمكونات التي تمثل 90٪ على الأقل من إجمالي التباين. يتم تحديد المسافة بين الشبكتين على أنها 1 - د كوس (ص1, ص2)، أين د كوس هو جيب التمام التشابه و ص1, ص2 هم أول ص المكونات الرئيسية للرسمين البيانيين. يعد استخدام PCA فكرة جديدة ضمن الأساليب القائمة على الرسم البياني ، والتي تعمل على تحسين جودة النتائج والأداء الحسابي. أظهرت الاختبارات التي أجريت على الشبكات التركيبية أن GRAFENE تؤدي على الأقل مثل الطرق الأخرى الخالية من المحاذاة ، وتتفوق على جميع الطرق الأخرى على الشبكات الحقيقية 21.

لقد وسعت الطرق المتعددة 24،25 من قابلية تطبيق الأساليب القائمة على الرسوم البيانية الرسوم البيانية الموجهةبهدف مقارنة الشبكات الموجهة (غير الموزونة). سمح هذا بتحديد الإصدارات الموجهة لعدد قليل من المسافات الحالية 24: مسافة التردد النسبي الموجهة (DRGFD)، ال اتفاقية توزيع درجة الجرافيت الموجهة (DGDDA) و ال توجيه ترابط جرافليتس المسافة (DGCD).

الأساليب القائمة على المحاذاة

تنشئ هذه الطرق تعيينًا بين عقدتي رسمين بيانيين (انتقام الإجراء) في محاولة لتعظيم دالة موضوعية تلتقط جودة المطابقة. نشأت في علم الأحياء الحسابي ، حيث تم اقتراح عدد من الخوارزميات (على سبيل المثال ، المراجع. . على العكس من ذلك ، تقوم عائلة GRAAL (Graph Aligner) (GRAAL 33 و H- 34 و MI- 11 و C- 35 و L-GRAAL 36) بمحاذاة الشبكة بناءً على هيكل الشبكة (باستثناء أحدث L-GRAAL ، والتي يمكن أن تستغل كل من علم الأحياء والطوبولوجيا). بالنظر إلى الرسوم البيانية جي1 = (الخامس1, ه1) و جي2 = (الخامس2, ه2) مع |الخامس1| ≤ |الخامس2| ، تعيين العقدة F:الخامس1الخامس2 يتم تعريفه ، مما يؤدي إلى رسم خرائط للحواف ز:الخامس1 × الخامس1الخامس2 × الخامس2 مثل ذلك ز(ه1) = <(F(ش), F(الخامس)): (ش, الخامس) ∈ ه1>. الوظيفة الموضوعية التي تقيس جودة محاذاة العقدة F ثم يتم التعبير عنها بواسطة صحة الحافة

أي جزء من الحواف في ه1 بمحاذاة الحواف في ه2. حل مشكلة المحاذاة يتلخص في إيجاد F الذي يزيد EC. تقترح عائلة GRAAL عددًا من الأساليب المختلفة: يحدد GRAAL و H-GRAAL درجة تشابه لكل زوج (ش1, ش2) ∈ الخامس1 × الخامس2 بناءً على درجات الرسم البياني (انظر أعلاه) للعقدتين ، وبالتالي يمثل تشابه أحيائهم. ثم بالنسبة للمحاذاة ، يستخدم GRAAL خوارزمية "البذور والتمديد" الجشعة التي تحاول تعظيم التشابه الكلي ، بينما تحل H-GRAAL نفس المشكلة مثل التعيين الأمثل (الخوارزمية المجرية). في MI-GRAAL يتم تعيين درجة ثقة ، محسوبة من خلال مراعاة إحصائيات العقدة المختلفة (على سبيل المثال ، الدرجة ، معامل التجميع ، إلخ) لكل زوج (ش1, ش2) ∈ الخامس1 × الخامس2، ثم تتم محاذاة العقد بدءًا من الأزواج ذات أعلى الدرجات. هذه الطريقة قابلة للتخصيص ، حيث يمكن استخدام أي إحصائيات للعقدة لحساب درجة الثقة - وهذا يسمح للمقارنة بين الشبكات الموجهة والمرجحة. لا يتطلب C-GRAAL مقياس تشابه عقدة صريح (والذي يمكن دمجه ، إذا كان متاحًا) ولكنه يعمل على طوبولوجيا الشبكات باستخدام خوارزمية تكرارية تعتمد على الجيران المشتركين. أخيرًا ، تعمل L-GRAAL على تحسين وظيفة موضوعية جديدة تأخذ في الاعتبار كلاً من الحفاظ على البروتين المستند إلى التسلسل والحفاظ على التفاعل القائم على الرسم البياني ، باستخدام توجيهات المحاذاة استنادًا إلى برمجة الأعداد الصحيحة والاسترخاء لاغرانج. العيب الرئيسي لهذه الأساليب هو كفاءتها الحسابية ، والتي تتناسب على الأقل تربيعياً مع عدد العقد.

طرق طيفية

الأساس المنطقي هنا هو أنه نظرًا لأن طيف مصفوفة التمثيل لشبكة (جوار أو مصفوفة لابلاسية) يحمل معلومات حول هيكلها ، فإن مقارنة الأطياف توفر مقاييس لمقارنة الشبكات. تم استخدام مناهج مختلفة: اقترح ويلسون وزو 37 ببساطة أخذ المسافة الإقليدية بين الطيفين ، بينما اقترح جيرا وآخرون. 38 اقترح أن تأخذ مسافة ص- قيمة الاختبار اللامعلمي لتقييم ما إذا كان الطيفان يأتيان من نفس التوزيع. على الرغم من سهولة الاستخدام ، أثبتت الطرق الطيفية أنها تعاني من العديد من العيوب ، بما في ذلك الطيف المشترك بين الرسوم البيانية المختلفة ، والاعتماد على تمثيل المصفوفة ، والحساسية غير الطبيعية (التغييرات الصغيرة في بنية الرسم البياني يمكن أن تنتج تغييرات كبيرة في الطيف).

NetLSD (الواصف الطيفي لشبكة لابلاس)

تلخص هذه الطريقة 39 ميزات الرسم البياني (غير الموجه وغير الموزون) جي بواسطة متجه مشتق من حل "معادلة الحرارة" ∂شر/∂ر = −لور، أين شر هو نناقلات الأبعاد و إل = أناد −1/2 ميلادي −1/2 هي مصفوفة لابلاسيا الطبيعية. هذا يشبه ديناميكيات جهاز المشي العشوائي المستمر (على سبيل المثال ، المرجع 40) بحيث يكون الحل مركزية تشبه صفحة الصفحة 41. إل متماثل ويمكن كتابته كـ إل = ΦΛΦ T عن طريق التحلل الطيفي ، ومن ثم يتم إعطاء الحل المغلق بواسطة ن × ن مصفوفة "نواة الحرارة"

دخول من (حر)اي جاي هي الحرارة المنقولة من العقدة أنا إلى ي في الوقت ر. يقوم NetLSD بتكثيف تمثيل الرسم البياني بتنسيق توقيع تتبع الحرارة

دالة الوقت المستمر حر يتحول أخيرًا إلى متجه ذي أبعاد محدودة عن طريق أخذ العينات خلال فترة زمنية مناسبة ، والمسافة بين شبكتين جي1, جي2 تؤخذ على أنها قاعدة الفرق المتجه بين ح(جي1) و ح(جي2). يظهر الأداء التنافسي لـ NetLSD في عدد قليل من مهام تصنيف التعلم الآلي. تعقيد الوقت ا(ن 3) ، إذا تم تنفيذ التكوين الكامل لللابلاسيان. هذا من شأنه أن يحد من نطاق التطبيق إلى بضعة آلاف من العقد: لذلك ، تم تصميم مخططات التقريب لإعادة بناء الطيف بعد حساب عدد محدود فقط من القيم الذاتية. بهذه الطريقة ، يمكن معالجة الشبكات التي تصل إلى 10 6 عقد. على الرغم من عدم مناقشتها في الورقة ، فإن الطريقة قابلة للتطبيق بسهولة على الرسوم البيانية الموزونة ، في حين أن الامتداد للشبكات الموجهة يبدو غير تافه بسبب الخصائص الطيفية المختلفة.

اختلاف الصورة

إنها طريقة حديثة 42 تعتمد على الرسم البياني الثابت الذي يشفر توزيع أقصر أطوال المسار في الرسم البياني: صورة الشبكة 43 هي مصفوفة ب دخول من بك, ل = 0, 1, …, د (د هو قطر الرسم البياني) ، ك = 0, 1, …, ن - 1 ، هو عدد العقد التي بها ك العقد في أقصر مسافة مسار ل. يمتد التعريف أيضًا إلى الشبكات الموجهة والمرجحة - في الحالة الموزونة ، هناك حاجة إلى استراتيجية binning لإدارة أطوال المسار ذات القيمة الحقيقية. تُعد صورة الشبكة ملخصًا قويًا للسمات الطوبولوجية للرسم البياني - على سبيل المثال ، عدد العقد والحواف وتوزيع الدرجات وتوزيع أقرب الجيران التاليين وعدد أقصر مسارات الطول ل يمكن استردادها مباشرة من ب. مسافة التباعد العمودي بين الرسوم البيانية جي1 و جي2 ثم يتم تعريفها على النحو التالي. أولا ، الاحتمال ص(ك, ل) (وبالمثل س(ك, ل) للرسم البياني الثاني) اختيار عقدتين بشكل عشوائي على بعد ل ولإحدى العقدتين ك العقد على مسافة ل، محسوبة:

أين نج هو عدد العقد في المكون المتصل ج. بعد ذلك ، يتم تحديد مسافة التباعد الرأسي باستخدام اختلاف جنسن-شانون:

أين م = (ص + س)/2 is the mixture distribution of ص و س، و KL( ⋅ || ⋅ ) is the Kullback-Liebler divergence. The method is computationally efficient for small and medium size graphs, since it is quadratic in the number of nodes, and can naturally handle disconnected networks.

Graph kernels

A graph kernel ك(جي1, جي2) is a non-negative function of two feature vectors F1, F2, respectively representative of the two graphs جي1, جي2. In abstract form, a graph kernel implements a (generalized) inner product of the two graphs, which is taken as a measure of their similarity. The proposal of using kernel methods for graph comparison is attributed to refs. 44,45 - see also refs. 46,47 for a unified description and survey.

The approach is very general, as feature vectors can be defined in very different forms. A recent paper 48 , introducing an R/Python implementation, summarizes 14 different kernel types among the most popular ones: the majority of them are based, in different forms, on statistics on node/edge labels (thus they fall out of the scope of our work, as we do not assume labels on nodes/edges). Two of them are based on graphlet count, and the remaining on the comparison of random walks on the two graphs. But this list is by no means exhaustive, as many other proposals are found in the literature (e.g., ref. 49 defines a Laplacian graph kernel). Therefore, graph kernel methods can be considered as a general framework where diversified network features can be included. It follows that selecting the proper graph kernel for the problem at hand can be critical, also considering the non trivial computational requirements of this class of methods: we refer the reader to the discussion in ref. 47 .

Bayes’ modeling of a network population

The network comparison problem can be addressed using a Bayesian nonparametric approach. Durante وآخرون. 50 proposed a mixture model to describe a population of networks, interpreted as realizations of a network-valued random variable, and in particular to infer the parameters of the probability mass function of such variable. This is not a distance-based method, since no explicit distance is defined to compare networks. Instead, the use of a Dirichlet process prior naturally yields a clustering of the input networks thanks to the discreteness of the resulting measure.

Persistent homology

Homology is an algebraic-topological measurement of the structure of an undirected unweighted network which, based on the number and dimension of cliques and cycles, exploits the information carried by the mesoscale structure of the network. The generalization to weighted graphs is possible by considering persistent homology, which tracks the evolution of cycles when a sequence of unweighted graphs is obtained by thresholding the network at distinct edge weights. This technique was used by Sizemore وآخرون. 51 , where suitable quantities derived from persistent homology are jointly used as features to classify networks via hierarchical clustering, showing a superior performance with respect to using standard graph statistics. In the paper, however, no network distance is explicitly defined.


Divergent Evolution

As the name implies, divergent evolution shows how species can change slightly over time and separate (diverge) into new forms. For example, in vertebrates like pigs, birds, monkeys and whales, the forelimbs have the same general sets of bones, but they have been modified over time so the animals can use their forelimbs in very different ways. Divergent evolution is studied on a larger scale such as how the current diversity of life on Earth evolved from the first living cells, to a smaller scale where natural selection caused humans and apes to evolve from a common ancestor.


The image above shows how the beak sizes and shapes of finches that live on the Galapagos Islands (Darwin’s Finches) have diverged over time in response to natural selection pressures from the competition for food.


Implementation of the Stream and Assessment of Student Learning

We implemented the comparative biology stream during fall semester 2006 (F06) and spring semester 2007 (S07) using the instructional sequence described above. During F06, assessment of student learning in the comparative biology stream included a lab quiz that had a question about mapping characters and mirrored the work the students had done with the skeletons during week one of the stream. In addition, the LB144 final exam included a section on comparative biology. One of the extended response questions on this exam asked students to map the following characters onto a phylogenetic tree that had phylum names as terminal taxa: (a) true tissues (b) radial and bilateral symmetry (c) acoelomate, pseudocoelomate, and eucoelomate body plans and (d) protostome and deuterostome embryological development. This exam question was almost identical to the question/task completed as a lab team during week four of the comparative biology stream (Fig. 5).

During S07, assessment of student learning included a lab quiz. However, we also gave a stand-alone hour exam that included a section on comparative biology. Our (the teaching team’s) response to this exam was a sense that the students still did not “get it” with respect to mapping specified characters onto morphology-based trees. Therefore, in preparation for the final exam, we prepared an Animal Problem Study Guide that we handed out in class (not shown). We then asked the mapping question again on the final exam, but without the requirement to map the acoelomate, pseudocoelomate, and eucoelomate body plans (Fig. 5).

Student learning of tree-thinking apparently was better during S07 than S06. On the F06 final exam, the students scored an average of 3.86/6.00 (±1.66), or 64.3%, on the characteristic-mapping question (Fig. 5) during S07, the mean score was 4.45/6.00 (±1.76), or 74.2%. Among the possible reasons for the higher scores observed during S07 than F06 are the extra coaching and the second chance provided the students (hour exam and the final exam), and the easier question given on the final exam (not having to map acoelomate, pseudocoelomate, eucoelomate Fig. 5). We also do not know if there were differences in the student populations between the two semesters, whether additional instructional differences existed, or how well our assessment techniques accurately quantified student learning.

Our course evaluations at the end of the semester allowed us to obtain anecdotal student responses regarding the comparative biology lab stream. Several students commented that they really enjoyed the dissections. This comment makes sense given that many LB144 students are planning careers in medicine. Another sentiment expressed was that students appreciated the opportunity to demonstrate individual knowledge through the PowerPoint presentations.

Although we have presented here an informal preliminary analysis of student learning, formal quantitative assessment of student learning in the comparative biology stream is ongoing. We created and employed a Phylogeny Assessment Tool to assess prior knowledge (Pre-test) and learning outcomes (Post-test), and collected data from approximately 200 LB144 students during fall semester 2008. Data analyses are in progress and will form the basis of a separate manuscript (Smith and Cheruvelil, in preparation).


أساليب

EP methods

Evolutionary Probability captures neutral expectations for observing an allele by using a Bayesian analysis of long-term evolutionary history of the sequence. Using a multi-species alignment and phylogenetic relationships among the sequences, Liu et al.’s method [1] first estimates the posterior probability of observing any allele in sequence of interest by using the prior knowledge of the relationship among sequences and the sequences themselves. For example, EP can answer the question: “what is the probability of observing an alanine residue at position 42 in the بشري beta globin protein (HBB), given the multiple sequence alignment for HBB in 46 vertebrate species?” To answer such a question, Liu et al.’s method assumes that the actual residue at position 42 in the human sequence is unknown, and produces probabilities for all alleles possible at the site (20 residues for amino acid sequence alignments).

Formally, EP of an allele at a sequence position in a given species in a tree is the weighted mean of a set of posterior probabilities <ص0, ص1, ص2, ⋯ , صن> calculated from the sequence alignment and species phylogeny. ص0 is the posterior probability of observing a specific allele at a specific position in the focal species where the full dataset is used. Here 0 indicates no sequences are excluded. ص1 is the posterior probability of the same allele at the same position after excluding the sister species or group closest to the focal species. The 1 indicates that the first closest group to the focal species was excluded. In the phylogenetic tree in Fig. 9, this means that the chimpanzee lineage is excluded when computing ص1. This process is repeated for the residual phylogeny, which results in fewer species in progressive pruning steps. The pruning stops when the tree has only one outgroup and the focal species. The number of pruning steps (ن) depends on the tree topology and the number of sequences in the tree. Figure 9, shows a total of 15 pruning steps for the 46 vertebrate species phylogeny, with humans as the focal species.

Phylogenetic relationships of 46 vertebrate species used for calculating evolutionary probabilities (EP). Nodes ancestral to the focal species, human, are labeled with numbers that correspond to pruning steps in EP calculation algorithm (see Methods). Numbers in parentheses next to the species label represent the step at which the taxon is pruned from the tree. Each of the seven main species groups used in the taxon density sampling are colorized (including the outgroup, lamprey) and labelled

The weights of PPs used to calculate EP are the set of divergence times <تي0, تي1, تي2, ⋯ , تين>, where تيأنا للجميع أنا ≥ 0 is the divergence time between the focal species and the closest related taxon in the phylogeny used for calculating صأنا. Then, using a standard weighted mean formulation:

Therefore, the weights for posterior probabilities are normalized times, and are thus unit-less.

The modified EP approach differs from the EP method of Liu et al. [1] in that the evolutionary relationships (phylogeny) of sequences in the given alignment and the divergence times among clades are both inferred from the sequence alignment itself. We suggest inferring such evolutionary relationships by using model-based methods, e.g., Maximum Likelihood under a suitable substitution model [13], which are known to be more accurate than the alternatives [14, 15]. In order to transform this phylogeny into a timetree, one may use a Bayesian method or a RelTime approach [16]. We selected RelTime, because its computational time requirements are orders of magnitude smaller [17]. Also, RelTime produces excellent relative times without requiring any calibration or other prior assumptions, as shown through extensive computer simulations [17, 18]. Additionally, the RelTime method has a strong theoretical foundation and produces results that are similar to those from Bayesian methods for empirical datasets [19,20,21]. These relative times can be directly used, because the weight function in the EP calculation effectively normalizes divergence times in the input, making relative and absolute times equivalent (see above). Thus, using either absolute times (as used in the Liu et al. application of EP) or relative divergence times (as used in this modification) in the calculations will produce identical results.

In the modified EP approach, however, we also used a modified weight for the EP calculations. Instead of the divergence time between the focal species and the closest related taxa, تيأنا is instead the evolutionary time span (ETS see “Evolutionary Time Span” section) of the protein in tree at stage أنا. This approach is different from the Liu et al. implementation of EP, where later pruning steps were given higher weights because divergence time between the focal species and the closest-related taxon increases in subsequent pruning steps. Here we decrease the relative contribution of later pruning steps because an amino acid present in a distant taxon is less likely to be neutral than one observed in a closely-related taxon [22]. The neutrality of an allele can be better estimated as information for more diverse and distant taxa are available at a site. As more taxa are included in a sample, a clearer picture of the results of natural selection can be gleaned.

We refer to the EP method where species relationships and divergence times used are known beforehand as the “original” EP method, and the EP method where species relationships and divergence times are both inferred as the “modified” EP approach.

تجميع البيانات وتحليلها

We downloaded sequence alignments of 18,621 protein-coding gene orthologs in 46 vertebrate species from UCSC Genome Browser [23] (accessed 21 June 2016). Where duplicate isoforms of the same protein were found, we selected the alignment with the longest sequence. We found that the sequences for 230 human protein-coding genes (“proteins”, henceforth) differed by > 2% from RefSeq canonical sequences, so we excluded these from analyses. The remaining 18,391 sequence alignments were used to compute EP values for all tested approaches.

Missense variants used for evolutionary permissibility classification were acquired from the 1000 Genomes Project Phase III (1KG) dataset [8]. Single nucleotide variants (SNVs) in the 1KG dataset were mapped to human protein coding gene sequences retrieved from UCSC Genome Browser [23]. SNVs that resulted in missense changes were retained for analysis, while synonymous and nonsense changes were filtered out. In subsequent analyses, these missense SNVs were identified solely by resulting amino acid changes. We found 543,220 sites at which a missense mutation occurs in at least one of the 2504 individuals in the set of 18,391 proteins analyzed. For each protein, we computed amino acid EP values using MEGAX [24] under a Poisson model with a discrete Gamma distribution of rates (5 categories) that includes invariant sites (G + I). Other models could have been specified, but the estimates of EP were previously shown to be robust to the complexity of substitution model used [1]. For analyses where the phylogeny was presumed to be unknown, we first calculated maximum-likelihood trees in MEGAX using the same substitution models used in the EP calculation branch lengths were discarded and only the topology was used.

Our human disease dataset consists of 50,422 disease associated missense variants retrieved from the Human Gene Mutation Database (HGMD, http://www.hgmd.cf.ac.uk/ac/) [25]. Candidate Adaptive Polymorphisms (CAPs) were retrieved from http://mypeg.info/caps (accessed 21 June 2016). EP for each variant was calculated using the modified EP method described above.

Calculating ΔeForb

For a given protein, we quantified the proportion of incorrect inference under the modified EP method (ΔeForb). For each protein, we first determined the number of sites at which missense variants were found in the 1KG data set. At each site, we considered both segregating alleles (1KG reference allele and the alternate allele) and gave them eForb designation by using the EP values produced by the original EP method (retrieved from http://mypeg.info/ep accessed 21 June 2016). If such an eForb was not found to have EP < 0.05 when using the modified EP approach, then it contributed to ΔeForb fraction. A ΔeForb of 50% indicates that 50% of all alleles at missense sites, which were eForbs by the original EP method, received an EP > 0.05 by the modified EP approach.

Evolutionary time span

A protein’s evolutionary time span (ETS) is the average of positional time spans (PTS) across all sites in a protein sequence alignment. PTS at a site is the total time along all branches in a tree for which a valid base (or residue, depending on whether nucleotide or protein sequence alignment is used) has existed in the evolutionary history of the site [26]. Alignment gaps and missing data in a multiple sequence alignment are not considered valid bases. To compute PTS for a site in a sequence alignment, the independently established timetree, or master timetree (used in the original EP calculation), is pruned such that only taxa that have a valid base at that site are retained. PTS is then simply the total time spanned by the resulting timetree (sum of times spanned by each branch) for that site. PTS will be a maximum for a site which has a valid base for all taxa in the master timetree.

Residue evolutionary time span (RTS) is the total time that a specific residue has been found in the evolutionary history of a site [27]. RTS is calculated by pruning the master timetree such that only taxa that possess the specified residue are retained. RTS is the total time spanned by the resulting timetree (sum of times spanned by each branch) of a residue at a site. A residue that is not found in any sequence at a site has RTS of 0. RTS for all amino acids at a site will sum to the PTS for that site. A relative residue time span is often more informative than simple RTS, because it accounts for the PTS of a site and allows for comparison between sites with different PTS.

ETS can serve as a proxy for the amount of sequence information available ETS that is close to the maximum indicates that there are few gaps in the sequence alignment, while ETS that is much lower than the maximum indicates a larger number of alignment gaps. PTS can convey similar information at the per-site level. Similarly, a small RTS means that the residue was found in a limited number of species and occupied that position for a limited amount of evolutionary time. In contrast, a large RTS means that the residue is commonly observed among species. Thus, time spans can be more informative to the properties of a sequence alignment as a relative value. So, here, we refer to all time span values as fractions of the maximum possible value of that measure (%ETS, %PTS, %RTS) i.e., %ETS is the proportion of a sequence alignment with no invalid bases covered by the ETS of the protein (ETS / maximum possible ETS), %PTS is the proportion of the time span covered by PTS for a site with valid bases for all species in the alignment (PTS / maximum possible PTS), and %RTS is the proportion of the PTS spanned by a specific allele (RTS / PTS).

Tree distance

Branch-length distance [28] was used to quantify the error in inferred phylogenies, which were used in the modified EP analyses. The inferred tree was compared to the timetree used in the original EP method, but since the inferred tree produced relative time branch lengths, we first scaled the inferred tree such that its sum of branch lengths was equal to that of the original EP timetree. The branch-length distance, unlike simple symmetric differences or partition metrics, measures both differences in topology as well as branch length differences of the trees being compared. Such a measure is useful here because EP incorporates both species relationships (topology) and divergence times (branch lengths) into its calculations, so an ideal distance measure will capture differences in both of these properties.

Taxon sampling

Sampling within clades

In our taxon “density sampling” experiments, the number of taxa included in each major clade of the 46 species vertebrate tree were varied (Fig. 9). We generated 100 replicate samples for one, two, three, and four taxa per clade (density) for seven clades (A-G, Fig. 9). Taxa were randomly sampled from these clades when generating replicate datasets, and humans were used as the focal species. For each analyzed clade density, the mean and standard error of EP were calculated for each residue, separately for original and modified approaches. Additionally, the mean ETS for all replicates was recorded for each clade density.

Sampling between clades

“Temporal sampling” iteratively increases the number of taxa distantly related to the focal species, human (Fig. 9). In each iteration, the next closest related taxon to the previous dataset is included. The first iteration requires a minimum of 3 taxa to analyze: human, chimpanzee, gorilla the second iteration added orangutan, the fourth added rhesus monkey, until the final iteration contained all taxa including the lamprey.

Receiver operating characteristic (ROC)

We calculated true eForb and false eForb classification rates under various eForb thresholds (EP value below which an allele is considered evolutionarily forbidden 10 evenly spaced thresholds between EP < 0.01 and EP < 0.1) to determine the performance of the modified EP approach relative to the original EP method. For a given eForb threshold, we identified each eForb variant in the 1KG dataset based on EP values from the original EP method as the set of “condition positive”. 1KG variants that were not eForbs comprised the set of “condition negative” variants. For the same set of 1KG variants, we collected the set of eForbs identified across a variety of discrimination thresholds based on modified EP values as the set of “predicted condition positive” variants. Variants not predicted to be eForbs using modified EP values were the set of “predicted condition negative” variants. True(/false) eForb classification rates were calculated as the fraction of condition positive(/negative) variants that were correctly classified as eForbs(/not eForbs) when using the original EP values as the ground truth. ROC curves were generated for each of the eForb thresholds from 0.01 to 0.10, as described above.


Internodes

By contrast, internodes are the sections of stem between nodes. If the nodes are the crucial “organs” of the plant, the internodes are the blood vessels carrying water, hormones, and food from node to node.

Usually, internodes seem long and provide spacing between nodes of many inches. However, some plants are notable for how close together their leaves, and thus their nodes, always are. Dwarf conifers have closely-spaced nodes. Yews and boxwoods, with their very dense leaves, also always have short internodes. This fact is why they can be sheared or pruned into any shape, including the special form of topiaries.


How Parsimony Works

Starting with a set of species and a set of genetic traits, the parsimonious approach would be to look at which traits are shared between species. The tree is constructed by working through the possible relationships for each trait and selecting the option that has the fewest number of state changes. That is the intermediate ancestor species for each trait. The creation of the tree continues until it gets to the root, or common ancestor, for all of the species being mapped.


2.1 Reading Trees

A phylogenetic tree is an illustration depicting the hypothesized درجات of evolutionary relationship amongst a selected set of taxa (singular = taxon). The taxa are typically species, but can also be higher-level Linnaean groupings like genera or families. Alternatively, some phylogenetic trees depict relationships among individuals within a species (e.g., from geographically isolated populations). Regardless of their rank, the taxa depicted in a phylogenetic tree are often called terminal taxa , because they occur at the tips of the tree. They are sometimes referred to as "terminals" or "leaves."

Terminal taxa are connected by branches . The branches are the line segments that make up the tree. Branches come together at branching points called nodes . Each nodes represents a common ancestor shared by two or more terminal taxa.

Parts of a phylogenetic tree, including terminal taxa, branches, and nodes. Image by Jonathan R. Hendricks (Creative Commons Attribution-Sharealike 4.0 International license).

The Relatedness of Taxa

Remember that phylogenetic trees depict درجات of relationship among taxa. On a phylogenetic tree, more closely related terminal taxa are connected by shallower nodes (i.e., nodes nearer to the tips of the tree) and more distantly related terminal taxa are connected by deeper nodes (i.e., nodes nearer to the base of the tree).

Examine the figure above. In that figure, Taxon B and Taxon C are more closely related to one another that either is to Taxon A. We know this because Taxon B and Taxon C share a shallower node (the blue node) than then node that either shares with Taxon A (the yellow node). Another way of putting this observation is that Taxon B and Taxon C share a node (the blue node) that neither shares with Taxon A. Taking a broader view, we also know that Taxa A, B, and C are more closely related to each other than they are to Taxa D, E, F, G, and H. This is because Taxa A, B, and C share the yellow node in common, which does not link to Taxa D, E, F, G, or H. Taxa A, B, and C are linked to Taxa D, E, F, G, and H by a deeper node (the red node).

Branches may be rotated about nodes without any change in the hypothesized relationships depicted on a tree diagram. Convince yourself that the three trees below depict the exact same set of relationships among Taxa A-H. In each case, the only change that has been made is that branches and the terminal taxa connected to them have been rotated around nodes. Remember, the degree of relationship amongst various combinations of terminal taxa is indicated by the relative depth of the nodes that connect them.

Tree A. Image by Jonathan R. Hendricks (Creative Commons Attribution-Sharealike 4.0 International License).

Tree B. Image by Jonathan R. Hendricks (Creative Commons Attribution-Sharealike 4.0 International License).

Tree C. Image by Jonathan R. Hendricks (Creative Commons Attribution-Sharealike 4.0 International License).

The graphic style of phylogenetic trees varies. For example, the tree shown below depicts the exact same pattern of relationships among Taxa A–H as the three trees shown above.

A bracket-style phylogenetic tree. Image by Jonathan R. Hendricks (Creative Commons Attribution-Sharealike 4.0 International License).

Increasingly, it is common to see circle-shaped phylogenetic trees such as the one shown below. Circular trees are often used to illustrate relationships among members of major groups of extant organisms, and these trees may have many terminal taxa. Circular trees can be read in the same way as the trees shown above, because the relative depth of the nodes indicates the degree of relatedness among terminals.

A circle-shaped phylogenetic tree that depicts relationships among the major groups of living organisms (blue = bacteria green = Archaea pink = eukaryotes). This tree was created by Ivica Letunic and was retraced by Mariana Ruiz Villarreal (public domain).

Clades and Sister Groups

A clade (from the Greek klados = branch) is a group that includes an ancestor (node) and all of its descendants (all shallower nodes and terminal taxa that descend from that node) on a phylogenetic tree. If you pick a node on a phylogenetic tree, you can easily draw a circle around the clade that it defines, as in the tree below. While many clades have no formal names, some important clades are named in formal classification schemes (for more on clades and classification, see this later section).

A phylogenetic tree that illustrates the concept of clades. Note that clades are not mutually exclusive, but are nested within one another. Image by Jonathan R. Hendricks (Creative Commons Attribution-Sharealike 4.0 International license).

Clades are not mutually exclusive, but rather form nested sets on a tree. Thus, any given taxon can belong to many clades. For example, in the tree above, Taxon B belongs to three clades, a clade defined by Node 1, a more inclusive clade defined by Node 2, and an even more inclusive clade defined by Node 7. Taxon E belongs to four clades defined by Nodes 3, 5, 6, and 7, respectively. Try to figure out how many clades Taxon A and Taxon H belong to, and determine which nodes define each clade.

Sister taxa or sister groups are pairs of terminal taxa and/or clades that branch from a common node and are often considered closely related. Pairs of sister terminal taxa in the figure above include: B and C, E and F, and G and H. The clade defined by Node 3 (Node 3 + Taxon E + Taxon F) is sister to the clade defined by Node 4 (Node 4 + Taxon G + Taxon H). Terminal taxon A is sister to the clade defined by Node 1 (Node 1 + Taxon B + Taxon C). Try to find more sister pairs on the tree above.

The Meaning of Branch Lengths

Two things are implicitly occurring along the branches of a phylogenetic tree. The first is the passage of time. Deeper nodes are older than the shallower nodes to which the are connected. Thus, deeper nodes indicate both more distant relationships among the terminal taxa that they connect, as well a greater age for the most recent common ancestor of those taxa. The second thing is evolutionary modification, or the accumulation of hereditary genetic and/or structural changes along branches. While these changes are often not shown (mapped) directly on the branches, it is these inferred changes that underpin the construction and interpretation of a phylogenetic tree. When systematists talk about " branch lengths ," they are typically referring to the number of these changes.

So, does the length of the branches as depicted on a phylogenetic tree (in other words, the length of the branches on an actual diagram showing a hypothesis of evolutionary relationships) mean anything? The answer is: it depends.

Time and number of evolutionary changes may have no direct relationship to the relative lengths of branches as depicted on a tree. Many such trees are cladograms, or branching diagrams made using clastic methods, which have their roots in the work of Willi Hennig. (Note: The term " cladogram " is sometimes applied to any type of phylogenetic tree.) Often, diagrams that are drawn for general informational purposes to depict a consensus hypothesis of relationships amongst a group of taxa (for example, in a textbook) also do not have branches scaled to time or to number of evolutionary changes. In this type of diagram, the taxa will either be aligned at the branch tips or all branches will be about the same length (meaning that the taxa are not aligned).

A phylogenetic tree in which the branches are not scaled to time or evolutionary change. This diagram is a cladogram. From: Turner et al. (2017) بلوس واحد 12(2): e0169885. Used in accordance with Creative Commons Attribution 4.0 International (CC BY 4.0) License.

In other cases, branches on a tree are scaled so that they reflect the amount of evolutionary change (in other words, the number of modifications in characteristics) that has occurred. In this type of diagram, branch lengths will differ and taxa will not be aligned at the branch tips. Sometimes this type of tree is called a phylogram.

Example of a phylogenetic tree with branches scaled to depict number of evolutionary changes (a phylogram). Notice the the branch lengths on the diagram differ and the taxa are not aligned. From: Zapata et al. (2015) بلوس واحد 10(10): e0139068. Used in accordance with Creative Commons 0 1.0 Universal, Public Domain Dedication (CC0 1.0).

Trees may also have branch lengths that are scaled to time, making the relationship between relative node depth and time explicit. Typically, a time scale (relative and/or numerical) will be included beside the tree to indicate the timing of branching events. If a tree is explicitly scaled to time, it can be called a chronogram such trees are also sometimes called " time trees " (also time-trees or timetrees). If all taxa in a chronogram are extant (living), they will be aligned at the present.

Example of a phylogenetic tree with branches scaled to depict time (a chronogram). The gray bars at the nodes are error bars. From: Zhang et al. (2013) بلوس واحد 8(7): e70449. Used in Accordance with Creative Commons Attribution (CC BY) License.

Sometimes, extinct taxa may be included as terminals on a phylogenetic tree. If such a tree has branches scaled to time, extinct taxa will not be aligned at the present time. Rather, the branch tips for extinct taxa will end at the levels in time at which they went extinct, as shown below.

Examples of cladograms scaled to time and including extinct taxa as terminals. From: Wright and Stigall (2013) بلوس واحد 8(7): e68353. Used in Accordance with Creative Commons Attribution (CC BY) License.


شاهد الفيديو: Weve Found The Magic Frequency This Will Revolutionize Our Future (ديسمبر 2022).