加载中…
首页 博文目录 关于我
个人资料
生信课堂
生信课堂
微博

加好友 发纸条

写留言 加关注

  • 博客等级:
  • 博客积分:0
  • 博客访问:23
  • 关注人气:23
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小: 大

进化树构建的方法及原理详解

(2021-04-20 10:06:24)
标签:

进化树

分类: 生物基础知识

系统进化树介绍

研究分子进化所要构建的系统发生树(Phylogenetic tree),也叫分子树,对于一个未知的基因或蛋白质序列,可以利用系统发生树确定与其亲缘关系最近的物种。比如你得到了一个新发现的细菌的核糖体RNA,你可以将它跟所有已知的核糖体RNA放在一起,然后用他们构建一棵系统发生树。这样就可以从树上推测出谁和这个新细菌的关系最近。系统发生树还可以预测一个新发现的基因或蛋白质的功能。系统发生树还分为有根树和无根树(下图),顾名思义,有根树就是有根,无根树就是无根。其实两者是可以互换的。如果我们按住无根树上某一个点,然后用把梳子将树上所有的枝条都以这个点为中心向右梳理,就能把它梳成有根树的样子。按住的这个点就是根。所以对于一棵树来说,根的位置是主观的,你想让他在哪它就在哪里。但是你不能随意指定哪个内节点当根,毕竟根有其自身的生物学意义,它应该是所有叶子的共同祖先。那么我们如何确定根的位置呢?可以通过外类群(outgroup)来确定,从而把无根树变成有根树。有根树反映了树上基因或蛋白质进化的时间顺序,通过分析有根树的树枝的长度,可以了解不同的基因或蛋白质以什么方式和速率进化。而无根树只反映分类单元之间的距离,而不涉及谁是谁的祖先问题。做有根树需要指定外类群。所谓外类群,就是你所研究的内容之外的一个群。比如你要分析某一个基因在不同人种间的进化关系,那就可以额外选择黑猩猩加入进来,作为外类群一同参与建树。
https://www.omicsclass.com/image/show/attachments-2020-09-MnAQf6Lb5f72f5647fdc6.png

进化树的构建

(1)数据准备
在进行系统发育分析时需要通过构建系统发育树来描述不同物种或者基因之间的进化关系,通过同源DNA的核苷酸序列或者同源蛋白质分子的氨基酸序列可以实现构建进化树的构建。
(3)序列比对
为了保证序列的同源性和所得系统发育关系的可靠性,需要对原始序列进行比对和校正。自动比对序列的软件包括Clustalw 、MAFFT、MUSCLE等。
(4)保守区用于构建进化树
保守区选择是系统发育分析过程中一个重要的步骤。分析时可以选择保守位点,也可以选择基因全长序列,但是当序列差异大时,建议保留保守序列用于进化树构建。常用的保留序列保守区的软件有Gblock、MEME等。

进化树构建方法的选择

算法英文名
算法中文名
ML,Maximum likelihood 最大似然法
NJ,Neighbor-Joining 邻接法
MP,Maximum parsimony 最大简约法
ME,Minimum Evolution 最小进化法
Bayesian 贝叶斯推断
UPGMA 不常用

从计算速度来看,最快的是基于距离的方法,几十条序列几秒钟即可完成。其次是最大简约法。最大似然法就要慢得多。最慢的是贝叶斯法。但是从计算准确度来看,算得最慢的贝叶斯法确是最准确,而算得最快的基于距离法结果确是最粗糙。从实用的角度,建议使用最大似然法。因为这种方法无论从速度还是准确度都比较适中。

进化树构建方法讲解

虽然软件可以快速自动地完成系统发生树的构建,但是对于基本算法的了解还是必不可少的。以非加权分组平均法(UPGMA法)为例,介绍如何通过计算所有序列两两间的距离,再根据距离远近构建系统发生树。序列两两间的距离可以用双序列比对得出的一致度/相似度代表,或用其他简化值代替。

第一种:UPGMA法(非加权配对算术平均法)

比如,有如下 A、B、C、D 四条序列:

A:TAGG
B:TACG
C:AAGC
D:AGCC

在接下来的例子里,我们用序列间不同的碱基数目作为序列间遗传距离的度量。首先,计算出每两条序列间有几个碱基不同,并以用矩阵的形式记录下这些距离,找出距离最小的一对序列。A和B之间的距离最小,d[AB]=1。然后将 A 与 B 合并聚集,其分支点为 d[AB]/2=1/2=0.5。即,A、B之间的距离等于1,从中间折叠后每边各 0.5。现在,把(AB)看成一个整体,分别计算它们与C和D的距离。(AB)和C的距离等于A和 C 的距离加上B和C的距离除以2,即,d[(AB)C]=(d[AC]+d[BC])/2=(2+3)/2=2.5。同样,(AB)和D的距离等于A和D的距离加上B和D的距离除以2,即,d[(AB)D]=(d[AD]+d[BD])/2=(4+3)/2=3.5。据此,计算出新的距离矩阵,并找出新矩阵中最小的距离。C 和 D 之间的距离最小,d[CD]=2。将C和D进行合并聚集,其分支点为 d[CD]/2=2/2=1。接下来,把(CD)看成一个整体,计算它们与(AB)之间的距离。(CD)与(AB)之间的距离等于C和(AB)的距离加上D和(AB)的距离除以2,即,d[(CD)(AB)]= (d[C(AB)]+d[D(AB)])/2=(2.5+3.5)/2=3。最后,将(AB)与(CD)进行合并聚集,归为一类,分支点为 d[(CD)(AB)]/2=3/2=1.5。这样,A、B、C、D 四条序列的系统发生树就构建好了。树上,枝的长短直接反应了它们与共同祖先的距离。
https://www.omicsclass.com/image/show/attachments-2020-09-XufLkgiB5f72f57eb7ff4.png

第二种:邻接法NJ法(neighbor joining method)

是一种推论叠加树的方法。在概念上与UPGMA法相同,但是有四点区别
a. NJ法不要求距离符合超度量特性,但要求数据应非常接近或符合叠加性条件,即该方法要求对距离进行校正。
b. 邻接法在成聚过程中连接的是分类单元之间的节点(node),而不是分类单元本身。
c. NJ法中原始距离数据用于估算系统树上所有端结分类单元之间的距离矩阵,校正后的距离用于确定节点之间的连接顺序。
d. 在重建系统发育树时,NJ法取消了UPGMA法所做的假定,认为在此进化分支上,发生趋异的次数可以不同。

https://www.omicsclass.com/image/show/attachments-2020-09-Jt6T9hof5f72f58c5f6c6.png
对于给定距离矩阵中的每一端结i,用下式计算与其它分类单元之间的净趋异量(Ri) (t:矩阵中的分类单元数)
建立一个速率校正距离矩阵M,其元素由下式确定:
定义一个新节点u,u的三个分支分别与节点i,j和树的其余部分相连,并且Dij为矩阵中距离最小者,u到节点i和j的分支长度定义为
定义u到树的其它节点k(k≠i和j外的所有节点)的距离:
从距离矩阵中删除i和j的距离,矩阵减少一阶。
如果矩阵仍然多于两个的节点,重复第-步,否测除最外两个节点的分支长度来确定外,树上其余节点都确定,最后是剩余的2个的分支长度Sy=Dij

第三种:最大简约法(Maximum Parsimony Method)

最大简约法的理论基础是奥卡姆(Ockham)哲学原则,这个原则认为:解释一个过程的最好理论是所需假设数目最少的那一个。方法:计算所有可能的拓扑结构,计算出所需替代数最小的那个拓扑结构,作为最优树。

第四种:最大似然法(Maximum likelihood

这个方法最早是遗传学家以及统计学家罗纳德·费雪爵士在 1912 年至1922 年间开始使用的 。基本思想是:当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大,而不是像最小二乘估计法旨在得到使得模型能最好地拟合样本数据的参数估计量。方法:选取一个特定的替代模型来分析给定的一组序列数据,使得获得的每一个拓扑结构的似然率都为最大值,然后再挑出其中似然率最大的拓扑结构作为最优树(所以分析时间比较长)

进化树检验:Bootstrap

不同的方法可能会得到不同的结论,我们需要用不同的方法以及不同的参数,加上对生物问题的理解来构建最好的进化树来帮助我们更好的理解生物学问题。其中一个衡量树的好坏的方法就是看bootstrap的值,值越大越好。Bootstrap值是指根据所选的统计计算模型,设定初始值1000次,就是把序列的位点都重排,重排后的序列再用相同的办法构树,如此让模型计算并绘制1000株系统发育树,这是命令阶段产生的。如果原来树的分枝在重排后构建的树中也出现了,就给这个分枝打上1分,如果没出现就给0分,这样给进化树打分后,每个分枝就都得出分值。系统发育树中每个节点上的数字则代表在命令阶段要求的1000次进化树分析中,有多少次最后一般换算重百分数。一般bootstrap的值>70%,则认为重建的进化树较为可靠。如果bootstrap的值太低,则有可能进化树的拓扑结构有错误,进化树是不可靠的。因此,一般推荐用两种以上不同的方法构建进化树,如果所得到的进化树类似,且bootstrap值总体较高,则得到的结果较为可靠。通常情况下,只要选择了合适的方法和模型,构出的树均是有意义的,研究者可根据自己研究的需要选择最佳的树进行分析。

替换模型的选择

选择进化距离模型是构建进化树的基础。DNA 分子中基因的进化距离是通过对核苷酸替代数进行估计获得的,要估计核苷酸替代数,就必须应用核苷酸替代的数学模型。举个例子:在DNA中,碱基之间存在四种转换(A→G,G→A,C→T,T→C)和颠换(A→C,A→T,C→G,G→T),通常情况下转换频率比颠换频率高。
https://www.omicsclass.com/image/show/attachments-2020-09-B0kjbrf55f72f59b34ff3.png
这些偏向会影响两个序列之间的预计分歧。由于DNA 序列的进化、演化比较复杂,因此许多学者提出了不同的核苷酸替代模型。当今常用的核苷酸替代模型有JC69 、K80 、F81、TN93,HKY和GTR 模型等。当然氨基酸也有很多替换模型。这些不同的替换模型确定了不同的进化距离和不同的系统发育树。但实际的生物进化历史是唯一的,我们并不能从这么多的模型中确定真实的核苷酸替代过程是依照哪种模型发生的。

0

阅读 收藏 喜欢 打印 举报/Report
前一篇: 机器学习文章套路-预测土壤枯萎病-ISMEIF=9
后一篇: 6分+文章告诉你2021基因家族分析文章还好发!
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有

玻璃钢生产厂家福建玻璃钢卡通雕塑立体制作福建商场玻璃钢花盆常见玻璃钢花盆有哪些酒店玻璃钢雕塑哪家好德庆玻璃钢造型雕塑批发北京创意玻璃钢雕塑方法园林玻璃钢卡通雕塑源头好货贵州景观玻璃钢雕塑厂防城港玻璃钢雕塑江苏圣诞商场美陈甘肃玻璃钢马雕塑公司静安商场美陈石家庄玻璃钢卡通雕塑生产厂家巩义玻璃钢动物雕塑春节香港美陈六商场碰碰车棚子玻璃钢雕塑新乡玻璃钢浮雕学校镂空雕塑菏泽花朵玻璃钢人物雕塑新乡抽象玻璃钢人物雕塑甘南玻璃钢雕塑价格沈阳公园玻璃钢雕塑制作南平城市玻璃钢雕塑玻璃钢火焰雕塑城市玻璃钢雕塑定制党建钢化玻璃钢雕塑报价表上海大型商场美陈价格卡通雕塑玻璃钢有哪些平台江宁商场春节美陈南充玻璃钢雕塑摆件施工方法抚州动物雕塑玻璃钢图片香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化