发布日期:2015-12-24
本条信息已被查看了349 次
|
||
社会实践:线粒体基因编组研究 |
线粒体是细胞中提供能量的器官,它的基因组编码多个在能量代谢中起关键作用的基因,而鱼类的迁徙对能量的要求很高,我们希望通过比较不同迁徙模式下的鱼类,研究其线粒体编码的基因是否有差异,探讨这些基因在鱼类迁徙中在鱼类的迁徙过程中可能发挥的作
用。
我们通过公共数据库和海洋鱼类生物学实验室的数据,发掘一些不同迁徙方式的鱼类及其线粒体DNA 序列,包括一些重要的经济鱼类;通过生物信息学的软件对线粒体DNA 编码的各种基因进行序列比对,同时根据序列比对的结果构建这些鱼类的进化树,找出这些鱼类之间的亲缘关系,为下一步工作打好基础;通过这些DNA 序列数据,分析这些线粒体基因组的氨基酸组成,核苷酸组成以及密码子组成,找出不同迁徙方式的鱼类是否存在这些组成差异;另外,我们分析这些比对好的序列,研究他们之间氨基酸和密码子替代的表现,调查不同迁徙方式的鱼类是否存在差异。本研究通过生物信息学的手段进行鱼类科学的研究。生物信息学是一门新兴的交叉学科,随着生物技术的发展,逐渐成为生物科学研究中不可或缺的研究手段。在鱼类科学研究中,生物信息学的应用还相对比较少,本课题主要通过生物信息学手段进行课题研究,是本课题的重要特色。线粒体是哺乳动物重要的能量产生和供给的细胞结构,跟鱼类对温度的适应范围应该有密切的关系,但在以往的研究中,对于他们之间的联系关注不多。本课题通过对线粒体基因组的研究,试图发现其中的内在关系。本课题通过PAML 等生物信息学软件的应用,通过研究生物序列了解鱼类迁徙的分子机制,在鱼类学研究方法上是个创新。
线粒体遵循严格的母系遗传,这有利于我们对亲缘关系的研究,且线粒体是重要的功能单位,与生物体活动息息相关。通过对线粒体的研究能使我们更好的了解生物的习性,了解生物为了生存适应所处的环境而在线粒体上发生的进化。
目前,通过编写程序去fishbase网站上抽取我们需要的鱼类生活信息,再到NCBI和motofish网站上抽取鱼类线粒体的序列,我们已经收集好了1500多种鱼类的各种生活信息以及线粒体的12sRNA,16sRNA蛋白质的DNA序列和氨基酸序列。
对于数据的处理我们采用分类的方法,将各种生活信息一一作为变量来分析不同鱼类的线粒体基因位点有没什么改变。将鱼类按目分类,通过它们的蛋白质序列做生物进化树,分析他们的亲缘关系。
在进行项目的过程中我们学习使用了seaview,BioEdit,MEGA等软件的相关用法,以及用python和R的编程处理数据。
在多序列比对中要区分同源相似与相同,如果两个序列享有一个共同的进化上的祖先,则这两个序列是同源的,同源是个定性的概念,没有度的差异,而相似和相同是定量的概念。直系同源:同源的基因是由于共同的祖先基因进化而产生的;旁系同源:同源的基因是由于基因复制产生的。
DNA序列比对的替换计分矩阵:1.等价矩阵,等价替换矩阵是最简单的一种替换记分矩阵,相同的核苷酸间的匹配得分为1,不同的核苷酸间替换得分为0.2.转换-颠换矩阵,核算的碱基按照环结构特征被划分为两类,一类为嘌呤(腺嘌呤A,鸟嘌呤G),它们有2个环,另一类是嘧啶(胞嘧啶C,胸腺嘧啶T),它们只有一个环。如果碱基的替换保持环数不变,则称为转换,如A,G间C,T间的替换,如果环数发生变化则称为颠换。在进化过程中,转换发生的频率远比颠换高。3.BLAST矩阵 经过大量实际比对发现,如果令被比对的两个核苷酸相同是的得分为+5,反之得分为—4,则比对效果最好。BLAST矩阵是目前最流行的核酸序列数据库搜素程序。蛋白质序列比对的替换分析记分矩阵:1.等价矩阵:蛋白质等价矩阵与DNA等价矩阵相同,是最简单的替换记分矩阵,其中,相同氨基酸间的匹配得分为1,而不同的氨基酸间的替换得分为0. 2.遗传密码矩阵遗传密码矩阵通过计算一个氨基酸转变成另一个按计算所需的密码子的变化的数目而得到的,矩阵元素的值对应于代价。如果变化一个碱基就可以使一个氨基酸的密码子改变为另一个氨基酸的密码子,则这两个氨基酸的替换代价为1;如果需要2个碱基的改变,则替换代价为2;而Met到Tyr的转变是仅有的密码子三个位置都需要发生变化的转换。遗传密码矩阵常用语进化距离的计算,其优点是计算结果可以直接用于绘制进化树,但是它在蛋白质序列比对(尤其是相似程度很低的蛋白质序列比对)中很少被使用。3.疏水性矩阵在相关蛋白质之间,某些氨基酸可以很容易地相互取代而不改变它们的生理生化性质,这些例子包括异亮氨酸和缬氨酸,丝氨酸和苏氨酸。根据20种氨基酸侧链基团疏水性的不同以及氨基酸替换前后理化性质变化的大小,以氨基酸的疏水性为标准制定。4.PAM矩阵对于氨基酸之间的替换,对实际替换率的直接观察常常是导出合理的记分的好方法,由此产生的一组替换记分矩阵是可接受点突变矩阵。它们基于氨基酸进化的点突变模型,即如果两种氨基酸替换频繁 ,说明自然界易接受这种替换,那么这对氨基酸替换得分就应该高。PAM矩阵是目前蛋白质序列比对中最广泛使用的记分方法之一,基础的PAM-1矩阵反应的是进化产生的每百个氨基酸平均发生一个突变的量值。
进化树表明了具有共同祖先的各五中间的演化关系。所谓树,从数据结构角度来讲,实际上是一个无向非循环图。系统发生树由一系列节点和分支组成;每个节点代表一个分类单元(物种或序列),节点间的连线代表节点之间的进化关系。树的节点又分为外部节点和内部节点;外部节点代表实际观察到的分类单元;内部节点又称为分支点,它代表了进化事件发生的位置,或代表分类单元进化历程中的祖先。
根据节点的不同意义,系统树又可以分为物种树,基因树等,前者常常根据物种的表型数据构建,后者才是分子水平的。
系统发生树有许多形式:可能是有根树,也有可能是无根树;可能是一般树,也可能是二叉树;可能是有权值的树,也可能是无权值的树。
有根树反映了树上物种或基因的时间顺序,而无根树只反映分类单元之间的距离而不涉及谁是谁祖先的问题。在一棵有根树中,有一个唯一的根节点,代表所有其他节点的共同祖先,这样的树能够反映进化层次,从根节点历经进化到任何其他节点只有唯一的路径。系统发生分析中一个重要的差别是,有的能由系统发生树推断出共同的祖先和进化方向,而又的却不能。无根树没有层次构造,无根树只说明了节点之间的关系,没有关于进化发生方向的信息。但通过使用外部参考物种(那些明确地最早从被研究物种中分化出来的物种),可以在无根树中指派根节点。
二叉树是一种特殊的树,每个节点最多有两个子节点。在有权值的书中,分支的长度一般与分类单元之间的变化成正比,它是关于生物进化时间或者遗传距离的一种度量形式。一般假设存在一个分子中,进化的速率恒定。
分子水平的系统树构建主要有四种方法。1.距离矩阵法,首先计算每对序列之间的进化距离,其准确大小依赖于进化模型的选取,然后运行一个聚类算法,从最相似的序列开始构建整个进化树;2.最大简约发,较少涉及遗传假设,它通过寻求序列间最小的改变来完成建树的;3.对于模型的巨大依赖性是最大的改变来完成建树的;3.对于模型的巨大依赖性是最大似然发的特征,该方法在计算上繁杂,但为统计推断提供了基础。4.贝叶斯算法,速度较慢,一般的进化树分析中较少应用。