某人群中某位点上各等位基因的频率,即是该群体在该位点上的遗传结构;其全部位点上的基因频率即是该人群的整个遗传结构。人群遗传结构的差异,实质上是基因频率的差异。人类群体遗传变异性水平受人口迁移、人群融合、自然选择、漂变、地理和社会隔离、突变等多因素的综合影响,这些因素的综合作用构成了群体内或群体间某位点或多位点的遗传结构。遗传结构数据可用基因频率矩阵表示。由于群体内或群体间广泛存在基因多态性现象,一个位点常常包括多个等位基因,多个位点所包含的等位基因数目和组合方式则更是复杂多样。如果仅用某位点中的一个等位基因分析其群体遗传结构,不能充分利用其遗传变异信息,结论是片面的,故须对每个基因分别进行分析。但是,利用不同基因所作的分析其结论往往不同,难以统一。传统的解决方法之一是对基因频率矩阵进行主坐标分析,将各群体的主坐标作为新的综合指标,再以散点图的形式映射到二维或三维空间中,从而帮助研究者从整体上分析人类群体遗传结构的基本规律。因而,在群体遗传学研究中被广泛应用但是,尽管主坐标分析能在二维或三维空间中显示各群体的遗传结构,却不能揭示各群体之间的内在关系。本研究认为,
将图论方法与主坐标分析有机结合,利用图论方法构建各群体的最小生成树(minimalspanning中心化基因频率矩阵中的元素为数值变量资料,tree,MST),并把最小生成树整合到主坐标散点图可选择欧氏(Euclidean)距离、马氏(Manhattan)距上,即可进一步揭示主坐标散点图中各群体之间离、曼哈顿(Block区组)距离、Bray-Curtis距离或的内在遗传结构关系,称之为图论主坐标分析Kulczynski距离等不相似性测度构建群体(dK)间(graphtheoryprinc;palcoordinatesanaiysis)<dcRibli的n>n阶不相似性矩阵;③将不相似性测度进行0.5dK转化,该转换可保证在计算过程中保持原有的不相似性;④对转换后的矩阵进行谱分解获得特征根L及其对应的特征向量U,并进一步计算各主坐标的贡献率及其累计贡献率;⑤根据Y=-u计算主坐标值,取前1、主坐标绘制二维主坐标散点图。
1.2.2按图论原理求过m维空间n个点的最小生成树
⑴图论与最小生成树的基本概念图论是近年来较活跃的数学分支之一,其研究对象为图。图[7]是指某类具体事物的顶点(vertex,或节点note)以及它们间的联系(图1)。节点与节点之间用线段联系,称为边(edge,或支路branch);某边的端点称为与该边的关联(incident),与同一边关联的两个端点称为邻接(adjacant);起点与终点重合的通路为回路(circuit)。若图中两端点间由一条通路连接,则两端点是联通的(connected),该图称为联通图;不含有回路的连通图称为“对”,树中的边称为树枝。可以证明树中任两顶点间必有一条且仅有一条通路。如果T图是G图的一个生成子图,且它又是‘树”,则T是G的生成树(span?ningtree)。设一个生成树的边的长度之和为权,则具有最小权的生成树称为最优树(optionaltree)或最小生成树。有n个顶点的树,可能会有n-2个生成树,但仅有一个最小生成树。构造最小生成树的方法常用避圈法或‘破圈法”。
xuezuocai.com
避圈法”中又分为以权重为主的Kruskal法和以点为主的Prim法,‘破圈法”则以逐步删除边”为基本思路。⑵最小生成树的生成步骤①以基因频率矩阵X为基础,利用欧氏距离构造权矩阵;②以权矩阵为基础,利用Kruskal法构造最小生成树。首先选择并连接权重或相似性最大(或距离最短)的两点,再在剩余的点中选择与这两点之一相似性最大的点与之连接;再以相似性大小,逐次把剩余的点与巳连成的点连接起来,直至把所有点连接完为止,即可形成一个最小生成树。
1.2.3分割最小生成树用图论中求‘颈”的方法[w]分割最小生成树(MST),对群体进行分类。具体步骤为:①求‘生干,:n个点由(n-1)个边互相连接,其中有两个端点仅有一条边连接,其余点至少有两条边连接,因而构成了一条无回路的链,被称为干”。其中,边数最多的干称为MST的‘主干”或直径②求子主干”以MST主干上的
的一条干,称该干为该点的子主干,子主干的边数为该点的‘深度”找‘颈”规定一个大于1的整数a,在主干上找出深度>a点的子主干,诸子主干公共部分中深度为零的各点间的边长为颈”在图中删除颈,使MST分割成若干部分,从而实现群体分类。
1.2.4将最小生成树整合到二维主成分散点图中构建图论主成分分类图根据最小生成树上n个点间的链接关系将二维主成分散点图中的n个点(群体)连接起来,并把上述确定的群体分类用虚线将各类围起,得出‘图论主成分分类图”。
采用GraphMagics-1.0.1(://proghtml<proghtml>/)和PAST-1.30(byHammer[11].http://)两个软件完成上述所有运算。
2实例分析--中国26个汉族人群HLA-
A位点群体遗传空间结构的图论主坐标分析
2.1群体遗传学资料根据不同地理环境,收集中国26个汉族群体的HLA-A基因多态性群体遗传学调查数据,以各基因的基因频率为指标进行统计,标准为:①样本含量大于100;②设一个人群的基因频率为一套,对每套数据先进行c2检验,剔除不符合Hardy-Weinberg定律者;③用加权法合并不同研究者对同一地区同一民族所报道的基因频率数据。以上资料组成中国汉族HLA-A位点的基因频率矩阵。该位点中的等位基因包括A1,A2(A203),A3,A5,A9(A23,A24,A2403),A10(A25,A26,A34,A66),A11(A11.1,A11.2),A19(A29,A30,A32,A33,A34,A74),A28(A68,A69),A36(表1)。
2.2中国26个汉族人群HLA-A位点的图论主坐标分析对表1数据所构成的HLA-A基因频率矩阵作中心化变换后进行主坐标分析。通过选取多种不相似测度构建不相似矩阵,发现用欧氏距离时的前1、主坐标的累计贡献率较大,达到77.35%,因此本研究选用欧氏距离不相似测度对中国26个汉族人群HLA-A位点的群体遗传结构进行图论主坐标分析,图1是其图论主坐标分类
解释了HLA-A位点遗传结构变异性的54.63%的信息;第2主坐标的贡献率为22.7%,解释了HLA-A位点遗传结构变异性的22.72%的信息,二者累积贡献率为77.35%,解释了HLA-A位点遗传结构变异性近80%的信息,说明降维效果较好。
⑵图中以上海汉族群体为界,将中国汉族群体区分为南方、北方两大汉族群体,沿横轴自左至右基本形成了自南向北的遗传地理梯度。该结果符合中华民族源与流的客观规律。
⑶用求‘颈”法分割最小生成树,又可把南、北方汉族两大群体分为若干亚群体,亚群体内各群体间HLA-A位点遗传结构相似。
⑷在散点图中位置相邻的群体,并非同属一s^chLSnnTopua^fdfmA-Alocusin类群体,需根据最小生成树的链接关系而定。例如,甘肃与河南两群体的空间位置虽很近,但它们在最小生成树中不相连,二者分属于不同的群体类型:甘肃群体与陕西群体相连,同属西北汉族群体;而河南群体与江苏群体相连,江苏群体又与安徽、河北两群体相连,四个群体同位于一个地理区域。
3讨论
3.1图论主坐标轴分析中的不相似距离测度的选择在图论主坐标轴分析中,可以用多种距离测度构建不相似距离矩阵。实际工作中选择何种距离测度,需根据以下两方法决定:①根据前1、主坐标的累计贡献率选择:例如,本研究通过选取多种不相似测度构建不相似矩阵,发现用欧氏距离时的前1、主坐标的累计贡献率最大(77.35%),所以,选用欧氏距离测度对中国26个汉族人群HLA-A基因座的群体遗传结构进行图论主坐标分析;②根据距离测度的群体遗传学意义选择距离测度:在主坐标散点图中,虽然各种遗传距离测度都代表群体之间的遗传距离,但它们的群体遗传学意义却有所不同。遗传距离(geneticdistance)是衡量群体间遗传分化程度和遗传差异大小的重要参数。通常,遗传距离是根据一定的基因突变理论模型而设计的。这些理论模型包括无限基因突变模型、逐步突变模型和核苷酸序列突变模型等。然而,本质上遗传差异的任何数值测度,只要是在基因频率水平上,由不同群体间的数据计算而来,皆可定义为遗传距离。因此,遗传距离的计算方法有多种,分别适用于不同资料类型。本研究所用的欧氏距离(euclideandistance)是一种几何距离。几何距离作为遗传距离的测度,虽然简单直观,但没有一个理论突变模型作为基础,仅是根据解析几何的数学方法进行计算。尽管如此,Takezaki和Nei(1996)[16]在用不同距离测度重构种群分化的拓扑(topology)结构的模拟研究中,发现几何距离在重构种群分枝的拓扑结构时更加准确。因而,几何距离仍然是测量群体遗传结构变异性的有效测度。除欧氏距离外,还有马氏距离(euclideandistance)、弦距离(chorddistance)等几何遗传距离,在图论主坐标分析中,根据其累计贡献率可以选择应用。的主坐标分析能在二维或三维空间中显示各群体的遗传结构,却不能揭示各群体之间的内在关系。图论主坐标分类图既可显示各群体的遗传结构特性,又可利用最小生成树的连接关系揭示各群体间的内在联系;图论主坐标分析比单纯的主坐标分析和单纯的图论聚类分析效果更好,是分析人类群体遗传结构的一种理想方法
中国论文网(www.lunwen.net.cn)免费学术期刊论文发表,目录,论文查重入口,本科毕业论文怎么写,职称论文范文,论文摘要,论文文献资料,毕业论文格式,论文检测降重服务。 返回医疗卫生列表