第三节 数值分类学(Numerical Taxonomy)
由于近代科学技术的迅速发展,电子计算机在分类学中的应用,一门新兴的边缘学科——数值分类学建立起来了。电子计算机用于分类学只是近30余年的事,随着这一学科的建立,可能对系统学、分类学的许多工作方法、步骤和概念产生很大的影响。
数值分类学是用数量的方法来评价有机体类群间的相似性,并根据相似性值将某些类群归成更高阶层的分类群(taxa)。数值分类学是以表型特征为基础,利用有机体大量性状(包括形态学的、细胞学的和生物化学等的各种性状)、数据,按一定的数学模型(model),应用电子计算机运算得出的结果,从而作出有机体的定量比较。它不仅运用的性状数量多,运算速度快,而且没有偏见,比较客观,这是以往分类学家难以做到的。经过这种处理所得到的分类群之间的关系,不是凭经验的判断,而是凭大量的性状并可验证的,因为这个关系是用一定的精确标准计算得来的。
下面简略介绍数值分类学的基本步骤。
(一)确定研究对象
进行数值分类工作的第一步,是要确定分类单位,它可以是个体、品系、种、属或更高级的单位,但主要是应当使挑选单位尽可能代表所研究的有机体。在特定研究中所采用的最基本的单位,称为分类运算单位(operational taxonomic unit,简称OTU,复数OTU'S)。
(二)选择性状
只有通过比较分类单位之间特征的相似程度,才能确定这些分类单位是否相似,因此分类单位确定后,就要选择OTU的性状。性状的选择对数量分类学的分类工作至关重要。就植物分类而言,要选择相对稳定的性状,也就是要选择那些受环境影响较小,保守性强的性状,如繁殖器官,具体地说是花序的类型,雄蕊、雄蕊的数目,子房的心皮数和室数,胚珠着生方式,胎座的类型,果实开裂方式,种子的特征等等。有些性状虽然变化较大,可以采用数学方法进行变换,常用的一种变换是取两性状之间的比值当作一个新的性状。譬如叶的大小变化很大,如果取其长与宽之比作为新的性状,往往比较稳定而可靠。除形态、解剖特征外,也可选择细胞的、生理和生化的等多种多样的性状。为了获得稳定和可靠的分类,特征数量一般要在50个以上,最好100个或更多。
(三)性状的编码
性状选出后,为了下一步进行数学运算,必须以数表示,因而对各种性状状态进行编码。不同的性状有不同的编码方法,简述如下。
1.数值性状 用自然数和实数所表示的性状均称为数值性状。例如生物形态的各种度量、长度、面积、体积、角度和重量等;生物组织器官各部分构成的数量;各种性状之间的比例关系;各种仪器测试的数据等,这些都是数值性状。数值性状本身就已经是数值,故多数的分类方法对数值性状无需编码处理,就可转入下一步进行数学运算。
2.二元性状 性状表现为两种对立状态者,称为二元性状。例如植物有叶柄与无叶柄、单叶或是复叶、花冠是离瓣或是合瓣、心皮是分离或是结合、果实开裂或不裂等,即非此即彼的性状。它的编码很简单,将2个性状分别以“+”和“-”表示。“+”为肯定的状态,“-”为否定的状态。
3.有序多态性状 表现为两种状态以上,能排列在一定次序上的性状称为有序多态性状。例如植物体表被微毛、有毛、多毛、密毛。编码时可以取连续排列的非负整数0、1、2、3……n,分别表示n+1个有序多态性状的状态。例如具毛的性状可编码为:无毛(0),具微毛(1),具毛(2),多毛(3),密毛(4)。
4.无序多态性状 表现在3个状态以上没有次序的性状称为无序多态性状。例如花序有穗状、总状、圆锥、伞形、伞房、头状等。无序多态性状比较复杂,编码方法通常是将无序多态性状分解为互相独立的二元性状,如穗状花序、非穗状花序;伞形花序、非伞形花序等。另一种方法也是将性状分解,但不是就每一个状态都列为1性状,而是从所有的状态中找出比较合适的新的性状逐步分解进行编码。例如花冠有各种不同类型,既可分解为离瓣和合瓣,还可分解为辐射对称与两侧对称,然后再可分解为是否唇形花冠等。
(四)原始数据的变换和标准化
经过编码所获得的原始数据如果全部是二元数据,并无特殊需要,可以直接进行相似性系数的运算;如果数据是一般的实数,就必须先进行数据的变换和标准化,然后才能进行相似性系数的运算。在生物分类中从各方面观察记录的性状数据为多种多样,有来自形态解剖的,生理、生化的、细胞学的、生态学的等等。来源各不相同,数据本身所代表的意义也不同,度量标准亦异。数据的复杂性最后反映在数值的大小和变化的幅度,因不同的性状而各不相同。性状之间的这种差异便影响分类运算的结果。因此,在进行运算之前需要先进行变换或标准化处理。
1.数据的变换 对原始性状数据进行变换的方法,就是将需要变换的数据代入一个事先拟好的函数中进行计算,得出一组新的数值代替原来的性状数据。如果原始数据为xi,变换后的数据为x'i,则数据变换可用下式表示:
下面是几种简单的数据变换:
(1) 减去某一常数:x'i=xi-c
(2) 乘以非零常数c:x'i=xi·c
2.数据的标准化 目前在分类运算中,有一种数据变换已成为常规手段,叫作数据标准化。原始数据进行这种变换的运算过程,称为原始数据的标准化。尤其在主成分分析和许多相似性系数的运算中,原始数据的标准化已成为必不可少的步骤。
如果有t个分类单位,n个性状,经过编码以后的原始性状状态数据,可用如下矩阵表示:
原始数据进行标准化处理公式如下:
yij表示原始矩阵中第i个分类单位,第j个性状的数值。标准化差。
(五)相似性概念的数量化
数值分类学中需要引进比亲缘关系更广泛的概念即相似性的概念。相似性程度用数值来表示称为相似性系数。相似性系数的出现是生物分类朝定量方向发展的重要标志。相似性系数有距离系数、相关系数、联合系数、信息系数和模糊系数5个主要类型。现将应用较多的2种简述如下。
1.距离系数 在数值分类学中,距离系数应用较早。其优点是对于分类运算有较好的稳定性,而且也比较直观,所以直至今天仍被普遍采用。常用的距离系数计算公式有:
平均欧氏距离系数:
Minkowski距离系数:
Canberra距离系数:
2.相关系数 相关系数来自统计数学中的相关系数。它在数值分类学中颇为重要。相关系数值的变化范围在-1—1之间。用它来表示相似性程度,其数值变化与距离系数有着相反的意义。相关系数值越大,相似性程度也越大,反之,值越小,相似性程度也越小。计算公式如下:
当Rij=1时,为完全正相关;当Rij=0时,两个分类单位的数据为不相关;当Rij=-1时,则为完全负相关。
(六)分类运算
当从原始数据开始,经过很多步骤,算出了相似性系数矩阵的准备工作完成后,就要开始着手聚类运算。聚类策略是整个分类分析的核心内容,选用策略不同,结果也将不同。现将按距离系数以最短距离聚类的运算过程简述于下。
按距离系数聚类是一种聚合的分类方法,运算过程大致如下:先将每一个分类单位看做一个OTU,运算最初,求出OTU之间的相似性距离系数矩阵,也就是分类单位的距离系数矩阵。从类群的相似性距离矩阵中找到距离最小的1对类群,将这两个类群合并得到1个新的类群。然后计算新类群与其余所有类群之间的距离系数,并以此新类群代替被合并的1对类群,得到新的类群之间的距离系数矩阵,这样便完成了一次循环运算。接着进行下一次循环运算,从上次运算得到的距离系数矩阵中找到距离最近的两个类群,将这1对类群合并,再计算新的距离系数,得到新的距离系数矩阵……。一再重复执行这样的循环运算过程,运算过程与前面完全相同,每循环一次,有1个类群被归并,获得的系数矩阵也减少1个,直到所有的分类单位都归属于1个类群为止,整个分类运算结束。
最后,将分类运算结果以树系图或其他图形表示。
聚类策略有多种,为了设计方便,现已总结为1个统一的公式:
其中Dip、Diq和Dpq表示聚合前类群之间的距离;Dir表示聚合后的距离;αp、αq、β和v是待定参数(表9-1)。p和q两个类群合并以后,需要计算新类群的距离系数Dir,不同的1组参数给出不同的计算公式,由此获得不同的分类方法。现已有8种方法总结在这个公式中,见表9-1。
表9-1 距离系数系统分类法参数表
表中ni、nr、np和nq分别表示类群Gi、Gr、Gp和Gq中的分类单位个数。Gp与Gq合并以后得新类群Gr,因此nr=np+nq。
上述总结的意义在于使许多不同的分类方法可以编在同一个电子计算机程序中,为分类运算工作提供很多方便。
现以桔梗科中6种植物(见表9-2)的数值分类为例,介绍如下:
性状选取与编码 分类选用了8个性状。(1) 茎是否缠绕(缠绕为1,直立为0);(2) 株高(1米以上者为1,不到1米者为0);(3) 叶的着生方式(互生为0,对生为1,轮生为2);(4) 叶缘(全缘或疏波齿为0,锯齿为1,重锯齿为2);(5) 花序(单生或数个顶生为0,总状花序或疏圆锥花序为1);(6) 子房室数(3室为0,4室为1,5室为2);(7) 果实开裂方式(侧壁开裂为0,顶部5瓣裂为1,室背开裂为2);8.种子有翼否(无翼为0,有翼为1)。特性编码数据见表9-2。
表9-2 原始数据
演算的第一步将原始数据标准化。因此,先计算每个特性的平均值和标准差。若某一特性的6个数据值是yi(i=1、2、…6),则
再连同原始数据一起代入标准化变换公式:
对每个特性都进行上面的运算,得标准化数值矩阵:
第二步计算相似性系数。如果采用平均欧氏距离,第i和第j两个种之间的距离系数计算如下:
其中xik和xjk(k=1、2、……8)分别表示性状k对于第i和第j个种的标准化数据。将6个种每1对距离系数计算出来得到距离矩阵M(0)(见表9-3)。
第三步进行分类运算。分类运算的循环过程见表9-3。执行第一次循环时先从M(0)中找出最小值,D56=0.592,表明种5和种6相似性距离最近,应先将它们合并成1个新类群。新类群的距离系数需要重新计算,从表9-1给出了8种不同的计算公式,不同的计算方法得出不同的分类结果。
表9-3 分类运算过程
在此例采用最容易计算的最短距离法,将数值代入公式,实际上是取最小值运算。例如:
D71=Min{D51,D61}
=Min{1.895,1.821}
=1.821
计算结果后得新的矩阵M(1) 。
再对矩阵M(1) M(2) 、……依次施行前面的运算,每循环一次1个类群被归并,矩阵减小1阶,直到将所有的种都归并成1个类群为止。
最后将分类结果画成树系图(图9-2)。树系图不仅形象地显示出被分类单位之间的隶属关系,而且还定量地表示类群之间的结合水平。例如种5和种6在0.592的距离水平上相互结合。
如果将表9-1所提供的8种方法都算出来,就可以得到8种结果,绘出相应的树系图。从运算所得结果表明,其中以UPGMA法和WPGMA法两个分类结果优于其他的结果,其树系图见9-3和图9-4。
这两个树系图差异甚微。从图中清楚地看到党参与羊乳有较密切的关系,它们同属于党参属(Codonopsis),长白沙参,荠苨和石沙参3个种比较接近,它们同属于沙参属(Adenophora)。图中虚线表示区别属的截线。桔梗则属于另一属,桔梗属(Platycodon),该属与沙参属比较接近。定量分类的结果与传统分类非常吻合。它说明这个演算的例子尽管特性的选取和编码都十分简单,定量分类的方法仍然保持较高的可靠性。