搜索

基于v支持向量机的非线性时间序列预测pdf

gecimao 发表于 2019-07-12 17:14 | 查看: | 回复:

  1.本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。

  南开大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行研究工作 所取得的成果。除文中己经注明引用的内容外,本学位论文的研究成果不包含 任何他人创作的、已公开发表或者没有公开发表的作品的内容。对本论文所涉 及的研究工作做出贡献的其他个人和集体,均已在文中以明确方式标明。本学 位论文原创性声明的法律责任由本人承担。 学位论文作者。:、车小碎 T,年少月1d日 第一章 支持向量机模型 第一章 支持向量机模型 支持向量机(SupportVectorMachine,SVM)是根据统计学习理论((Statistical LearningTheory,SLT)提出的一种新的通用学习方法11,21,它是建立在统计学习 理论的VC维理论和结构风险最小原理基础上的,能较好地解决小样本、非线性、 高维数和局部极小点等实际问题,能提高学习机的泛化能力,已成为机器学习界 的研究热点之一。 g1.1支持向量机的理论基础 人的智慧中一个很重要的方面是从实例学习的能力,通过对已知事实的分析 总结出规律,预测不能直接观测的事实。在这种学习中,重要的是要能够举一反 三,即利用学习得到的规律,不但可以较好地解释已知的实例,而且能够对未来的 现象或无法观测的现象做出正确的预测和判断。我们把这种能力叫做推广能力。 在人们对机器智能的研究中,希望能够利用计算机来模拟这种学习能力,这 就是我们所说的基于数据的机器学习问题,或者简单地称为机器学习问题。现实 世界中存在大量我们尚无法准确认识但可以进行观察的事务,因此机器学习从现 代科学、技术到社会、经济等各种领域中都有着十分重要的作用。我们的目的是, 设计某种 (某些)方法,使之能够通过对已知数据的学习,找到数据内在的相互 依赖关系。从而对未知数据进行预测或对其性质进行判断。同样,在这里,我们 最关心的仍然是推广能力问题。 统计学在解决机器学习问题中起着基础性的作用。但是,传统的统计学所研 究的主要是渐进理论,即当样本趋向于无穷多时的统计性质。在现实问题中,我 们所面对的样本数目通常是有限的,有时还十分有限。虽然人们实际上一直知道 这一点,但传统上仍以样本数目无穷多为假设来推导各种算法,希望这样得到的 算法在样本较少时也能有较好的 (至少是可接受的)表现。然而,相反的情况是 很容易出现的。其中,近年来经常可以听到人们谈论的所谓神经网络过学习问题 就是一个典型的代表:当样本数 目有限时,本来很不错的一个学习机器却可以表 现出很差的推广能力。 人们对于解决此类问题的努力实际上一直在进行。但是,其中多数工作集中 第一章 支持向量机模型 在对于已有 (基于传统统计学原则的)方法的改进和修正,或者利用启发式方法 设计某些巧妙的算法。 在人类即将迈进一个新世纪的时候,人们开始逐渐频繁地接触到一个词,就 是 “统计学习理论”,使得机器学习焕发了新的生命力。 互1.1.1统计学习理论的发展历史 统计学习理论是一种专门研究小样本情况下机器学习规律的理论。该理论 针对小样本统计问题建立了一套新的理论体系,在这种体系下的统计推理规则 不仅考虑了对渐近性能的要求,而且追求在现有有限信息的条件下得到最优结 果。VVapnik等人从六、七十年代开始致力于此方面研究(3],到九十年代中期,随 着其理论的不断发展和成熟,也由于神经网络等学习方法在理论上缺乏实质性进 展,统计学习理论开始受到越来越广泛的重视。 大致上讲,统计学习理论经历了四个阶段: I.第一个学习机器的创立一一20世纪60年代 1958年,Rosenblatt提出了第一个学习机器的模型,称作感知器,标志着人们 对学习过程进行数学研究的真正开始。 II.学习理论基础的创立一一20世纪60-70年代 关于感知器的实验广为知晓后,人们很快提出了一些其它类型的学习机器, 如B.Widrow构造的Madaline自适应学习机,K.Steinbuch提出的学习矩阵等。人们 还开发了很多计算机程序,包括创建各种类型的逻辑函数的程序如决策树,马尔 可夫模型等,但只是为了解决现实中的实际问题,这些并没有对一般的学习问题 进行研究。 III.神经网络一一20世纪80年代 在1986年,几个作者独立地提出了同时构造感知器所有神经元的响应系数的 方法,就是称作背传的方法,此后感知器改称为 “神经网络”,机器学习的目标改 为利用大脑来推广模型,对学习问题减少了一般性,增加了主观色彩。从感知器 的第二次诞生后的十几年里,虽然在一些特殊的领域中应用神经网络取得了重要 的成果,但是所得到的理论成果并没有对一般的学习理论带来多大贡献。因此, 这段时间的神经网络的研究并没有从本质上推进对学习过程本质的认识。 IV回到起点一一20世纪90年代 在过去的几年里,与神经网络有关的一些事情发生了改变,现在,更多的注 第一章 支持向量机模型 意力放在了对神经网络的替代方法的研究上,比如,人们用很大的精力进行了对 径向基函数模型的研究。这一阶段对一般学习过程的分析,即希望能通过严格的 数学推理找到机器学习问题的关键所在。 1.1.2 统计学习理论的核心内容 统计学习理论被认为是 目前针对小样本统计估计和预测学习的最佳理论,它 从理论上较系统地研究了经验风险最小化原则成立的条件,有限样本下经验风险 与期望风险的关系及如何利用这些理论找到新的学习原则和方法等问题,其主要 内容包括四个方面: 1).经验风险最小化原则下统计学习一致性的条件; 2).在这些条件下关于统计学习方法推广性的界的结论; 3).在这些界的基础上建立小样本归纳推理原则; 4).实现这些新的原则的实际方法 (算法)。 统计学习理论的一个核心概念就是VC维 (Vapnik-ChervonenkisDimension) 概念,它是描述函数集或学习机器的复杂性或者说是学习能力((Capaciytofthe Learning)的一个重要指标,在此概念基础上发展出了一系列关于统计学习的一 致性 (Consistency)、收敛速度、推广性能(GeneralizationPerformance)、结构风 险最小化 (StructuralRiskMinimization,SRM)等的重要结论。下面我们对这些概 念作些简要的介绍: VC维 VC维表示学习机的容量,它的直观定义如下: 假如存在一个有h个样本的样本集能够被一个函数集中的函数按照所有可能 的2“种形式分为两类,则称函数集能够把样本数为h的样本集打散。指示函数集 的VC维就是用这个函数集中的函数所能够打散的最大样本集的样本数目。也就 是说,如果存在h个样本的样本集能够被函数集打散,而不存在有h+1个样本集 能够被函数打散,则函数集的VC维就是h。如果对于任意的样本数,总能找到一 个样本集能够被这个函数集打散,则函数集的VC维就是无穷大。VC维越大,函 数的推广能力越差,VC维越小,函数的推广能力越强。 学习过程的一致性 我们针对两类分类问题展开讨论,设、个观测值为x,〔R,i二1,...,。和相 关的输出y=,y=={-1,1},并且x和y存在一个未知的联合概率为F(x,y),机器学 第一章支持向量机模型 习的目的就是根据n个独立同分布观测样本((mil,YO,(27l,y2),,(xn,y-),在一组 函数{f(w,二)}中求一个最优的函数f(X,-0),使预测的期望风险(也叫实际风险) Rw()=l2I,一fx(,w)IdFx(,y) (1.1) 最小。由于实际中我们只能利用己知的观测样本的信息,因此期望风险并不能 直接计算和最小化,因此人们根据概率论中的大数定理,想到用算术平均替代式 (1.1)中的数学期望,定义了 、一w()一nlrL-;.1Ly(i,一“,, (1.2) 来逼近式 ((1.1)定义的期望风险,它是用已知的训练样本(经验数据)定义的来 表示训练集的误差均值,因此称作经验风险。 关于学习一致性的结论是统计学习理论的基础,也是它与传统渐进统计学的 基本联系所在。所谓学习过程的一致性,就是指当训练样本数目趋于无穷大时, 经验风险的最优值能够收敛到真实风险的最优值,只有满足一致性条件,才能保 证在经验风险最小化原则下得到的最优方法当样本无穷大时趋近于使期望风险最 小的最优结果。经验风险和期望风险的关系如图((1.1)所示: R(wo) 经验风险 图1.1.经验风险和实际风险的关系示意图 推广性的界 统计学习理论中关于经验风险和实际风险之间的关系的重要结论,称作推广 性的界,他们是分析机器学习性能和发展新的学习算法的重要基础。 第一章 支持向量机模型 由于前面提到的两分类问题中,F(x,幼未知,不能直接计算出R(w),Vapnik给 出了R(二)的上界。对于077_1,实际风险Rw()以至少为1一77的概率满足a[l. h(ln(誓)+1)一In(理) R(w)5凡,w(w)+ (1.3) 其中,h是个非负的整数,即上面提到的VC维,不等式右边第2项称作置信范围 或VC信任 (VCconfidence). 结构风险最小化 由于可以利用的信息只有有限样本,无法计算期望风险Rw(),因此,传统的 学习方法采用对参数二求经验风险R-pw()的最小值代替求Rw(),此原则称为是 经验风险最小化((EmpiricalRiskMinimization,ERM)原则,它原则上是从处理大 样本数问题出发的,因而当为小样本(所谓小样本就是对数目为l的样本,如果比 值l/h即训练模式数目与学习机器函数的VC维的比值较小,比如l/h20,则我 们就认为样本数是少的,也就认为这种样本集是小样本)时,由式((1.3)可以表明: 学习机器的VC维数越高(复杂性越高)则置信范围越大,导致真实风险与经验风 险之间可能的差别越大。这就是为什么会出现过学习现象的原因。机器学习过程 不但要使经验风险最小,还要使VC维尽量小以缩小置信范围,才能取得较好的实 际风险,这种思想称为结构风险最小化准则[a]aSRM原则定义了在对给定数据逼 近的精度和逼近函数的复杂性之间的一种折衷 (如图1.2)0 风险上界 置信范围 经验风险 图1.2.风险的界是经验风险与置信范围之和,随着经验风险逐渐减小.而置信范围逐渐将增 加最小的风险上界是在结构的某个适当的元素上取得的 统计学习理论是建立在一套较坚实的理论基础之上的,为解决有限样本学习 问题提供了一个统一的框架。它能将很多现有方法纳入其中,有望帮助解决许多 第一章 支持向量机模型 原来难以解决的问题 (比如神经网络结构选择问题、局部极小点问题等);同时, 在这一理论基础上发展了一种新的通用学习方法-支持向量机,已初步表现出很 多优于己有方法的性能。一些学者认为,SLT和SVM正在成为继神经网络研究之 后新的研究热点,并将推动机器学习理论和技术有重大的发展。支持向量机方法 是建立在统计学习理论的VC维理论和结构风险最小原理基础上的,根据有限的 样本信息在模型的复杂性 (即对特定训练样本的学习精度,Accuracy)和学习能 力 (即无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得最好的推广 能力(GeneralizatinAbility). 1.2支持向量机的基本思想 支持向量机方法的核心内容是在1992-1995年之间提出的,它是统计学习理 论中最年轻的部分,目前仍处于不断发展中。它较以往方法,表现出很多理论和实 践的优势,其中最突出的一个优点是SVM不存在 “过拟合”问题。支持向量机通过 某种事先选择的非线性映射将输入空间映射到一个高维特征空间(FeatureSpace) 中,如图((1.3)所示,在这个特征空间中的平面上构造最优分类超平面。 图1.3支持向量机把输入空间映射到一个高维空间,然后在这个特征空间中构造最优超平面 1.2.1最优超平面 SVM是由线性可分情况下的最优分类面发展而来的,基本思想可用两类线性 (即线性可分和线性不可分)情况说明。如图((1.4)中所示,实心和空心点代表两 第一章 支持向量机模型 类样本,H为分类线分别为过各类中离分类线最近的样本且平行于分类 线的直线,它们之间的距离叫做分类间隔(Margin).假如这两类样本是线性可分 的,则按ERM规则,机器学习的结果是一个超平面 (二维情况是一条直线,如图 虚线所示)或称为判别函数,该超平面可将训练样本分为正负两类。 图1.4.最优分类超平面 (左图为线性可分情况,右图为线性不可分情况) 显然,按ERM的要求,这样的超平面有无穷多个,但有的超平面对训练样本 来说,其分类非常好(经验风险X}n(哟最小,为0),但其预测推广能力却非常 差。而按照SRM的要求,学习的结果应是最优的超平面H,即该平面不光可以将 两类训练样本正确分开(训练错误率为0),而且分类间隔最大。实际上是对推广 能力的控制,这是SVM的核心思想之一。其中分类间隔指的是两类样本中离分类 超平面最近且平行于分类超平面的两个超平面间的距离。或者说是从分类超平面 到两类样本中最近样本的距离的和,这些最近样本可能不止两个,正是它们决定 了分类超平面(Hl,H2),也就是确定了最优分类超平面H,这样的样本被成为支 持向量(SuppportVectors,SVs)Ill. 用数学形式推导最优分类面如下: 设训练样本集体Iya),Z二1,二,n,xER,yE{十1,一1}。则分类超平面可 表述为: w ·x+b二0 (1.4) 1 n a.t:y;Rw·xi)+b]一1_0, 1 ‘ n (1.5) 此时分类间隔等于2/llwll,使间隔最大等价于}二{}12最小。满足上述条件且 使鹦最小的分类面就叫做最优分类面. Z 第一章 支持向量机模型 上述约束条件可用Lagrange方法求解,令: Lw(,b,a)=2Ilw。一}mai{yiKw-xi)+。一1} (1.6) 其中a0为每个样本的拉氏乘子,由L分别对b和w求导并令其为0,可以导出: F-yia一‘” (1.7) 二一Eaiyixi (1.8) 云.1 因此,解向量有一个由训练样本集的一个子集样本向量构成的展开式,该子集样 本的拉氏乘子均不为0,这些拉氏乘子不为零的训练样本称为支持向量。拉氏乘 子为0的样本向量的贡献为0,对选择分类超平面是无意义的。于是,就从训练集 中得到了描述最优分类超平面的决策函数,它的分类功能是由支持向量决定的。 这样的决策函数可以表示为: ,(二)=sgn(又aiyi(x。·)+b) (1.9) 其中sgn()为符号函数。在线性不可分的情况下,比如存在噪声数据的情况,可以 在式((1.5)中增加一个松弛项&0,成为: YAWx·i)+b]1一(, =1,2,…,n (1.10) 将 目标改为求下式最小: 、,。一鹦+C。En}i (1.11) 其中c为一个常数,用于控制对错分样本惩罚的程度。 1.2.2 支持向量机的形式 上述约束问题可以转化为下列的对偶问题,即对a求解下列函数的最大值: Qa()一ma一‘21rmaia}y,yjx(i-x3) (1.12) 葱=1 云J= 又yia:一” 0a,C ·“ ,几 (1.13) 第一章 支持向量机模型 这是一个不等式约束下的二次函数寻优问题,存在唯一解,解后得到的最优分类 函数是: f(x)= sgn{w(x·)+}‘ =sgn{又any=x(.x·)+i} (1.14) 上面讨论的是线性分类函数,要解决非线性问题,可以通过非线性变换转化为另 一个空间的线性问题,在这个变换后的空间中求最优分类面。这种变换可能比较 复杂,因此这种思路在一般情况下不易实现。但是注意到,在上面的对偶问题中, 不论是寻优目标函数还是分类函数都只涉及训练样本之间的内积运算(xt-xi)0 分析上述svm对偶问题,只要用核函数K(xx;)代替上式中的内积,这样,在 高维空间实际上只需要进行内积运算,而这种内积运算是可以用原空间的函数实 现的,我们甚至没有必要知道变换4)的形式,就可实现非线性情况下的分类。 上述讲的是关于分类问题,对于回归问题,我们只需在最优化问题和约束条 件上作略微的调整,即可给出支持向量的回归算法。由于支持向量机方法首先是 从解决分类问题发展起来的,从上面我们看到,一般来说,可以用少量的支持向 量来表示决策函数,即具有稀疏性。当把它推广到回归问题时,很重要的一点就 是我们希望在回归机中仍然保持这个性质。为了建立算法。需要选择适当的损失 函数,它可以保持稀疏性。一般较为常用的为 不‘敏感损失函数131 C(x,y,f(x))=ly一f(x% (1.15) 其中 ly一f(x)1E=max{0,I,一f(x)l-e} (1.16) 这里E首先取定一个正数.E-不敏感损失函数的含义是:当x点的观察值y与预测 值f(x)之差不超过事先给定的:时,则认为在该点的预测值f(x)是无损失的。在:- 不敏感损失函数的基础上建立了E-支持向量回归机,具体形式在这不作详细介绍 了,进一步可参看文献16,71 这就是支持向量机,其基本思想概括起来就是通过非线性变换将输入空间变 换到一个高维空间,在这个新空间中求取最优线性分类面或回归曲面,而这个非 线性变换是通过内积核函数实现的。研究者证明了核函数存在定理181:给定一个 训练样本集,就一定存在一个相应的函数,训练样本通过该函数映射到高维特征 空间的相是线性可分的。并且提出了寻找核函数的算法191 第一章 支持向量机模型 怪1.2.3 核函数 在支持向量机中,需要选择函数K(},}),或者说需要选择一个映射到)·,把x 所在的输入空间映射到另一个空间H,这个空间H可以是有限维空间,也可以是 无限维空间。一般说来,它是一个Mlbert空间,也有很多文献称它为特征空间。 选取不同的函数K(},}),或不同的映射及其相应的特征空间,相当于选择不 同的内积,这意味着采取不同的标准对相似性和相似程度进行估价。而分类问题 的求解,依赖于对相似性和相似程度的估价。而在支持向量中,相似性和相似程 度使用内积进行估价的。这些内积强烈依赖于映射的选择,选择不同的映射就意 味着对相似性和相似程度的不同估价标准。显然,在解决实际问题时,映射的选 择是重要的,映射选定后,立刻可由其内积构造出函数K(},.,从而使支持向量机 进行计算。在使用支持向量时,上述函数K(.}.)起着直接的作用,实际上,我们甚 至不需要知道具体的映射是什么,只要选定函数K(},今就够了.由于多种不同的 特征空间会导致不同的函数K(},}),所以K(},〕应该具有较大的选择范围,但它必 须满足Merce涤件。即: 对于任意的对称函数k(x,x),它是某个特征空间中的内积运算的充分必要 条件是,对于任意的}O(x)45。且f02(x)dxCo,有 ifKx(,x)Vx()vx()dxdx0 (1.17) 满足以上的条件的函数即可作为核函数使用。 人们进一步研究了支持向量机的支持向量集和核函数的关系u,研究表明, 对非线性可分情况,对一个特定的核函数,给定的样本集中的任意一个样本都可 能成为一个支持向量。因此,支持向量机下观察到的特征在其它支持向量机下(其 他核函数)并不能保持。所以,对解决具体问题来说,选择合适的核函数是很重 要的。常见的核函数主要有以下四种: 1).多项式核 K(x,xi)=[(xx·i)+cj9 (1.18) 对于任意的正整数Q,函数是正定核。当C0时,我们称它为非齐次多项式核。它 包含了我们较为常见的非齐次多项式核((x-xi)+1)Q。特别地,当。=0时,得到 K(x,xi)=(x·xi)9 (1.19) 第一章 支持向量机模型 这类核是齐次多项式核。 2).径向基核 IIx一xall2 K(x,二)‘=exp{一 (1.20) 20,2 3).傅里叶核 常用的傅里叶核有两种,他们也都是由一维傅里叶核生成的。 第一种傅里叶核所对应的一维傅里叶核为 1一q2 Kl(x,x;)= (1.21) 2(1一2qcos(x一xi)+q2) 其中q是满足。q1的常数。 第二种傅里叶核所对应的一维傅里叶核为 coshn过上臼 , - 犷 (1.22) - 2 K2x(,xi,一爵Rinh 4).采用Sigmiod函数作为内积 K(x,xi)=tanh(v(x·xi)+c) (1.23) 这个函数虽然不是正定核,但它在某些实际应用中却非常有效。 91.3 支持向量机的特点 支持向量机方法是一种有效的机器学习算法,由于其本身的结构,它有以下 几个主要优点有: 1).传统的统计方法只有在样本数趋于无穷大时其性能才有理论上的保证。 对于实际应用中的有限样本难以取得理想的效果。SVM方法是一种小样本学习方 法,专门针对有限样本情况的,其 目标是得到现有信息下的最优解而不仅仅是样 本数趋于无穷大时的最优值; 2).算法将实际问题通过非线性变换转换到高维的特征空间,在高维空间中 构造线性判别函数来实现原空间中的非线性判别函数,这个特殊性质能保证机器 有较好的推广能力. 3)在SVM方法中,只要定义不同的内积函数,就可以实现多项式逼近、贝 叶斯分类器、径向基函数((RadialBasicFunction或RBF)方法、多层感知器网络等 许多现有学习算法,是一种处理非线性分类和非线性回归的有效方法。 第一章 支持向量机模型 4)它巧妙地解决了维数问题,该方法的计算量与样本向量的维数几乎无关, 这在某种意义上避免了”维数灾难o,’ 5).算法最终将转化成为一个二次型寻优问题,从理论上说,得到的将是全 局最优解,解决了在神经网络方法中无法避免的局部极值问题。 但是由于SLT理论和svm方法尚处在发展阶段,很多方面尚不完善,比如: 许多理论目前还只有理论上的意义,尚不能在实际算法中实现;另外,有 关svm算法某些理论解释也并非完美((J.C.Burges在[10]中就曾提到结构风险最 小原理并不能严格证明svm为什么有好的推广能力);还有,对于一个实际的学 习机器的VC维的分析尚没有通用的方法。以及svm方法中如何根据具体问题选 择适当的内积函数也没有理论依据等等。 但是这些并不影响关于svm的发展,反而推动了它的不断进步,最近几年关 于它的文章非常多。 互1.4支持向量机的研究现状与应用 统计学习理论从七十年代末诞生,到九十年代之前都处在初级研究和理论准 备阶段,近几年才逐渐得到重视,其本身也趋向完善,并产生了支持向量机这一 将这种理论付诸实现的有效的机器学习方法,其算法在精度上己经超过传统的学 习算法或与之不相上下。当前对svm的研究方兴未艾,总的来说主要围绕两个方 面:一是通过对svm本身性质的研究,提出进一步完善的措施,此外还包括多类识别 问题和快速训练算法等。二是不断探索新的应用领域,svm本质上是一种非线性 数据处理工具,人们注意到它在数字信号处理、图像处理、智能控制等领域有巨大 的应用潜力,这方面己经有了一些结果,但是在数据挖掘等方面还可以做进一步研 究。 1.4.1支持向量机的研究现状 自1995年以来,在实用算法研究、设计和实现方面已取得丰硕的成果,主要 包括以下几个方面的进展。 支持向量机常用训练算法及其快速算法研究 由于svm对偶问题的求解过程相当于解一个QP(QuaraticPrograming)问题, 需要计算和存储核函数矩阵,其大小与训练样本数的平方相关。因此,随着样本 数目的增多,所需要的内存也就增大。例如,当样本数目超过4000时,存储核函 第一章 支持向量机模型 数矩阵需要多达128MB内存pi];其次,SVM在二次型寻优过程中要进行大量的矩 阵运算,多数情况下,寻优算法占用算法时间的主要部分。通常,训练算法的思路 是把要求解的问题分成许多子问题,然后通过反复求解子问题来求得最终的解, 这是分解算法的基本思想,根据子问题的划分和迭代策略的不同,又可以大致分 为以下两类:块算法和固定工作样本集算法。 块算法是Boser和Vapnik于1995年提出的[[131,它的思想是将样本集分成工作 样本集和测试样本集,每次对工作样本集利用二次规划求得最优解,剔除其中的 非支持向量,并用训练结果对剩余样本进行检验,将不符合训练结果(一般是指违 反KKT条件)的样本(或其中的一部分)与本次结果的支持向量合并,成为一个新 的工作样本集,然后重新训练,如此重复下去,直到获得最优结果。后来提出的 增量学习方法 (IncrementalLearning)[I本质上也是块算法。 固定工作样本集算法最早由Osuna等人提出[141,也称为 “Osuna算法”。在 这个算法中首先建立一个工作集,保持其大小不变,在解决每个二次规划子问 题时,先从工作集中去掉一个样本,并加入一个不满足KKT条件的样本,再进 行优化。Platt在分解算法基础上提出了贯序最小化算法((SequentialMinimization Optimization,SMO)[121.基于以上思想,研究较多的是SVM19haoSMO,BSVM, LIBSVM等4种快速训练算法。 支持向量机变形算法的研究 在保持边际距离最小的约束同时,进一步推广结构风险最小原理,通过增加函 数项、变量或系数等方法使公式变形,产生出各种有某一方面优势或者一定应用 范围的算法。 针对SVM算法中惟一可以调节的参数惩罚因子C没有直观解释,在实际应用 中很难选择到合适值的缺陷,v-SVM算法1[71用参数。取代C,参数。可以控制支持 向量的数目和误差,也更容易选择。 双。-SVM算法pal提出了对每一类的支持向量机界限分别进行调整,灵活地为 每一类指定一个不同的误差比率。它针对SVM算法无法解决只要求对某一类样本 正确分类,而其他类样本信息不全的问题的缺陷。 Suykens等人提出的最小二乘支持向量机 (LeastSquaresSupportVectorMa- chine,简称LS-SVM)[91,提出T线性算法,加快T速度。 One-ClassSVM算法10【1提出了超球面的概念,克服了超平面无法解决的问题。 加权SVM算法对类别差异造成的影响进行了相应的补偿,从而提高了小类别 第一章 支持向量机模型 的分类精度,这对于某些需要重点关注的小类别精度的应用研究有重要的现实意 义。 模糊支持向量算法[21(FSVM,FuzzySVM)提出了给每个样本都赋一个模糊 隶属度值来提高分类的精度。 直推式SVM2[21根据己知样本对特定的未知类别样本建立一套识别方法和准 则,较之传统的归纳式学习方法而言,直推式学习往往更具普遍性和实际意义。 支持向量机核函数的模型选择研究 采用SVM求解模式识别问题需要选择一核函数。尽管只要满足Mercer条件的 函数在理论上都可选为核函数,但不同的核函数,其分类器的性能完全不同。另 一方面,即使选择了某一类核函数,其相应的参数 (如多项式的阶次、径向基函 数的尺度参数口)也有如何选择的问题。核函数类别及其参数选择、二次规划参数 选择统称为模型选择。尽管模型选择方面的研究成果不多,但作为支持向量机的 重要研究内容已日益受到研究者的重视。通过估计样本的识别误差,来确定核函 数参数的优劣,目前主要有以下4种方法:单一验证估计、留一法23「1,k遍交叉验 证法2[41、基于样本相似度的方法[251 1.4.2支持向量机的应用 SVM算法在模式识别、回归估计、概率密度函数估计等方面都有应用。例如, 在模式识别方面,对于手写数字识别、语音识别、人脸图像识别、文章分类等问 题, SVM的优越性能使得它在众多领域得到了广泛的应用。文献[261将其应用于 中文文本的自动分类中,文献[27,281采用SVM方法分别用于人脸识别与人脸检 测。文献[29,30,31,32]采用基于决策树的多类SVM用于舌象中舌色、苔色等的识 别等。由于SVM的泛化能力比较好,因而常常获得比其他方法更好的识别效果。 其他有报道的关于SVM的实验领域还包括三维物体识别、遥感图像分析等。 总之,支持向量机是一种基于统计学习理论的新的机器学习方法,它已在模式识 别、回归分析和函数拟合等问题中有广泛的应用。 第二章 非线性时间序列 第二章 非线性时间序列 我们知道,现实世界的运动规律往往是非线性的。事实上,在一个线性的世 界里,量变永远都不能产生质变的。换言之,物理学的相变,生物学的细胞突变, 经济学的收益递减等等都会消失于线性的世界里。可想而知,线性的世界是多么 的乏味。 对时间序列的研究是探讨现实世界的运动规律的重要方面,在对时间序列研 究的发展史中,线性的模型统治了整个领域,长达半个世纪之久。在这漫长的岁 月中,我们看到的是英国的U.Yule在1927年创建的回归模型和俄国E.Slutzky在同 年创建的滑动平均模型和它们的混合体。毫无疑问,线性模型曾起到过非常积极 的作用,但是它们也起过消极的作用。事实证明,沉迷于线性模型的研究,推迟 了非线性模型的诞生,这是时间序列的不幸。事实上,我们一直要等到20世纪七 十年代末八十年代初,才可以开始看到以门限自回归(TAR)模型和ARCH模型为 典型代表的非线性时间序列模型陆续登上舞台来。非线性时间序列分析是一个极 其广泛的研究范畴,有着极为丰富和深刻的研究内容。 非线性时间序列,哪怕是很简单的非线性时间序列,它们能显示出奇异的现 象,足以令人新奇不己。况且,混沌、分形和神经网络等等许多非线性科学领域 都与非线性时间序列分析有着密切的联系。这说明非线性时间序列能够表现出更 丰富,更复杂的客观现象,比线性时间序列有着更广阔的应用前景。也正是因为 如此,非线性时间序列一度被认为是随机的,无法预测的,直到混沌现象的发现 以及混沌理论的发展,人们发现许多非线性时间序列,诸如气候变化、地震发生、 人脑电波、股票行情和社会发展等是可以预测的,但是都只能做短期的预测,这 与其中的混沌机制有关。 混沌现象首先是非线性确定系统产生的,因此它是有规律的,是决定论的; 混沌的另一个特点是对初始条件的敏感性,也就是微小的扰动将导致系统行为的 巨大变异。 实际上,在很多领域,例如在经济、环境、生物和气象等领域,已经显示出了 非线性时间序列分析的应用背景。研究非线性时间序列,很难仿效或沿用已有的 线性时间序列的研究方法,而且所面临的困难也远远超过线性情况,就像在其它 第二章 非线性时间序列 非线性科学领域一样。人们遇到了许多新的激动人心的挑战。近年来,对非线性 时间序列的研究正处在突飞猛进的发展时刻,过去我们的模型主要是参数化的。 但是,现在非参数化,甚至是半参数化的模型正发挥着无与伦比的威力,将整个 的时间序列研究领域提升到一个空前未有的新境界。 互2.1时间序列预测的相空间重构 由于非线性系统内在本质的复杂性,构造完整的系统模型是十分困难的,往 往只能测得系统的一个或几个变量的时间序列。这时可以通过相空间重构的方法 重构系统的相空间。 盼.1.1相空间重构原理 相空间重构的方法最先是由D.J.Farmaer等人提出的,20世纪80年代,Takens发 展了Whitney早期在拓扑学方面的工作,为这种方法奠定了坚实的基础,之后Packard 等对它进行拓展,形成了延迟坐标状态空间重构法3[3]。该方法的产生为混沌时间 序列预测提供了一条崭新的道路。 相空间重构法是指用一个变量在不同时刻的值构成相空间,但动力系统的一 个变量的变化 自然跟此变量与系统的其它变量的相互作用有关,即此变量随时间 的变化隐含着整个系统的动力学规律。因此,重构的相空间的轨迹也可反映系统 状态的演化规律。也即系统的任一变量的演化是由与之相互作用的其它变量所决 定的。因此,这些相关变量的信息就隐藏在任一分量的发展过程中。于是,只考 虑一个变量,并将在某些固定时间延迟点上的观测值来处理,从而通过 “嵌入” 方法可以构造出一个与原系统等价的相空间,可以在这个空间中恢复原有的动力 系统,并研究其吸引子的性质。已经证明,当嵌入维数。和延时参数二的选择适当 时,重构的相空间可以具有与实际的动力系统相同的几何性质和信息性质,具有 真实相空间的所有特征。相空间重构的具体内容如下: 对于我们要进行预测的实际系统来说,它可以在数学上抽象为一个动力系 第二章 非线性时间序列 . . 了 些 . d t = fl(XI,X2,…Xrz) . . . . , 些 = f2(Xl,X2,… ,Xn) 、 (2.1) 1 . . ︸ . . . 些 d t = fn(X1,X2,…,Xn) 其中:X1,X2,...,X.为描述该系统状态的n个变量,可以构成一个n维相空 间Rn。对于某一时刻t,状态变量Xl,X2,...,X.的值唯一地决定了该系统的状 态,这个状态在相空间中对应了一个点,随着时间t的推移,相空间中的这些点连 续变化,从而形成一条有向空间曲线,称之为相图(或相轨迹))o 如果我们能够得到系统的相图,就可以通过建模的方法,找出相图中包含的 动力学规律,即函数fl,f2,,fn。然后,根据函数fl,f2,...,人就可以实现较为 准确的预测了。 2.1.2延时嵌入的相空间重构法 从理论上,我们只要得到系统的相图,我们就能进行较为准确的预测了,但是 在预测实际中,人们往往获得的是系统状态变量的某一分量(例如X,)的离散样本 序列{x9(t)It=1,2,.-,N}o为T能够从单一序列{-j(t)It=1,2,...,N}中研究 系统的动力学特性,Packard等人提出和发展了延时嵌入法(EmbeddingByDelays) 来重构系统相空间的方法。这个方法可简单描述如下: 假设序列{x(t)It=1,2,…,N}是一个。维动力系统的某一状态序列,给定整 数。1,二0,可得到一个m维状态矢量Y(t)=(x(t),x(t+T),一,x(t+(。一 1)月)。这种从序列{x(t)}中获得状态矢量Y的方法就称为延时嵌入法,。称为嵌 入维数((EmbeddingDimension),7-称为延时常数(Lag)。由矢量Y构成的空间称为 伪相空间,记作凡m。伪相空间中状态矢量Y的轨迹称为伪相图(或伪相轨迹),伪 相空间共有N一(。一1)*T个点。按照Whitney和Takens原理,只要满足嵌入维 数m2d+1(d为原动力系统相空间的维数),则伪相图和系统的相图微分同胚, 即拓扑等价,这时重构的相空间具有与实际的动力系统相同的几何性质与信息性 质,却不依赖于重构过程的具体细节。 因此,重构的相空间即伪相空间R中点的演化Y(n)一Y(n+1)是紧随原系 统相空间中的演化(即X(n)-X。十1))而演化的.也就是说,原系统中的许多 第二章非线性时间序列 重要性质都可以通过重构的相空间中明确地重现。 2.1.3 时间延迟二和嵌入维数m 重构相空间技术的关键在于正确地选取嵌入空间维数m和延时常数,,其选择 直接决定着相空间重构后描述奇异吸引子特征的不变量的准确度。关于丁和。的选 取主要有两种观点,第一种认为二和m是互不相关的,其选取可以独立进行(Takens 证明了对于无限长的、无噪声干扰的时间序列,其,和m是相互独立的)。常用的 关于时间延迟和嵌入维数的选择有3种方法: 1).序列相关法:如自相关法3[41、互信息量法[351和高阶相关法3[61等; 2).相空间扩展法:如充填因子法[371、摆动量法3[81、平均位移法3[91、SVF 法1401等; 3).复自相关法4[1,421:第二种观点则认为二和m是相互关联的,因为现实中的 时间序列都是有限长且不可避免地受到各种噪声的影响. 大量实验表明,二和。的关系与重构相空间的时间窗Tw密切相关(Tw=(m一 1)T),对于特定的时间序列,其Tw相对固定,二和。的不恰当配对将直接影响重构 后的相空间结构与原空间的等价关系,因此相应地产生了二和二的联合算法,如时 间窗口法(431、C_C法1441等。人们普遍认为,第二种观点在实际应用中更为合理和 有效. 对于各自的参数选择,若m太小,不足以展示复杂行为的细致结构,m太大,则 会使计算工作大大复杂化,同时随之而引起的噪声的影响将不可忽视。因此。选择 一个恰当的嵌入维数使吸引子能完全打开,又不引起过多的噪声,就显得十分必 要一 种较为常用的方法是采用最终误差预报准则(FinalPredictionError,FPE)评 价模型的预测误差,并根据误差大小选取嵌入维数。。经过变换之后,得到用于 预测器学习的样本。 1X1x2一 、 一〔} 一二X【2一X3一Xm汁Y一}Xm+2} \Xne,-mXnt,-m+l ”‘Xn:,-1/ \Xnt,/ FPEk()一黔aa2 (2.2) 第二章 非线性时间序列 式中 ne.-k an一Ea(,)一早,( rttr一 K 艺L-一‘(艺(、一a*)kx(t,xt))+)“] 式中:nt,一一用于训练的数据个数,k一一需要确定的嵌入维数。从式 (2.2)可看 出,当k值增大时,残差嵘将减少,因此总可以找到一个最优值。使得FPE达到 最小。 另一种比较适合的选嵌入维的方法是由Grassbergerl4lProcacci魂 出的G-P算 法4[51,具体步骤如下: 1).利用时间序列,现给出一个较小的值,对应一个重构的相空间。 2).计算关联函数: Cr(,一NnooN互一(“Y’t(;,一Yt(i)D (2.3) 其中}Y(tj)一Y(ti)}表示相点州幼和Y(ti)之间的欧氏距离,B(z)是Hea

  “原创力文档”前称为“文档投稿赚钱网”,本网站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有【成交的100%(原创)】

本文链接:http://baumseelen.com/duiouchanshengqi/650.html
随机为您推荐歌词

联系我们 | 关于我们 | 网友投稿 | 版权声明 | 广告服务 | 站点统计 | 网站地图

版权声明:本站资源均来自互联网,如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

Copyright @ 2012-2013 织梦猫 版权所有  Powered by Dedecms 5.7
渝ICP备10013703号  

回顶部