非线性函数的性质 讲解线性函数的定义

拟合是用一个连续函数(曲线)靠近给定的离散数据,使其与给定的数据相吻合。数据拟合的算法相对比较简单,但调用不同工具和方法时的函数定义和参数设置有所差异,往往使小白感到困惑。本文基于 Scipy 工具包,对单变量、多变量线性最小二乘拟合,指数函数、多项式函数、样条...

拟合是用一个连续函数(曲线)靠近给定的离散数据,使其与给定的数据相吻合。

数据拟合的算法相对比较简单,但调用不同工具和方法时的函数定义和参数设置有所差异,往往使小白感到困惑。

本文基于 Scipy 工具包,对单变量、多变量线性最小二乘拟合,指数函数、多项式函数、样条函数的非线性拟合,单变量、多变量的自定义函数拟合问题进行分析、给出完整例程和结果,数据拟合从此无忧。

1. 数据拟合

在科学研究和工程应用中经常通过测量、采样、实验等方法获得各种数据。对一组已知数据点集,通过调整拟合函数(曲线)的参数,使该函数与已知数据点集相吻合,这个过程称为数据拟合,又称曲线拟合。

插值和拟合都是根据一组已知数据点,求变化规律和特征相似的近似曲线的过程。但是插值要求近似曲线完全经过所有的给定数据点,而拟合只要求近似曲线在整体上尽可能接近数据点,并反映数据的变化规律和发展趋势。因此插值可以看作是一种特殊的拟合,是要求误差函数为 0 的拟合。

1.1 数据拟合问题的分类

数据拟合问题,可以从不同角度进行分类:

按照拟合函数分类,分为线性函数和非线性函数。非线性函数用于数据拟合,常用的有多项式函数、样条函数、指数函数和幂函数,针对具体问题还有自定义的特殊函数显示。按照变量个数分类,分为单变量函数和多变量函数。按照拟合模型分类,分为基于模型的数据拟合和无模型的函数拟合。基于模型的数据拟合,是通过建立数学模型描述输入输出变量之间的关系,拟合曲线不仅能拟合观测数据,拟合模型的参数通常具有明确的物理意义。而无模型的函数拟合,是指难以建立描述变量关系的数学模型,只能采用通用的函数和曲线拟合观测数据,例如多项式函数拟合、样条函数拟合,也包括机器学习和神经网络模型,这种模型的参数通常没有明确的意义。

1.2 数据拟合的原理和方法

数据拟合通过调整拟合函数中的待定参数,从整体上接近已知的数据点集。

这是一个优化问题,决策变量是拟合函数的待定参数,优化目标是观测数据与拟合函数的函数值之间的某种误差指标。典型的优化目标是拟合函数值与观测值的误差平方和;当观测数据的重要性不同或分布不均匀时,也可以使用加权误差平方和作为优化目标。

数据拟合的基本方法是最小二乘法。对于观测数据 ( x i , y i ) , i = 1 , . . n,将观测值 y i与拟合函数 y = f ( x , p ) 的计算值 f ( x i ) 的误差平方和最小作为优化问题的目标函数:

( p 1 , ? p m ) 是拟合函数中的待定参数。

对于线性拟合问题,设拟合函数为直线 f ( x ) = p 0 + p 1 ? x , 由极值的必要条件 $ partial J/partial p_j = 0,; (j=0,1)$ 可以解出系数 p 0 , p 1 :

对于多变量线性最小二乘问题,设拟合函数为直线 f ( x ) = p 0 + p 1 ? x 1 + ? + p m ? x m , 类似地,可以解出系数 p 0 , p 1 , ? p m 。

对于非线性函数的拟合问题,通常也是按照最小二乘法的思路,求解上述误差平方和最小化这个非线性优化问题,常用的具体算法有搜索算法和迭代算法两类。

1.3 Python 数据拟合方法

数据拟合是常用算法,Python 语言的很多工具包都提供了数据拟合方法,常用的如 Scipy、Numpy、Stat***odel、Scikit-learn 工具包都带有数据拟合的函数与应用。

Scipy 是最常用的 Python 工具包,本系列中非线性规划、插值方法也都是使用 Scipy 工具包实现,因此仍以 Scipy 工具包讲解数据拟合问题。

Scipy 工具包对于不同类型的数据拟合问题,提供了不同的函数或类。由于 Scipy 工具包是多个团队合作完成,而且经过了不断更新,因此调用不同函数和方法时的函数定义和参数设置有所差异,往往使小白感到困惑。

本文对单变量、多变量线性最小二乘拟合,指数函数、多项式函数、样条函数的非线性拟合,单变量、多变量的自定义函数拟合问题进行分析、给出完整例程和结果,数据拟合从此无忧。

2. 线性最小二乘拟合

2.1 线性最小二乘拟合函数说明

线性最小二乘拟合是最简单和最常用的拟合方法。scipy.optimize 工具箱中的 leastsq()、lsq_linear(),scipy.stats 工具箱中的 linregress(),都可以实现线性最小二乘拟合。

2.1.1 scipy.optimize.leastsq 函数说明

leastsq() 根据观测数据进行最小二乘拟合计算,只需要观测值与拟合函数值的误差函数和待定参数 的初值,返回拟合函数中的待定参数 ( p 1 , ? p m ) ,但不能提供参数估计的统计信息。leastsq() 可以进行单变量或多变量线性最小二乘拟合,对变量进行预处理后也可以进行多项式函数拟合。

scipy.optimize.leastsq(func, x0, args=(), Dfun=None, full_output=0, col_deriv=0, ftol=1.49012e-08, xtol=1.49012e-08, gtol=0.0, ***xfev=0, epsfcn=None, factor=100, diag=None)

主要参数

func:可调用的函数,描述拟合函数的函数值与观测值的误差,形式为 error(p,x,y),具有一个或多个待定参数 p。误差函数的参数必须按照 (p,x,y) 的顺序排列,不能改变。x0:一维数组,待定参数 ( p 1 , ? p m ) 的初值。args:元组,线性拟合时提供观测数据值 (xdata, ydata),观测数据 xdata 可以是一维数组(单变量问题),也可以是多维数组(多变量问题)。

返回值

x:一维数组,待定参数 ( p 1 , ? p m )的最小二乘估计值。

2.1.2 scipy.stats.linregress 函数说明

linregress() 根据两组观测数据 (x,y) 进行线性最小二乘回归,不仅返回拟合函数中的待定参数 ( p 1 , p 1 ),而且可以提供参数估计的各种统计信息,但只能进行单变量线性拟合。

scipy.stats.linregress(x, y=None, alternative=‘two-sided’)

主要参数

x, y:x, y 是长度相同的一维数组。或者 x 是二维数组,且 y=none,则二维数组 x 相当于 长度相同的一维数组 x, y。

返回值

slope:斜率,直线 f ( x ) = p 0 + p 1 ? x中的 p 1。intercept:截距,直线 f ( x ) = p 0 + p 1 ? x中的 p 0 。rvalue:r^2 值,统计量。pvalue:p 值,P检验的统计量。stderr:标准差,统计量。

2.2 Python 例程:单变量线性拟合

程序说明

scipy.optimize.leastsq() 与 scipy.stats.linregress() 都可以进行单变量线性拟合。leastsq() 既可以用于单变量也可以用于多变量问题;linregress() 只能用于单变量问题,但可以给出很多参数估计的统计结果。leastsq() 要以子函数来定义观测值与拟合函数值的误差函数,例程中分别定义了拟合函数 fitfunc1(p, x) 与误差函数error1(p, x, y) ,是为了方便调用拟合函数计算拟合曲线在数据点的函数值。注意 p 为数组 。leastsq() 中误差函数的函数名可以任意定义,但误差函数的参数必须按照 (p,x,y) 的顺序排列,不能改变次序。leastsq() 中观测数据 (x, yObs) 是以动态参数 args 的方式进行传递的。这种处理方式非常独特,没有为什么, leastsq() 就是这样定义的。linregress() 只要将观测数据 (x,yObs) 作为参数,默认单变量线性拟合,不需要定义子函数。leastsq() 与 linregress() 进行线性拟合,得到的参数估计结果是相同的。

Python 例程

程序运行结果

2.3 Python 例程:多变量线性拟合

程序说明

scipy.optimize.leastsq() 既可以用于单变量也可以用于多变量问题,本例程求解一个二元线性拟合问题:y = p[0] + p[1] * x1 + p[2] * x2。leastsq() 求解多变量问题的方法与单变量问题类似,以子函数 error2(p, x1, x2, y) 来定义观测值与拟合函数值的误差函数,以动态参数 args 的方式传递观测数据 (x, yObs) 。leastsq() 中误差函数的函数名可以任意定义,但误差函数的参数必须按照 (p,x1,x2,y) 的顺序排列,不能改变次序。scipy 只能做一元线性回归,例程中通过调用 stat***odels.api 进行多元线性回归,可以得到各种统计参数,供读者参考。

Python 例程

程序运行结果

3. 非线性函数数据拟合

3.1 非线性拟合函数说明

非线性函数是非常广泛的概念。本节讨论指数函数、多项式函数和样条函数三种常用的通用形式的非线性函数拟合问题,分别使用了 Scipy 工具包中的 scipy.optimize.leastsq()、scipy.linalg.lstsq() 和
scipy.interpolate.UnivariateSpline() 函数。

scipy.optimize.leastsq() 的使用方法已在本文 2.1 中进行了介绍,
scipy.interpolate.UnivariateSpline() 的使用方法在《22. 插值方法》文中进行了介绍,以下介绍 scipy.linalg.lstsq() 函数。

lstsq() 函数只要传入观测数据 (x,yObs),并将 x 按多项式阶数转换为 X,即可求出多项式函数的系数,不需要定义拟合函数或误差函数,非常适合比较不同阶数的多项式函数拟合的效果。

scipy.linalg.lstsq(a, b, cond=None, overwrite_a=False, overwrite_b=False, check_finite=True, lapack_driver=None)

主要参数

a:(m,n) 数组,表示方程 Ax=b 的左侧。b:(m,) 数组,表示方程 Ax=b 的右侧。

返回值

x:最小二乘的解,指多项式函数的系数。

注意:lstsq() 函数中求解方程 Ax=b,A 是指由观测数据 x i x_ix 按多项式阶数转换为矩阵 ( x i 0 , x i 1 , . . . x i m ) , i = 1 , ,n,b 是指 y i , i = 1 ,,n,而 x 是指多项式函数的系数,详见例程。

3.2 Python 例程:指数函数拟合

程序说明

scipy.optimize.leastsq() 本质上是求解带有待定参数的误差函数最小化问题,因此可以用于指数函数的最小二乘拟合。类似地,原理上 leastsq() 也可以用于其它形式非线性函数的拟合问题,但对于某些函数拟合误差可能会比较大。leastsq() 以子函数 error3(p, x, y) 来定义观测值与拟合函数值的误差函数,以动态参数 args 的方式传递观测数据 (x, yObs) 。leastsq() 中误差函数的函数名可以任意定义,但误差函数的参数必须按照 (p,x1,x2,y) 的顺序排列,不能改变次序。

Python 例程

程序运行结果

3.3 Python 例程:多项式函数拟合

程序说明

scipy.optimize.leastsq() 本质上是求解带有待定参数的误差函数最小化问题,因此可以用于多项式函数的最小二乘拟合,使用方法与线性拟合、指数拟合类似。由于 leastsq() 要以子函数 error(p, x, y) 来定义观测值与拟合函数值的误差函数,在比较不同阶数的多项式函数拟合时需要定义多个对应的误差函数,比较繁琐。scipy.linalg.lstsq() 只要传入观测数据 (x,yObs),并将 x 按多项式阶数转换为 X,即可求出多项式函数的系数,不需要定义拟合函数或误差函数,非常适合比较不同阶数的多项式函数拟合的效果。对于相同阶数的多项式函数,leastsq() 与 lstsq() 的参数估计和拟合结果是相同的。增大多项式的阶数,可以减小拟合曲线与观测数据的误差平方和,但也更容易导致过拟合,虽然能更好地拟合训练数据,但并不能真实反映数据的总体规律,因而对于训练数据以外的测试数据的拟合效果反而降低了。

Python 例程

程序运行结果

3.4 Python 例程:样条曲线拟合

程序说明:


scipy.interpolate.UnivariateSpline() 类是一种基于固定数据点创建函数的方法,使用样条曲线拟合到给定的数据点集。

UnivariateSpline 类由已知数据点集生成样条插值函数 y=spl(x),通过调用样条插值函数可以计算指定 x 的函数值 f(x)。

UnivariateSpline 类既可以进行数据插值,也可以进行拟合。参数 s=0 表示数据插值,样条曲线必须通过所有数据点;s>0 表示数据拟合,默认 s= len(w)。

通过 set_***oothing_factor(sf) 设置光滑因子,可以对样条拟合函数进行调节,使拟合曲线更好地反映观测数据特征,避免过拟合。

Python 例程

程序运行结果:

4. 自定义函数曲线拟合

4.1 scipy.optimize.curve_fit() 函数说明

curve_fit() 使用非线性最小二乘法将自定义的拟合函数拟合到观测数据,不仅可以用于直线、二次曲线、三次曲线的拟合,而且可以适用于任意形式的自定义函数的拟合,使用非常方便。curve_fit() 允许进行单变量或多变量的自定义函数拟合。

**scipy.optimize.curve_fit(f,xdata,ydata,p0=None,sig***=None,absolute_sig***=False,check_finite=True,bounds=(-inf,inf),method=None,jac=None,kwargs) **

主要参数:

f:可调用的函数,自定义的拟合函数,具有一个或多个待定参数。拟合函数的形式为 func(x,p1,p2,…),其中参数必须按照 (x,p1,p2,…) 的顺序排列,p1, p2,… 是标量不能表达为数组。xdata:n*m数组,n 为观测数据长度,m为变量个数。观测数据 xdata 可以是一维数组(单变量问题),也可以是多维数组(多变量问题)。ydata:数组,长度为观测数据长度 n。p0:可选项,待定参数 [p1,p2,…] 的初值,默认值无。

返回值:

popt:待定参数 ( p 1 , ? p m ) 的最小二乘估计值。pcov:参数 ( p 1 , ? p m )的估计值 popt 的协方差,其对角线是各参数的方差。

4.2 Python 例程:单变量自定义函数曲线拟合

程序说明:

不同于 leastsq() 定义观测值与拟合函数值的误差函数,scipy.optimize.curve_fit() 直接定义一个自定义的拟合函数,更为直观和便于理解。curve_fit() 定义一个拟合函数,函数名可以任意定义,但拟合函数的参数必须按照 (x,p1,p2,…) 的顺序排列,不能改变次序。p1, p2,… 是标量,不能写成数组。注意 leastsq() 中误差函数的参数必须按照 (p,x,y) 的顺序排列,与 curve_fit() 不同。leastsq() 也可以对自定义的拟合函数进行最小二乘拟合。由于本例程中自定义拟合函数使用了观测数据的实际模型,而不是通用的多项式函数或样条函数,因此拟合结果不仅能很好的拟合观测数据,而且能更准确地反映实际模型的趋势。

Python 例程:

程序运行结果:

结果分析:

4.3 Python 例程:多变量自定义函数曲线拟合

程序说明

scipy.optimize.curve_fit() 既可以用于单变量也可以用于多变量问题,本例程求解一个二元非线性拟合问题。

curve_fit() 定义一个拟合函数 fitfunc7(X, p0, p1, p2, p3),函数名可以任意定义,但拟合函数的参数必须按照 (x,p1,p2,…) 的顺序排列,不能改变次序。p1, p2,… 是标量,不能写成数组。

curve_fit(fitfunc7, X, yObs) 中的 X 是 (n,m) 数组,n 是观测数据点集的长度,m 是变量个数。

Python 例程

程序运行结果:

本文来自是我太自作多情投稿,不代表舒华文档立场,如若转载,请注明出处:https://www.chinashuhua.cn/24/609898.html

打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
() 0
上一篇 06-27
下一篇 06-27

相关推荐

  • 非线性函数的性质 讲解线性函数的定义

    拟合是用一个连续函数(曲线)靠近给定的离散数据,使其与给定的数据相吻合。数据拟合的算法相对比较简单,但调用不同工具和方法时的函数定义和参数设置有所差异,往往使小白感到困惑。本文基于 Scipy 工具包,对单变量、多变量线性最小二乘拟合,指数函数、多项式函数、样条

    2023-06-27 18:21:01
    209 0
  • 线性回归和非线性回归的区别 详解两者的区别

    提议浣溪沙诵经橙【送】苏轼菊莲一夜凋零。新芽和绿叶照亮了森林。树篱棚是绿色和电影的。雾闻半碎,清泉流牙不敢尝。吴姬的手还香了三天。[翻译]一夜霜降,菊花凋零,荷叶凋零,橙黄绿叶被霜映衬变黄,熠熠生辉,绿篱和茅舍掩映在青黄橙黄的林中。掀开橘子皮,香浓的油腺像雾

    2023-06-08 06:12:01
    1022 0
  • 非线性编辑器是什么(什么叫非线性编辑软件)

    1.Premiere Pro:无损编辑器当谈到电影和视频编辑时,有两种类型的编辑过程:线性和非线性。在数码录像机和相机成为拍摄电影的主要方式之前,线性视频编辑是编辑视频的方式。在线性编辑中,您可以通过在用于编辑的程序中拖移播放头来浏览素材。您将根据素材顺序选择、排列和编辑

    2023-04-27 15:52:01
    865 0

评论列表

联系我们

在线咨询: QQ交谈

邮件:admin@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信