Python中的引导采样
这是一个关于Python中自助采样的教程。在本教程中,我们将学习什么是自助采样,然后看看如何进行实现。
让我们开始吧。 ba.)
什么是Bootstrap抽样? shì Bootstrap ?)
自助采样方法的定义如下:
在统计学中,自助采样是一种方法,它涉及从数据源中重复抽样并有放回地抽取样本数据,以估计总体参数。
这基本上意味着,自助采样是一种技朧,您可以通过使用它来估计整个人口的参数,如均值,而无需明确考虑人口中的每个数据点。
不再看整个人口,而是看从人口中抽取的多个相同大小的子集。
例如,如果你的人口规模是1000人。那么为了找到平均值,不必考虑全部1000个数据项,你可以随机抽取50个样本,每个样本含有4个数据项,并计算每个样本的平均值。这样你将随机选择200个数据项(50个样本乘以4个数据项),并计算其平均值。
市场研究人员在大规模人口中进行研究时采用了类似的策略。
如何在Python中实现Bootstrap抽样?
现在让我们来看看如何在Python中实现bootstrap抽样。
我们将使用预设的均值生成一些随机数据。为此,我们将使用Python中的NumPy模块。
让我们首先导入所需的模块。
1. 导入所需的模块。
我们需要的模块有:
- Numpy
- Random
要导入这些模块,请使用:
import numpy as np
import random
在接下来的步骤中,我们需要生成一些随机数据。让我们使用Numpy模块来完成这个任务。
2. 生成随机数据
让我们生成一个平均值为300、包含1000个条目的正态分布。
以下是给出的代码:
x = np.random.normal(loc= 300.0, size=1000)
我们可以使用以下方法来计算这些数据的平均值:
print (np.mean(x))
结果:
300.01293472373254
请注意,这是人口的实际意义。
3. 使用自助采样法估计平均值
让我们创建50个大小为4的样本来估计均值。 50 gè 4 de .)
做这件事的代码是:
sample_mean = []
for i in range(50):
y = random.sample(x.tolist(), 4)
avg = np.mean(y)
sample_mean.append(avg)
样本均值列表将包含50个样本的均值。为了估算总体均值,我们需要计算样本均值的均值。
你可以使用以下方法实现:
print(np.mean(sample_mean))
产出:
生产结果:
300.07261467146867
现在,如果我们再次运行这个部分的代码,我们会得到一个不同的输出。这是因为每次运行代码时,我们都会生成新的样本。然而,每次输出都会接近实际平均值(300)。
在再次运行本节中的代码后,我们得到了以下输出:
299.99137705245636
再次运行它,我们得到: tā, : )
300.13411004148315
用Python实现引导抽样的完整代码
这是本教程的完整代码:
import numpy as np
import random
x = np.random.normal(loc= 300.0, size=1000)
print(np.mean(x))
sample_mean = []
for i in range(50):
y = random.sample(x.tolist(), 4)
avg = np.mean(y)
sample_mean.append(avg)
print(np.mean(sample_mean))
结论
本教程讲解了如何在Python中进行Bootstrap抽样。我们学习了通过创建较小的样本来估计总体的平均值。在机器学习领域中,这非常有用,可以避免过度拟合。希望你在学习中玩得开心!