Python中的引导采样

这是一个关于Python中自助采样的教程。在本教程中,我们将学习什么是自助采样,然后看看如何进行实现。

让我们开始吧。 ba.)

什么是Bootstrap抽样? shì Bootstrap ?)

自助采样方法的定义如下:

在统计学中,自助采样是一种方法,它涉及从数据源中重复抽样并有放回地抽取样本数据,以估计总体参数。

这基本上意味着,自助采样是一种技朧,您可以通过使用它来估计整个人口的参数,如均值,而无需明确考虑人口中的每个数据点。

不再看整个人口,而是看从人口中抽取的多个相同大小的子集。

例如,如果你的人口规模是1000人。那么为了找到平均值,不必考虑全部1000个数据项,你可以随机抽取50个样本,每个样本含有4个数据项,并计算每个样本的平均值。这样你将随机选择200个数据项(50个样本乘以4个数据项),并计算其平均值。

市场研究人员在大规模人口中进行研究时采用了类似的策略。

如何在Python中实现Bootstrap抽样?

现在让我们来看看如何在Python中实现bootstrap抽样。

我们将使用预设的均值生成一些随机数据。为此,我们将使用Python中的NumPy模块。

让我们首先导入所需的模块。

1. 导入所需的模块。

我们需要的模块有:

  • Numpy
  • Random

要导入这些模块,请使用:

import numpy as np
import random

在接下来的步骤中,我们需要生成一些随机数据。让我们使用Numpy模块来完成这个任务。

2. 生成随机数据

让我们生成一个平均值为300、包含1000个条目的正态分布。

以下是给出的代码:

x = np.random.normal(loc= 300.0, size=1000)

我们可以使用以下方法来计算这些数据的平均值:

print (np.mean(x))

结果:

300.01293472373254

请注意,这是人口的实际意义。

3. 使用自助采样法估计平均值

让我们创建50个大小为4的样本来估计均值。 50 gè 4 de .)

做这件事的代码是:

sample_mean = []

for i in range(50):
  y = random.sample(x.tolist(), 4)
  avg = np.mean(y)
  sample_mean.append(avg)

样本均值列表将包含50个样本的均值。为了估算总体均值,我们需要计算样本均值的均值。

你可以使用以下方法实现:

print(np.mean(sample_mean))

产出:

生产结果:

300.07261467146867

现在,如果我们再次运行这个部分的代码,我们会得到一个不同的输出。这是因为每次运行代码时,我们都会生成新的样本。然而,每次输出都会接近实际平均值(300)。

在再次运行本节中的代码后,我们得到了以下输出:

299.99137705245636

再次运行它,我们得到: tā, : )

300.13411004148315

用Python实现引导抽样的完整代码

这是本教程的完整代码:

import numpy as np
import random

x = np.random.normal(loc= 300.0, size=1000)
print(np.mean(x))

sample_mean = []
for i in range(50):
  y = random.sample(x.tolist(), 4)
  avg = np.mean(y)
  sample_mean.append(avg)

print(np.mean(sample_mean))

结论

本教程讲解了如何在Python中进行Bootstrap抽样。我们学习了通过创建较小的样本来估计总体的平均值。在机器学习领域中,这非常有用,可以避免过度拟合。希望你在学习中玩得开心!

发表回复 0

Your email address will not be published. Required fields are marked *


广告
将在 10 秒后关闭
bannerAds