Databricks Terraform提供程序正式发布(GA)
Databricks Terraform提供程序现已正式发布 – Databricks博客
我很高兴地宣布,今天Databricks Terraform提供者已正式发布(GA)!HashiCorp Terraform是一种流行的开源基础架构即代码(IaC)工具,用于创建跨多个云提供商的安全可重现云基础架构。
通过湖畔别墅作为代码实现客户的胜利
Databricks的客户在多个领域成功利用Databricks提供商。
将Lakehouse组件的部署、DataOps/DevOps/MLOps的实施全部自动化。
这个解决方案可以涵盖多种用例,包括在开发/暂存/生产环境之间进行作业推广和升级的安全性保证,以及为新项目/团队创建可复制的环境等。
在DAIS(データ分析と機械学習の共有セッション)上,Scribd讨论了他们如何依赖于平台工程来利用自己的工具,使开发人员和数据科学家能够“选择自己的探险”并使用其自身的数据平台。通过使用Databricks Terraform提供者,他们可以为内部用户提供灵活性,而不是充当门卫。他们可以提交任何在Databricks中需要的功能的Pull Request。
此外,其他客户纷纷对Databricks Terraform提供者的使用表示赞赏。他们提到了”快速复制配置”,”保持合规标准”,”能自动化任何事情”,”通过改变和民主化减轻了我们SRE团队的操作负担”等等。
自动化的灾难恢复战略的实施
灾难恢复对于理解数据可访问性重要性的所有企业和受到规定的行业来说是不可或缺的。而且,Terraform承担着非常重要的角色,它可以适当自动化故障转移过程,并且确保在没有自动化过程的情况下不会引发常见错误,以可预测的时间执行故障转移过程。
例如,illimity的数据平台以Azure Databricks为核心,并在先前的博客文章中对这些功能进行了说明。为了保证满足illimity的监管组织Banca d’Italia(意大利中央银行)对于RTO和RPO的要求,我们设计了一个使用Databricks Terraform提供程序的数据平台灾难恢复方案。请期待我们有关Terraform集成实现灾难恢复准备的详细博客文章!
安全解决方案的实施
在现代世界中,安全性已成为重要的要求。然而,特别是在受规范约束的行业中,确保您的数据安全并不是一项简单的任务。对于这些解决方案,存在诸多要求,如防止数据泄露、控制用户对数据的访问等。
让我们考虑在具有数据泄露保护功能的AWS工作区上部署的例子。通常建议按照以AWS的传输网关为中心的星形拓扑结构的参考架构来部署多个Databricks工作区。如前文所述,设置过程需要通过AWS用户界面进行一些手动步骤。但通过使用Databricks Terraform提供程序,这些步骤可以自动化,并且可以按照详细指南仅需几个步骤来部署。
实现数据治理通过Unity Catalog
Databricks的Unity目录使用友好且开放的接口,为数据湖提供精细的治理和安全性。通过结合Databricks Terraform提供程序和Unity目录,客户可以通过自动化轻松且规模化地对数据湖进行控制。这对于大型企业来说非常重要。
供应商的服务质量和支持
最常使用的资源
迁移至Databricks Terraform提供程序的GA版本
为了将Databricks Terraform提供程序升级为GA版,我们已将其从https://github.com/databrickslabs移动到https://github.com/databricks。为确保平稳迁移,我们与Hashicorp的Terraform Registry团队密切合作。现有的terraform部署将继续按预期正常运行,您无需采取任何操作。在提交到源代码控制时,状态目录中应包含.terraform.lock.hcl文件。执行terraform init时将会显示以下警告。
Warning: Additional provider information from registry
The remote registry returned warnings for registry.terraform.io/databrickslabs/databricks:
如果您使用Terraform 0.13及更高版本的话,
this provider has moved to databricks/databricks. Please update your source in required_providers.
将required_providers代码块中的databrickslabs/databricks替换为databricks/databricks后,警告将不再出现。请对*.tf文件执行全局的“搜索和替换”操作。或者,为了达到同样的效果,您也可以从命令行执行python3 -c “$(curl -Ls https://dbricks.co/updtfns)”命令。
然而,在执行terraform init命令时可能会遇到诸如“Failed to install provider”或“Failed to query available provider packages”的问题。这是因为您没有将.terraform.lock.hcl文件纳入版本控制。
Error: Failed to install provider
Error while installing databrickslabs/databricks: v1.0.0: checksum list has no SHA-256 hash for "https://github.com/databricks/terraform-provider-databricks/releases/download/v1.0.0/terraform-provider-databricks_1.0.0_darwin_amd64.zip"
可以通过以下3个步骤进行修正。
python3 -c “$(curl -Ls https://dbricks.co/updtfns)”コマンドで、全ての.tfファイルのdatabrickslabs/databricksをdatabricks/databricksに置き換えます。
terraform state replace-provider databrickslabs/databricks databricks/databricksコマンドを実行し、変更を承認します。詳細はTerraform CLIをご覧ください。
全てが適切に動作していることを確認するためにterraform initを実行します。
这是全部的内容。这样应该可以期望terraform apply正常工作。
您可以查看Databricks Terraform提供商的文档,并使用本指南和示例存储库来自动化使用Terraform管理Databricks Lakehouse的管理。如果您已经拥有现有的Databricks环境,但尚未使用Terraform进行管理,您可以使用实验阶段的导出功能作为起点。
此外,我们的工程师们不断为Terraform提供商添加新的Databricks功能、新模块、模板和教程支持。
数据湖免费试用
Databricks 免费试用