在Azure上使用Spark的好处
Apache Spark, which has gained a reputation as a big data analysis platform, is provided on Azure under the name HDInsight Spark. HDInsight Spark is not simply Microsoft putting the open-source Spark on Azure; it is based on Hortonworks Data Platform (HDP), a platform provided by Hortonworks. In addition to HDP, HDInsight Spark also offers unique advantages specific to Azure, such as the ones listed below.
构建簇集和扩展非常简便。
仅需在Azure门户上点击几次按钮,您就可以轻松构建集群和调整节点数量。初始构建仅需15至30分钟即可完成。这是云端独有的优势。
微软提供带技术支持的服务,并承诺99.9%的服务水平协议(SLA)。
可以立即开始数据分析等工作。
在部署后,Jupyter Notebook和Anaconda已经预先安装好,可以立即开始进行分析工作等。此外,各种BI工具(如PowerBI、Tableau等)也得到了标准支持,可以轻松地使用BI工具可视化通过Spark创建的表格。
可靠性高的存储和高性能的存储。
在存储方面,我们默认采用Azure Blob存储。Blob存储在同一数据中心内自动复制三份,具有很高的容错性,并且与Azure的其他服务的互操作性也很高,因此被默认采用。(※ HDFS当然也可用)此外,Azure Data Lake Store也可作为存储选项使用。Data Lake Store在访问时需要Azure AD身份验证,因此具有非常高的安全性。另外,与Blob存储相比,它还具有更好的性能,并且可以提供更高级别的分析环境。
卡夫卡 + Spark
我们目前作为一项托管服务提供Kafka和Spark(预览版)。目前为止,提供Kafka作为托管服务的云供应商可能不多。熟悉Kafka的开发者们不妨试试我们的服务。
微软 R Server + Spark
这也是通过托管服务提供的。可以在Spark的分布式环境中运行难以处理的R代码。
对虚拟网络的支持
您可以将Spark集群加入Azure虚拟网络中。在构建集群时,您可以从菜单中选择虚拟网络列表,然后选择相应的网络进行设置,设置即可完成。
使用Livy进行远程执行
Livy(OSS项目:livy.io,请参考)是一个集成了REST IF的接口,可用于从远程位置提交 Spark 作业,并轻松进行作业的投递和监控。
開發人員專用的集成開發環境擴充功能
我們提供Eclipse和IntelliJ的免費插件。這些插件讓你能夠從IDE中提交和監控Spark作業。此外,插件還附帶了Scala和Java的示例代碼和模板,不僅能提高開發效率,還具備在本地PC上運行應用程序的機制,因此可以輕鬆開始開發。
适用于Spark Streaming的功能
我认为有一些人可能会使用Kafka进行流分析,但是Azure IoT Hub或Event Hub等类似功能的平台也支持接收流事件。
你认为怎样呢?如果使用Apache Spark对上述内容进行处理,可能会非常困难,但是如果使用HDInsight Spark,它默认包含在内,会有非常大的优势。