关于re:invent2016的参加报告(1)

image

首先

我参加了AWS每年一度的最大盛事re:Invent2016。今年是第五次参加,有超过32,000人参加,这对于基础设施服务来说是一个非常大的事件。据说来自日本的参与者仅通过官方旅行团就有350人以上。

艾姆斯利从以前就一直以本地主体运营,但最近开始增加通过AWS提供的全套服务,并且我们也深切体会到托管服务的便利之处。re:Invent2016 给了我们一个很好的机会来深入思考如何充分利用AWS。

今年,相比往年,推出了非常多的新服务。整个服务领域,包括用户在内,都呈现出一种非常繁荣的印象。

关于个别的报告内容和整个活动的总结,由于已经在各个方面有出色的整理,因此本文将引用那些部分进行介绍。

    • AWS Japanさんの Update速報スライド

 

    • AWS Japan公式サイトでの新機能説明の一覧

 

    クラスメソッドさんの非公式まとめ(圧巻!)

关于新功能,就个人而言,我非常期待 Athena 和 Aurora PostgreSQL 的支持。

在这篇文章中,我将介绍参加活动的步骤并报道我实际参与的会议。

参加前

大约在10月底,预订参加哪个讲座的活动开始了。由于非常拥挤,大部分有趣的讲座都已经被预订满了。随后,每天都会添加相当数量的讲座,可以选择的范围也逐渐增加,但最终,包括再演在内,总共大约有400个讲座可供选择,选择起来相当困难。

这次我们主要选择了与数据库相关和容器相关为中心的会议,并且在其他方面选择了广泛的会议。会话ID的前三个字符表示类别,如ARChitecture和DATabase,数字的前一位表示2适合初学者,3适合中级者。

    • ARC204 – From Resilience to Ubiquity – #NetflixEverywhere Global Architecture

 

    • ARC208 – Hybrid Architectures: Bridging the Gap to the Cloud

 

    • GAM302 – Sony PlayStation: Breaking the Bandwidth Barrier using Soft State and ELB Properties

 

    • WWPS302 – Governance Strategies for Cloud Transformation

 

    • CMP301 – Deep Dive on Amazon EC2 Instances, Featuring Performance Optimization Best Practices

 

    • ARC301 – Architecting Next Generation SaaS Applications on AWS

 

    • ARC318 – Busting the Myth of Vendor Lock-In: How D2L Embraced the Lock and Opened the Cage

 

    • WWPS401 – Data Polygamy: The Many-Many Relationships among Urban Spatio-Temporal Datasets

 

    • DAT320 – AWS Database State of the Union

 

    • DAT301 – Amazon Aurora Best Practices: Getting the Best Out of Your Databases

 

    • DAT303 – Deep Dive on Amazon Aurora

 

    • CON310 – Running Batch Jobs on Amazon ECS

 

    • CON313 – Netflix: Container Scheduling, Execution, and Integration with AWS

 

    CON309 – Running Microservices on Amazon ECS

当我实际去现场尝试时,我发现新的服务类别的会议等直到当天才会公开,因此即使没有预约,也可以在现场参加。

此外,AWS Japan在12月初还举办了一次参加事前说明会,向我们介绍了一些有趣的会议演讲和参与的技巧。能在会前认识其他公司的参与成员也是非常好的。

因为我觉得有人建议说穿公司的卫衣能成为谈话的开端很有趣,所以我决定去设计一件卫衣。我请了设计师K先生帮忙,他像往常一样给我设计了一款很酷的样式!

image

第一天

我乘坐通过西雅圖中转前往拉斯维加斯的航班,从成田出发,日本时间约下午4:30离开,大约下午5:00抵达目的地。整个旅程耗时17小时,加上时差造成的身体不适,感到非常疲劳。

在会议注册处,工作人员听着流动的音乐,热情洋溢地向这边打招呼,感觉很美国化。完成注册后,我拿到了一个Echo智能音箱和一件很酷的卫衣。

第一天

image

尽管第一天被称为前夜祭,但各种活动与会议session接踵而至。

ARC204 – 从韧性到无处不在 – #Netflix无处不在的全球架构

公式 | 幻灯片共享网站 | 网络视频分享平台

我参加的第一个会话是这个。正如之前听说的那样,内容非常充实。让人印象深刻的是有一个可以可视化负荷情况的工具(就在视频的这一部分和那一部分)。

Netflix介绍了为了提高其容错性而采取的措施。

服务停止对我们来说影响非常大,我们在包括全面迁移到AWS在内的重大挑战中已经做出了很大的努力。

    • 2008年8月に自社データセンター障害でDVD発送ができなくなった。2010年にAWSに移行した。同じトラブルは2回起こさない、というポリシーでやっている

 

    • 2007年にはPCだけだったデバイスが今ではスマホ、テレビ、ゲーム機など多数に増えいる。地理的にも言語的にも拡大してきている

 

    • マイクロサービス構成の耐障害性を高めるため、Hystrix というオープンソースでサービスのダウン検知と切り替えを行っている(これはエムスリーの Octoparts でもバックエンドとして使っています!)

 

    • Cassandraを使っていたが、速度が十分でなく EVCache (memcachedベース) を作った。複数AZにまとめてする仕組みや、リージョンをまたいで同期させる仕組みがある

 

    • サービスをランダムにダウンさせる ChaosMonkey を作り、実際にそれを運用するチームを発足させた

 

    • US-West-1、US-East-1、EU-West-1 の3リージョンで運用している。例えばUS-West-1でダウンが発生すると、US-East-1の負荷をEU-West-1に逃がしたうえで2リージョンで負荷分散する、など合理的な負荷分散をしている

 

    今ではリージョン切り替えを40分でできるようになった

对于未来,我们希望进一步缩短故障转移时间,并且将缓存和数据库整合,推进成本削减。

ARC208 – 混合架构:弥合云端差距

公式 │ SlideShare │ YouTube

这是关于企业办公环境迁移的会议。

    • ゼロか全部かという議論は間違い。段階的にやっていく必要がある

 

    • 最初は ファイルサーバ一つだけの環境を考える

最初にやることはIAM
つづいて Storage Gateway でファイルサーバを同期する
そしてVPC
FSをAWSに乗せるときにはADも持っていく必要がある。
DFS Replcationを使うのがオススメ

Amazon Workspaces はWindowsからだけではなくMacOSからも使える仮想デスクトップ環境

GAM302 – 索尼PlayStation:通过软状态和ELB属性突破带宽限制

公式 | SlideShare | YouTube = 公式 | 幻灯片分享 | YouTube

我之前从未见过的类型的东西也稍微有点想了解一下,所以我来听听受欢迎的PlayStation Network的会议。

在处理PSN中的6500万活跃用户网络时,由于数据量的爆炸增长,需要讨论该如何处理这个问题。

    • ステートレス、サーバレスが必須。しかしステートが残る部分もある。FriendFinderがそう

 

    • Solrを使って、ユーザ間の距離でソートしている。属性の近い順、共通の友人の数が多い順、など

 

    • 独自のIndexerを作る手もあったが、すでにその仕事は他人がやっている。Luceneを使った

 

    • スキーマを作ってほかのユーザーの情報をすぐにとれるようにした……が、キャッシュが必要。しかしキャッシュ更新を全キャッシュに同期するのが大変

 

    • 一人のユーザーに関するデータはそのユーザーが検索をしている局所的な時間帯にしかアクセスされないことに気づいた

Cookie で ELBの振り分け先を固定することにした(これはエムスリーの某巨大システムと非常に似ていますね……)

虽然内容也很有趣,但游戏相关的活动与观众的气氛也不一样啊!

云转型的治理策略 – WWPS302

公式 | SlideShare | YouTube

公式 | 幻灯片分享网站 | 视频网站

在云迁移中,特别是对于访问管理等规则的制定和遵守,如果没有进行整备,将来规模增大后(例如,审计支持等方面),将会变得非常困难。我也参加了关于这方面的会议。

    • なぜガバナンスが必要か?組織が、組織のために正しい判断をするため

 

    • ガバナンスとは何をすることか?ルールを作り、ルール自体を管理し、ルールに沿って判断し、合意したゴールに向かってリソースをアサインすること

 

    • CCoE (Cloud Center of Excellence) という体制を作る

4つのリードの役割:インフラ、DevOps、アーキテクチャ、セキュリティ&コンプライアンス

ガバナンスには段階がある。中間段階は、CCoEがあり、プロセスがルールにのっとっており、コストを意識できている段階
ベストプラクティス

CCoEを立ち上げルールを作る。自組織にあったものにする。既存プロセスを生かすか新規に作るかを決める。できるだけ軽く始める。ユースケースのレビューをする。

Monash大学(オーストラリア、マレーシア、南アフリカ、中国、インド、イタリアにある大学)の事例

成功のカギ:Culture change, Top down, Chain of command, Increased communication
テンプレートを作り、パターンを整理し、ブループリントに詳細化し、具体的な施策にした
テンプレートを作ることが効いた

Maryland大学の事例

AWSに詳しいCIOが参加した。オンプレのデータセンター4つをAWSに移行した
役職×アクションのマトリックスを作り、それぞれのアクションに対してどういう責任があるのかのかのRACIマトリックスを作った。RACI: Responsible, Accountable Consulted, Informed

这个领域的事情,虽然模仿特定事例并不能保证在我这里能够成功,但重新确认了认真做好看似麻烦的事情是捷径。此外,体制优先于自动化的思考方式也给我提供了参考。

CMP301 – 深入研究亚马逊EC2实例,展示性能优化的最佳实践

方程式 | 网易云课堂 | Bilibili

这个讲座很专业,但是非常有趣。介绍了大量关于提升EC2实例性能的思路和技巧。在幻灯片中,还直接展示了应该使用的命令。

    • t,r,mなどインスタンスファミリーの説明

 

    • 仮想CPUは Hyper Threaded な 1CPU。2コア分と思ってほしい。lstopo というツールで見れる

 

    • Hyper Threading を止めるとシングルスレッドの性能は高まる。 /sys/devices/cpu/cpu*/online でもできるが GRUB のオプションが安全

 

    • タイマは XenClock を使わずに TSC(CPUクロックに基づくタイマ) を使うと劇的に早くなる

 

    • 省電力のC-Stateを使わないようにすると早くなる

 

    こういうチューニングはOSのバージョンによってデフォルト設定が変わる。ローカルマシンで性能評価するときは最新のOSにするとよい

周二晚间的直播节目与詹姆斯·汉密尔顿

YouTube | ITPro社的一篇文章

火曜日的晚上,由亚马逊公司的战略总监、詹姆斯·汉密尔顿副总裁进行演讲。在演讲中,他提到了与人工智能相关的新服务发布以及NASA的挑战,并在90分钟内掀起了高潮。

    • 海底ケーブルの工夫(+1000V と -1000V で送電していて、万一片方が漏電して0Vになっても、もう片方を2000Vに引き上げればよい、すごいアイデアだろう?というくだりが印象的でした)

 

    • ネットワーク機器も、業界標準の40Gに対応するのではなく、コストを考えて 25Gbps x 2 の 50Gbpsを実現した

 

    • ネットワーク用に自前のASICまで作った!(会場が反応する暇もなくしゃべり続ける)

 

    • 1%電力効率を改善すれば、非常に大きな改善になる

 

    再生可能エネルギー利用率100%を目指している。今は40%まで来た

第一天结束

从第一天开始就是非常密集的内容。接下来是re:Invent2016参加报告(2)。