AWS Innovate – Data Edition 見てきました。【その3】

AWS Innovate – Data Editionのセッションを聴講した時のメモ その3

リンク元:AWS Innovate – Data Edition 見てきました。

転職サービスにおけるデータ分析基盤の構築事例

セッション時間スピーカー
CUS1-2
お客様事例
12:40 - 13:10ミイダス株式会社 CTO
大谷 祐司 様

ミイダスの事業

  • スカウト型の転職サービス
  • 求職者、採用企業のデータを元にお互いにマッチした適材適所を採用を実現

ミイダスのインフラとデータベース

メインDBはAmazon Aurora(MySQL)

用途によって細かくインスタンスを使い分けている

  • メインのWriter、
  • フェイルオーバー用Reader
  • 用途別の小型Reader

転職サービスにおけるデータの特徴

  • 求職者と企業の掛け算でデータが増加していく(現在数十億件)
  • スカウトデータは、頻繁にデータの洗い替えが必要になる
  • メール通知などのバッチ処理が多く、終了必須の時間がシビアに決まっている
複数のデータベースを組み合わせ、それぞれの特性を活かした運用を実施
求人情報など、全文検索されるテキストデータAmazon CloudSearch
頻繁に洗い替えが必要なスカウト情報などAmazon ElastiCache
求職者に紐づいた、画面表示用の求人情報などAmazon DocumentDB

データ分析で抱えていた課題

従来は、AuroraのReaderを基盤として活用

  • 構築した当初はサービスの規模が小さかった
  • エンジニアが分析できれば良いというコンセプトだった

しかし、

  • SQLベースで抽出するのでデータ容量が増えるとパフォーマンスの悪化が見られた
  • 当初はそれでも良かったが、将来的にサービスが成長するにはデータ分析基盤の構築が不可欠だった

→ ミイダスにとって、データ分析は将来に向けて非常に重要であると位置づけ、 AWS上にデータ分析基盤を構築することを意思決定する。

データ分析基盤構築の要件

  • 運用の手間を減らし、分析者が業務に集中できる環境にしたい
  • 将来的なサービスの成長に合わせて、データが増えた際にもインフラをスケールさせたい
  • 開発者以外も気軽に利用できる環境を構築したい
    • Webベースのインターフェイスを作って利用できるようにしたい

構成

  • メインのデータ保存先(データレイク)はS3を採用
    • AWS Database Migration Service (DMS)でAmazon Aurora のデータをコピー
  • 可視化・分析はQuickSightを活用
    • Amazon RedShiftに蓄積されたデータをGUIで簡単に操作

選定のポイント

AWS DMS

AuroraのデータをS3にコピーする際に利用

  • 対障害耐性などの信頼性が高く、Auroraの処理に影響を与えずデータコピーできる
  • 大容量のデータの迅速なマイグレーションもサポートしている
  • きっかけはハンズオンだった

AWS Glue

  • サーバレスで手軽に利用できる。フォーマットの柔軟性が高く、データの変更に強い。

用途

  • S3 に蓄積されているデータについて、MySQLの型をPostgreSQLの型に変換
  • DBやアクセスログのデータから個人情報をマスク
  • Amazon Redshift へデータをLoad

RedshiftとQuickSightの組み合わせ

  • 優れたUIとパフォーマンス
  • 従来行っていたSQLでのデータ分析と比較して、数10-数100倍のパフォーマンスUPを実現

データ分析基盤の構築による影響

開発以外の部門も含めた組織にとって良い効果があった

  • マーケティングなどの人が自分でデータに興味を持ってどんどん分析して深掘りするようになった
  • エンジニアに依頼しなくても自分で触って分析できる

エンジニアチームに起こった変化

  • データ分析基盤の運用に時間を取られなくなった
  • GUIによるインターフェースによって、従来の高度なSQLによるデータ抽出に比べて大幅に工数が削減できた
武島 吉郁
武島 吉郁
開発者

1996年生まれ、ソフトウェアエンジニア。サッカーが好き。

Related