このような際に、Gluesyncを使用して、データを基盤となるAWS S3やAzure Data Lake Gen 2、Google Cloud Storageに連携しておくことで簡単に分析が行えます。
そして、GluesyncはAWS S3、Azure Data Lake Gen 2、Google Cloud Storageでの連携において、JSON形式のみでなく、最新版2.1.6にてParquetファイルをサポートしました。
Parquetファイルとは何かといった点に関しては、下記のブログなどが参考になるかと思います。簡単に言えば、CSV等とは異なり、バイナリでデータを保持することでサイズを削減し、列指向データ形式により、Amazon AthenaやAzure Data FactoryなどのBigQuery、データ分析パフォーマンスを大幅に向上できます。
リアルタイムデータ統合プラットフォーム「Gluesync」のWindowsユーザ向け変革的なアップグレードとなるバージョン2.1.4のリリースされました。このアップデートは、完全なWindowsネイティブコンテナサポートと大幅なパフォーマンス向上に焦点を当てています。IBM Db2およびAzure Data Lakeとの統合によりエンタープライズ接続性を拡大したバージョン2.1.3に続き、本バージョンではネイティブWindowsコンテナ技術を提供し、従来存在していたOS間のパフォーマンス格差を解消します。
Gluesync 2.1.4 の主な機能
Windows ネイティブ コンテナ技術:フルスピード統合
このリリースにおける顕著な進歩は、Windows Server Core 2022 を基盤とした Windows ネイティブ コンテナの一般提供開始 です。この追加により、Windows ユーザーは以下の利点を得られます:
IBM Db2 LUWサポートの導入は重要なエンタープライズ統合ニーズに対応し、Azure Data Lake Storageコネクタはクラウドベース分析への道筋を提供します。強化されたグループスケジューリングと条件付きデータ制御と組み合わせることで、Gluesyncは要求の厳しいデータ統合課題に対する包括的ソリューションとして進化を続けています。
追伸:Gluesync 2.1.4について:
Gluesync2.1.4ではMicrosoft Windowsオペレーティングシステム専用のGluesyncイメージをリリースしました。これにより、企業はWSL(Windows Subsystem for Linux)の使用が不要となり、Windows環境でのGluesyncインストールが大幅に簡素化されます。LinuxシステムへのGluesyncインストールを希望されないお客様向けの優れた解決策が実現しました。