Wiz ResearchがDeepSeekの公開ClickHouseデータベースを発見、チャット履歴や機密情報が流出
Wiz Researchは、DeepSeekが所有する公開アクセス可能なClickHouseデータベースを特定しました。このデータベースは、内部データへのアクセスを含むデータベース操作を完全に制御できる状態にありました。今回の漏えいには、チャット履歴、秘密鍵、バックエンドの詳細情報、その他極めて機密性の高い情報を含む100万行以上のログストリームが含まれています。
Wiz Researchのチームは、この問題を直ちにDeepSeekへ責任を持って報告し、DeepSeekは速やかに対策を講じて漏えいを封鎖しました。
本ブログでは、我々の発見について詳細を説明するとともに、この事例が業界全体に与える広範な影響についても考察します。
エグゼクティブサマリー
中国のAIスタートアップであるDeepSeekは、特にDeepSeek-R1推論モデルの開発により、最近メディアの大きな注目を集めています。このモデルは、OpenAIのo1などの先進的なAIシステムと競争できる性能を持ち、コスト効率と処理効率の高さで際立っています。
DeepSeekがAI分野で急速に成長する中、Wiz Researchチームは同社の外部セキュリティ態勢を評価し、潜在的な脆弱性を特定するための調査を行いました。
その結果、わずか数分でDeepSeekに関連する公開アクセス可能なClickHouseデータベースを発見しました。このデータベースは完全に開放され、認証なしでアクセスできる状態であり、機密データが漏えいしていました。このデータベースは、
oauth2callback.deepseek.com:9000 および dev.deepseek.com:9000 にホストされていました。
このデータベースには、大量のチャット履歴、バックエンドデータ、機密情報が含まれており、具体的にはログストリーム、APIシークレット、運用情報などが含まれていました。
さらに重大なのは、この漏えいによってデータベースの完全な制御が可能であり、DeepSeekの環境内で権限昇格が発生する可能性があったことです。外部に対する認証や防御機構は一切存在しませんでした。
漏えいの詳細
我々の調査は、DeepSeekの公開アクセス可能なドメインの評価から始まりました。外部の攻撃対象領域をマッピングするために、受動的および能動的なサブドメインの探索技術を用いた結果、約30のインターネットに面したサブドメインを特定しました。
これらの多くは、チャットボットのインターフェース、ステータスページ、APIドキュメントなどをホストしており、当初は重大なリスクがあるとは考えられませんでした。
しかし、標準的なHTTPポート(80/443)を超えて検索範囲を拡大したところ、以下のホストに関連する異常な開放ポート(8123 & 9000) を検出しました。
さらなる調査を行ったところ、これらのポートは認証なしでアクセス可能な公開ClickHouseデータベースにつながっていることが判明し、重大なリスクが浮かび上がりました。
ClickHouse は、オープンソースのカラム指向データベース管理システムであり、大規模データセットに対する高速な分析クエリを処理するために設計されています。Yandexによって開発され、リアルタイムデータ処理、ログ保存、ビッグデータ分析に広く使用されています。そのため、今回のようなデータベースの公開漏えいは、極めて価値が高く、機密性の高い情報が流出する可能性がある重大な発見となります。
ClickHouseのHTTPインターフェースを利用することで、/play パスにアクセスし、ブラウザ上で任意のSQLクエリを直接実行できることが判明しました。
試しに SHOW TABLES;
クエリを実行したところ、アクセス可能なデータセットの完全なリストが返されました。
その中でも特に目を引いたのが log_stream
テーブルでした。このテーブルには、機密性の高いデータを含む膨大なログが保存されていました。
log_stream
テーブルには100万件以上のログエントリが含まれており、特に次のような機密情報を含む重要なカラムが存在していました。
このテーブルには、以下のような特に機密性の高いカラムが含まれていました。
timestamp
– 2025年1月6日以降のログデータspan_name
– DeepSeekのさまざまな内部APIエンドポイントへの参照string.values
– 平文のログデータを含み、チャット履歴、APIキー、バックエンドの詳細、運用メタデータ などが記録されている_service
– どのDeepSeekサービスがログを生成したかを示す_source
– ログリクエストの発生元を示し、チャット履歴、APIキー、ディレクトリ構造、チャットボットのメタデータログ などを含む
この情報が漏えいすると、DeepSeekの内部システムに関する詳細な知識が外部に流出し、重大なセキュリティリスクを引き起こす可能性があります。
このレベルのアクセス権は、DeepSeekのセキュリティだけでなく、エンドユーザーにも重大なリスクをもたらしました。攻撃者は機密ログや平文のチャットメッセージを取得できるだけでなく、DeepSeekのClickHouse設定によっては、次のようなクエリを実行することで平文のパスワードやローカルファイル、機密情報を直接サーバーから流出させる可能性がありました。
SELECT * FROM file('filename')
(※倫理的なリサーチの原則を守るため、我々は列挙を超える侵入的なクエリは実行していません。)
重要なポイント
AIサービスの急速な普及とセキュリティのバランス
AIサービスの導入が急速に進む一方で、それに伴うセキュリティ対策が不十分なケースが多く見られます。今回の漏えいは、AIアプリケーションのセキュリティリスクが、主にそれを支えるインフラやツールの脆弱性に起因することを示しています。AIセキュリティの本当の脅威
多くの議論が「未来のAI脅威」に焦点を当てていますが、実際のリスクは基本的なセキュリティミス(例えばデータベースの誤公開)にあります。こうした基本的なリスクへの対策が、依然としてセキュリティチームの最優先事項であるべきです。AI導入のスピードとセキュリティのバランス
企業が急速にAIツールやサービスを導入する中で、それらの企業に機密データを託すリスクが高まっています。導入のスピードに対してセキュリティが後回しになりがちですが、顧客データの保護は最優先事項であるべきです。
セキュリティチームは、AIエンジニアと連携し、アーキテクチャ、ツール、モデルの可視性を確保することで、データの保護と漏えい防止を徹底する必要があります。
結論
AIほど急速に普及した技術は、これまで存在しませんでした。多くのAI企業は、セキュリティ基盤が整わないまま社会の重要なインフラを支える存在へと成長しています。
AIが世界中のビジネスに深く統合されていく中で、機密データの取り扱いに伴うリスクを認識し、セキュリティ対策をクラウドプロバイダーや主要インフラ企業と同等の水準まで強化することが求められています。