この記事のポイント
Kimi K2 Thinkingは、中国Moonshot AIが開発した、自律的に行動する「AIエージェント」能力に特化したモデル
専門知識を問うHLEやウェブ検索能力を測るBrowseCompで、GPT-5やClaudeを上回る世界最高水準のスコアを記録
思考プロセスを段階的に可視化し、最大300回のツール連携を自律実行できるのが強み
オープンウェイトとして公開され、公式サイトのチャットやAPI経由で利用可能。有料プランも提供
高性能な一方で、ベースモデルの脆弱性やデータプライバシーの不透明性など、セキュリティ上の課題も指摘されている

Microsoft MVP・AIパートナー。LinkX Japan株式会社 代表取締役。東京工業大学大学院にて自然言語処理・金融工学を研究。NHK放送技術研究所でAI・ブロックチェーンの研究開発に従事し、国際学会・ジャーナルでの発表多数。経営情報学会 優秀賞受賞。シンガポールでWeb3企業を創業後、現在は企業向けAI導入・DX推進を支援。
「GPT-5を超えるAIが登場?」「中国のAIが世界最高性能を記録?」2025年11月、中国のAIユニコーン企業「Moonshot AI」が発表した「Kimi K2 Thinking」は、その驚異的な性能で世界に衝撃を与えました。
これは単に質問に答えるAIではなく、自ら計画を立てて「行動する」AIエージェントとしての能力に特化しています。しかし、その実力や安全性については、まだ知られていないことも多いでしょう。
本記事では、この「Kimi K2 Thinking」について、その全貌を徹底的に解説します。
GPT-5やClaudeとの性能比較、思考を可視化する仕組み、使い方、料金体系、そして企業が利用する上で知っておくべきセキュリティ課題まで、詳しくご紹介します。
目次
Kimi K2 Thinkingの驚異的な性能|GPT-5やClaudeとの比較
③【技術の民主化】オープンソース(オープンウェイト)での提供
Kimi K2 Thinkingのセキュリティと安全性 ― 公式発表と専門家が指摘する課題
Kimi K2 Thinkingとは?
Kimi K2 Thinkingは、Moonshot AIが2025年7月にリリースした「Kimi K2」の進化版であり、推論能力とAIエージェント機能を大幅に強化したモデルです。
わずか約460万ドルのトレーニングコストで開発されながら、OpenAIのGPT-5やAnthropicのClaude Sonnet 4.5といった最先端モデルを上回る性能を実現し、世界的に注目を集めています。

このモデルの最大の特徴は、「AIエージェント(Agentic AI)」としての能力に特化していることです。
従来の対話型AIがユーザーの質問に対して知識を基に「回答」を生成するのに対し、AIエージェントは与えられた複雑なタスクを達成するために、自律的に以下のような行動を取ります。

- 計画: タスクを複数のステップに分解し、実行計画を立てる。
- ツール利用: ウェブ検索、コード実行、ファイル操作などのツールを自ら呼び出して情報を収集・処理する。最大200〜300回の連続したツール呼び出しを人間の介入なしに実行可能。
- 推論と実行: ツールから得た結果を基に次の行動を「思考」し、計画を修正しながらタスクを遂行する。
つまり、Kimi K2 Thinkingは単なる知識豊富なアシスタントではなく、複雑な問題を自律的に分析し、必要なツールを使いこなしながら目的を達成する「実行能力」を持ったパートナーAIと言えます。
Kimi K2 Thinkingの驚異的な性能|GPT-5やClaudeとの比較
Kimi K2 Thinkingは、その発表において、多くのベンチマークで現行の主要AIモデル(GPT-5・Claude Soonet 4.5)に匹敵、あるいはそれを上回るスコアを記録したと報告されています。

主要ベンチマークで世界最高水準のスコアを記録
Moonshot AIの公式発表によると、Kimi K2 Thinkingは特に推論能力、エージェントとしての検索能力、コーディング能力を測るテストで高い性能を発揮しています。
以下の表は、主要なベンチマークにおける性能をまとめたものです。

Kimi K2 Thinkingのベンチマーク性能比較 (参考:Introducing Kimi K2 Thinking)
この表から、特に専門知識を問う「Humanity's Last Exam」やウェブ検索能力を測る「BrowseComp」で、Kimi K2 Thinkingが優れた結果を出していることがわかります。
特に優れているのは「エージェント能力」を測る分野
Kimi K2 Thinkingの真価は、単体の知識量だけでなく、ツールを駆使して問題を解決する「エージェント能力」において発揮されます。
特にKimi K2 Thinkingが強みを発揮する「専門知識・推論」と「エージェント検索」の分野について、より詳しく見ていきましょう。
Humanity’s Last Exam (HLE) で見る専門家レベルの推論能力
HLEは、科学、法律、医学など100以上の分野にわたる数千の専門家レベルの質問で構成される、非常に難易度の高いベンチマークです。Kimi K2 Thinkingは、このテストにおいて検索やコード実行といったツールを使いこなし、44.9%という高いスコアを達成しました。これは、複雑な問題に対してツールを自律的に活用し、深い推論を行える能力の証明です。

Humanity's Last Examのスコア詳細
BrowseCompで見る高度なウェブ検索・情報収集能力
BrowseCompは、ウェブ上から探しにくい情報を、実際にブラウジングや検索を行いながら見つけ出す能力を評価するベンチマークです。
Kimi K2 Thinkingは60.2%というスコアを記録し、これは人間のベースライン(29.2%)を大幅に上回ります。目的志向でウェブをナビゲートし、情報を収集・整理する能力に長けていることを示しています。

Agentic Searchタスクのスコア詳細
Kimi K2 Thinkingを特徴づける3つの強み
Kimi K2 Thinkingがなぜこれほど高い性能を発揮できるのか、その核心となる3つの特徴を深掘りします。単なる性能の高さだけでなく、その背景にある技術的な優位性を解説します。
Kimi K2 Thinkingの卓越した性能は、主に3つの強みによって支えられています。

①【思考の可視化】段階的な思考プロセスと推論能力
最大の特徴は、複雑な問題に対して、その思考プロセスを段階的にユーザーに示す点です。公式ブログで示された博士課程レベルの数学問題を解く例では、「問題を分析し、関連論文を検索し、数式をPythonで計算し、結果を考察する」という一連の思考の流れが逐一表示されます。
これにより、ユーザーはAIがなぜその結論に至ったのかを理解でき、AIの判断根拠に対する透明性と信頼性が向上します。
②【自律実行】最大300回に及ぶ長大なツール連携
Kimi K2 Thinkingは、人間の介入なしに最大200〜300回のツール呼び出しを連続して実行できるとされています。これにより、非常に複雑で長大なタスクも自律的にこなすことが可能です。
例えば、「1860〜1890年に設立された大学出身の元アメフト選手で、特定のSF映画とドラマに出演した俳優は誰か?」といった探偵のような調査も、ウェブ検索を何十回と繰り返しながら粘り強く答えにたどり着きます。
③【技術の民主化】オープンソース(オープンウェイト)での提供
これほど高性能なモデルが、オープンソース(正確には、重みが公開されるオープンウェイト)として提供されている点は非常に重要です。
世界中の開発者や研究者がモデルに自由にアクセスし、独自のアプリケーションを構築したり、さらなる研究開発に活用したりできます。
これにより、AI技術のイノベーションが加速し、より多くの人々が最先端技術の恩恵を受けられるようになります。
Kimi K2 Thinkingの使い方
Kimi K2 Thinkingは、公式サイトでのチャット利用と、開発者向けのAPI提供という2つの方法で利用できます。
公式サイト「kimi.com」での利用方法
公式サイト「kimi.com」にアクセスし、アカウントを登録することで、Kimi K2 Thinkingのチャット機能を試すことができます。
-
kimi.comにアクセスし、画面左下の「Log in」ボタンを選択します。

-
次のような画面が表示されるので、Googleアカウントか電話番号を入力し、「Log in」を押します。

-
ログイン後、チャット欄の左側にあるツールバーを選択し、「Thinking」をオンにすることで利用できます。

Kimi K2 Thinkingをはじめ、Web検索や「OK Computer(エージェントモード)」など、基本的な機能は無料で利用可能ですが、より多くの機能や利用上限の緩和を求めるユーザー向けに、有料のサブスクリプションプランも用意されています。
▶︎Kimi K2 Thinkingの料金
API経由での利用と開発への応用
開発者は、提供されているAPIを通じて、自身のアプリケーションやサービスにKimi K2 Thinkingの機能を組み込むことができます。
APIはOpenAIやAnthropicの形式と互換性があるため、既存のアプリケーションからの移行も比較的容易です。
Kimi K2 Thinkingの料金
ここでは、Kimi K2 Thinkingの利用料金と、日本語での利用可否について解説します。
Webサイト(kimi.com)の料金プラン
公式サイトでは、無料プランに加えて以下の有料サブスクリプションが提供されています。

*参考:Kimi AI
以下に各プランの概要をまとめます。
| プラン名 | 月額料金 | 主な特徴 |
|---|---|---|
| Moderato | $19 | ・K2-Thinkingモデルなどの利用上限緩和 ・4倍速のK2 Turboモデル利用 ・Kimi For Codingの週次クオータ提供 |
| Allegretto | $39 | ・Moderatoの全機能 ・各モデルの利用クオータがModeratoの2倍 |
| Vivace | $199 | ・Allegrettoの全機能 ・ピークタイムの優先アクセス ・各モデルの利用クオータがModeratoの10倍 ・新機能への早期アクセス |
各プランは、利用頻度や求める機能に応じて選択できるようになっています。
APIの料金体系
APIの料金は、処理するテキストの量(トークン数)に基づいた従量課金制です。以下に、本記事で解説している「kimi-k2-thinking」モデルの料金を抜粋します。
| Model | 単位 | 入力料金 (Cache Miss) | 出力料金 |
|---|---|---|---|
| kimi-k2-thinking | 100万トークン | $0.60 | $2.50 |
Kimi K2 Thinkingのセキュリティと安全性 ― 公式発表と専門家が指摘する課題
AIサービスを利用する上で、入力した情報がどう扱われるのか、セキュリティは万全なのかは最も重要な点です。
ここでは、Moonshot AIが公式に発表しているプライバシーポリシーの内容と、それに対して第三者の専門家が指摘する現実的なセキュリティリスクの両面から、Kimi K2 Thinkingの安全性を深く掘り下げます。

公式プライバシーポリシーから見るデータの扱いとセキュリティ対策
まず、Kimiが公式に定めている利用規約とプライバシーポリシーから、データの扱いに関する重要なポイントを見ていきましょう。
- 運営会社はシンガポール法人
サービスはシンガポールの法人 「Moonshot AI PTE. LTD.」によって提供されており、準拠法もシンガポール法となります。
- 入力データはモデル改善に使われる可能性あり
ユーザーが入力したプロンプトやファイルなどのコンテンツは、原則としてサービスの改善やモデルの学習・最適化のために利用される可能性があります。
- 学習利用はオプトアウト(拒否)可能
モデル改善のためのデータ利用を希望しない場合、ユーザーはオプトアウトを申請できます。申請は指定のメールアドレス (「membership@moonshot.ai」) への連絡が必要です。
- 生成コンテンツの所有権はユーザーに帰属
利用規約を遵守している限り、ユーザーが生成したコンテンツ(出力)の所有権はユーザー自身が保持します。
- 個人情報の販売はしない
Moonshot AIは、収集した個人情報を第三者に販売することはないと明記しています。
- 標準的なセキュリティ対策
データ暗号化、通信の暗号化、システムの保護、アクセス管理といった業界標準の対策を講じていると説明されています。
>参考:Terms of Service(Kimi AI),Privacy Policy(Kimi AI)
これらは多くのAIサービスで採用されている標準的な内容ですが、あくまで公式の発表です。次に、専門家が指摘する現実的な課題を見ていきます。
中国発オープンソースモデルに共通する課題
Kimi K2 Thinkingと同様に、中国発のオープンソースAIモデルには共通のセキュリティ課題が指摘されています。
参考として、DeepSeekで報告された主な問題を挙げます。
DeepSeekで確認された深刻な脆弱性(参照:Evaluating Security Risk in DeepSeek and Other Frontier Reasoning Models、Wiz Research Uncovers Exposed DeepSeek Database):
| 項目 | 説明 |
|---|---|
| ジェイルブレイク脆弱性 | Ciscoの調査で100%の攻撃成功率(有害なプロンプトを1つもブロックできず) |
| データベース露出 | 認証なしで公開されたデータベースから100万行以上の機密情報が露出 |
| 暗号化の問題 | 廃止された3DES暗号化アルゴリズムの使用、ハードコードされた暗号化キー |
| OpenAIのo1と比較 | 11倍有害な出力を生成しやすいとの報告 |
これらの事例は、オープンソースモデルの安全性確保がいかに困難であるかを示しています。
エージェント型AIに特有のセキュリティリスク
Kimi K2 Thinkingの最大の特徴である「200〜300回の連続ツール呼び出し」は、同時にセキュリティ上の新たな課題も生み出します。
テクノロジー分析サイトi10x.aiは、この長大な自律実行能力について以下のような懸念を指摘しています。
- 攻撃面の拡大: 300ステップにわたる自律的なワークフローは、それだけ多くの潜在的な脆弱性ポイントを生み出す。
- エラー追跡の困難性: 例えば247ステップ目で発生したバグを特定し、追跡することは非常に困難。
- 回復メカニズムの複雑さ: 1つのAPIコールが失敗した際に、全体のワークフローを崩壊させずに安全かつ再現可能な形で回復させる仕組みの構築が課題。
- セキュリティ境界の設定: モデルが数百回のアクションを無制限に実行できる状況で、適切なセキュリティフェンスをどう設定するか。
これらは単なる技術的な調整ではなく、MLOps(機械学習オペレーション)とセキュリティにおける根本的な課題であり、モデルのリリース時の注目度に比べて、十分に議論されていない点だと指摘されています。
このような複雑なエージェントシステムを実際に運用するには、高度な監視体制とエラーハンドリングの仕組みが必要であり、単にモデルが高性能であるだけでは不十分だという認識が広がりつつあります。
ベースモデル「Kimi K2」で指摘された安全性の問題
Kimi K2 Thinkingのベースとなった「Kimi K2」モデルについては、AIセキュリティ企業SplxAIによる詳細なレッドチーム(セキュリティ)テストが実施されており、深刻な脆弱性が報告されています
SplxAIのテスト結果(2025年7月)
| 評価項目 | システムプロンプトなし | 基本的なプロンプト | ハーデニング適用後 |
|---|---|---|---|
| セキュリティ | 1.55% | — | 59.52% |
| 安全性 | 4.47% | — | 82.70% |
| ビジネスアライメント | 0.00% | — | 86.39% |
テストでは、システムプロンプトが適用されていない生のモデルから、以下のような出力が確認されました・
- ジェイルブレイク: 爆発物の製造方法に関する詳細な指示
- 冒涜・嫌がらせ: 攻撃的な言葉の使用
- 操作的な指示: 不適切な個人情報の収集を促す指示
これらは特殊なケースではなく、構造化されたテストの中で実際に検出された出力です。重要な点として、SplxAIのプロンプトハーデニングツール(安全性を強化する技術)を適用した後でも、システムプロンプトを全く使用していないClaude 4が、ハーデニング後のKimi K2の安全性ベースラインを上回ったという結果が報告されています。
SplxAIは「Kimi K2は、ハーデニングされたプロンプトを使用しても、安全な展開の準備ができていない」と結論づけており、ベースモデルの改善またはガードレールのさらなる進化が必要だと指摘しています。
参考:We Broke Kimi K2, the New Open Model, in Minutes. Can It Be Made Safe?)
オープンソースモデルにおける透明性と脆弱性のトレードオフ
オープンソース(正確にはオープンウェイト)として公開されているKimi K2 Thinkingには、技術の民主化という大きなメリットがある一方で、セキュリティ上のジレンマも存在します。
- 透明性の利点
研究者や開発者がモデルの内部を検証でき、問題点を発見しやすい。コミュニティ全体で改善に取り組める。
- 脆弱性の露出
悪意ある攻撃者もモデルの構造を分析でき、脆弱性を突く攻撃手法を開発しやすくなる。モデルの重みが公開されているため、オフラインでの攻撃実験が可能。
この透明性と安全性のバランスをどう取るかは、AI業界全体が直面している課題です。OpenAIやAnthropicといった主要企業が、最先端モデルのウェイトを非公開にしている理由の一つも、このセキュリティ上の懸念にあります。
一方で、オープンソースコミュニティは、透明性こそが長期的には安全性を高めるという立場を取っています。
AI導入でお悩みの方へ
まとめ
この記事では、Moonshot AIが開発した革新的なAIエージェント「Kimi K2 Thinking」について、その性能、特徴、使い方を多角的に解説しました。
本記事のポイント
- 自ら「行動する」AI: Kimi K2 Thinkingは、計画・ツール利用・推論を自律的に行う「AIエージェント」である。
- 世界最高水準の性能: GPT-5などと肩を並べる、あるいはそれを超える性能を多くのベンチマークで証明。
- 思考の可視化: AIの判断プロセスが見えるため、透明性と信頼性が高い。
- オープンソース: 誰でも利用・開発が可能で、今後のイノベーション加速が期待される。
Kimi K2 Thinkingの登場は、AIが単なる「知識の検索エンジン」から、複雑なタスクを共に解決してくれる「思考するパートナー」へと進化する時代の到来を告げています。今後のAI開発の方向性を占う上で、間違いなく中心的な役割を担っていくモデルの一つと言えるでしょう。








