AIが悪いんじゃない——渡しているものが足りないだけだ
AIの性能が低いと思っている。でも問題はあなたの側にあるかもしれない。
AIに家計簿アプリを作ってもらう。返ってきたものは、乱数生成器がデザインしたようだ。色は合わないし、レイアウトもおかしいし、カテゴリは変更不可の4項目にハードコードされている。触ってみるとさらにひどい。空の状態は処理されていない、削除の確認もない、項目を追加してタブを切り替えるとデータが消える。
何回かやり取りして修正を重ねる。30分後、まだ問題だらけだ。結論を出す——やっぱりAIはまだ使えない。
しかし、もし最初にすべてを伝えていたら——ユーザーは誰か、中心的なユースケースは何か、データの保存方法はどうするか、カテゴリは固定か自由入力か、グラフは必要か、デバイス間で同期するか——AIが受け取るのは一文ではなく、全体像になっていたはずだ。推測の必要がなくなり、一発で正解に近づく確率が格段に上がる。
50語のプロンプトと500語のプロンプトでは、まったく異なる結果が返ってくる。
問題は、誰が500語も打ちたいか、ということだ。
タイピングは自分の考えを静かに削っている
それなりに複雑な要件——背景、仕様、制約条件、期待する出力フォーマット——を十分に表現すると、軽く300語から500語になる。ところがタイピングの途中で、最初に言おうとしていたことがもうぼんやりしてくる。頭の中には完全な論理の連鎖があったのに、タイピングがそれをバラバラにしてしまった。
だから本能的に端折る。「もういいや、2行で送ろう」。
これはあなたの怠慢ではない。心理学者ケロッグは、タイピング中に脳で何が起きているかを研究した。タイピングしているとき、「表現する」だけではなく、言い回しを組み立て、キーボードを操作し、画面に出た文字を確認するという作業を同時にしている。これらのタスクが限られた注意力を奪い合い、「本当に言いたいことを考える」余地が減っていく。
脳には「思考の予算」がある。タイピングはその予算を消費している。だから出力が圧縮される。考えが足りなかったからではなく、タイピングという行為そのものが、考える力の一部を奪っているからだ。
話すことは思考を表現するだけでなく、思考をかたちにする
話すこととタイピングには、もっと深い違いがある。
こんな経験はないだろうか。頭の中ではぼんやりとした考えがある。でも誰かに説明しようとした途端、急にはっきりする。話しながら自分で驚く——「ああ、自分が思っていたのはこういうことだったのか」。
ヴィゴツキーは『思考と言語』の中で、言語は思考の容器ではなく、言語そのものが思考の形成に参加すると書いた。頭の中にあるアイデアは圧縮され、飛躍し、不完全だ。それを声にするとき、圧縮された論理を展開し、飛躍の間を埋め、曖昧な概念を具体化せざるを得ない。話すという行為そのものが、思考する行為なのだ。
タイピングでもそれは起きうる。しかしタイピングは遅く、認知的に重いため、展開がたびたび中断される。考えを半分広げたところで、タイピングのために手が止まる。打ち終わる頃には、文脈の半分が失われている。
話すことにはこの問題がない。十分に速く、十分に自然なので、思考が途切れずに展開できる。ひとつのポイントが次につながり、それがまた次につながる。連鎖が切れない。だからこそ、同僚に口頭で要件を説明すると、タイピングでは省くはずの背景や詳細が自然に出てくる。
マンハイム大学の研究がこれを直接的に確認した。同じ自由回答の質問に対して、音声で答えた場合はタイピングで答えた場合の2倍以上の長さになり、カバーするトピックも大幅に多かった。話し好きだったからではない——タイピングが人を自己編集に追い込むからだ。
こうしてAIは文脈を失う
AIの場面に戻ろう。
プロンプトを書くとき、最も重要な部分は指示そのものではない——「家計簿アプリを作って」は誰でも書ける。大事なのは指示の周辺にある文脈だ。ユーザーは誰か、シナリオは何か、データ構造にどんな制約があるか、インタラクションにどんな好みがあるか、エッジケースをどう処理するか。
これらはすべて頭の中にある。しかしタイピングしている間に、一枚ずつ削ぎ落とされる。この詳細は細かすぎるから省こう。AIが自分で判断できるだろう。さっき書こうとしたことをもう忘れた。
最終的に送るのは「キーボードというフィルター」を通過したバージョン——切り詰められた、不完全なバージョンだ。AIは受け取ったものだけで仕事をするしかない。そして推測を外したとき、AIの性能が低いと責められる。
もしその文脈をすべて声で伝えられたら? 2分間話すと、2分間タイピングするよりもはるかに多くの情報を伝えられる。背景、制約、好み、エッジケース——声で話していると自然に出てくる。「これはタイピングする価値があるか」とひとつずつ天秤にかける代わりに。
声からプロンプトへ
問題は、普通の音声入力で出てくるテキストはAIにそのまま貼れないことだ。つなぎ言葉、繰り返し、句読点なし、巨大なひとつのテキストブロック。先に整理しなければならず、またハードルが上がる。
Flow Keyboardは、話した内容をすぐに使えるテキストに変える。つなぎ言葉は除かれ、句読点と段落が整い、論理がなめらかに整えられる。途中で間を置いても、繰り返しても、文の途中で方向を変えても——出力はAIの会話に貼れる、同僚に送れる、ドキュメントに落とせる状態で出てくる。
2分間話すと、おおよそ200語から300語のきれいなプロンプトが生まれる。キーボードで絞り出す2行と比べて、AIが受け取る文脈はまったく別物だ。
AIが賢くなったわけではない
従来のワークフロー:何かを作りたい→プロンプトを打つ(2分、50語)→AIが誤解する→もう一往復→もう一往復→30分経過。
新しいワークフロー:何かを作りたい→2分間話す→完全な要件記述が出てくる→AIに貼る→一往復で完了。
違いはAI側にあるのではない。違いはあなた側にある——言うべきことを、ようやく全部言ったのだ。
声を、そのまま使えるテキストに。
Flow Keyboardは口述をそのまま整った文章にします。フィラー語を除去し、句読点と段落を整え、ロジックを整理。自然に話すだけで、すぐに使えるテキストが手に入ります。
参考文献
- Kellogg, R. T. (1996). A model of working memory in writing. In C. M. Levy & S. Ransdell (Eds.), *The Science of Writing* (pp. 57–71). Lawrence Erlbaum Associates.
- Vygotsky, L. S. (1934). *Thought and Language*. MIT Press (1986 English translation).
- Höhne, J. K. et al. (2024). Typing or Speaking? Comparing Text and Voice Answers. *Social Science Computer Review*, 42(4), 1066–1085.