Flow Insights

MacBook 最被低估的硬體,
是麥克風

你每天都在用 MacBook 寫字,卻很少把它的麥克風當成輸入硬體。

MacBook 上的聲音波形變成一段乾淨文字

你花一萬多買了一臺 MacBook。晶片、記憶體、螢幕、續航,買之前都認真研究過。你每天用它寫郵件、發訊息、寫文件、給 AI 寫提示詞。

但你每天生產文字的方式,和二十年前沒有什麼區別:低頭敲鍵盤。

與此同時,你的 MacBook 裡有一套三麥克風陣列。MacBook Pro 的規格頁上,Apple 用的是「錄音棚級三麥克風陣列,具備高訊雜比和定向波束成形」;MacBook Air 也寫著「三麥克風陣列,支援定向波束成形」[1][2]

它已經超出視訊會議小元件的範圍,更接近一套為了捕捉人聲準備的輸入硬體。

但大部分時間,它在做什麼?

開會。視訊通話。偶爾發語音訊息。

除此之外,閒著。

一、三顆麥克風到底在做什麼

單個麥克風能記錄「這裡有聲音」,但它很難判斷聲音從哪裡來。

三顆麥克風的意義,是讓電腦多了一點空間感。你說話時,聲音到達不同麥克風的時間、強弱,會有極細微的差別。系統就可以利用這些差別判斷:哪一束聲音更像來自你,哪一部分更像桌面反射、鍵盤聲、空調聲,或者遠處的人聲。

三顆麥克風把人聲和環境噪音分離出來
三麥克風陣列讓電腦獲得一點空間感:人聲、反射和噪音不再只是混在一起的一團聲波。

定向波束成形聽起來很工程,但可以簡單理解成:電腦把最敏感的方向對準你,儘量壓低側面和遠處的噪音。Pro 規格里強調的高訊雜比,說白了就是你的人聲相對底噪更突出。這樣一來,後面的語音識別和文字整理模型拿到的原料會乾淨很多。

這件事難在,MacBook 和耳麥的處境完全不同。麥克風離嘴遠,角度會變,桌面會反射,鍵盤會響,會議室裡可能還有別人說話;機器還要足夠薄,開孔不能破壞外觀和結構。好的收音,難點是在很有限的空間裡,把人聲從複雜環境裡分出來。

這也是它重要的地方:AI 語音輸入從聲波進入電腦那一刻就開始了。前端收得越乾淨,後面識別、斷句、整理、改寫才越有餘地。

二、你可能試過,然後放棄了

很多人試過語音輸入,最後又回到了鍵盤。

原因很現實。Apple 自帶的語音聽寫在短句上夠用,但一到中文長句、專有名詞、中英混輸、長段思考,出來的文字就需要大量後續編輯——改錯字、補標點、重新分段、整理語氣。你省下了打字時間,又把時間花在整理轉錄稿上。

語音聽寫留下零散口語和需要整理的草稿
傳統聽寫常把「輸入」省下來的時間,重新花在整理轉錄稿上。

問題常常出在聲音之後那層軟體。

硬體負責把聲音收進來,軟體決定它能不能變成可用的文字。過去這一層一直不夠好,於是再好的麥克風也只能當會議工具用。

三、打字在壓縮你的想法

打字和說話的差別,遠遠超過速度。

你跟同事口頭講一個需求,通常會講得比文字訊息更完整。你會自然地補充背景、原因、例外情況、你希望對方怎麼處理。可是一旦坐到鍵盤前,你會下意識地壓縮:算了,先寫兩句吧。

寫作研究者 Kellogg 把這種現象解釋為工作記憶的競爭[3]:打字時,表達、措辭、鍵盤操作、螢幕檢查會同時發生。好幾件事一起爭奪注意力,內容反而被擠壓了。

豐富想法在鍵盤輸入前被壓縮成短句
鍵盤很適合精修,但在生成想法時,它也會讓人提前刪減自己。

說話的負擔輕很多。你不用想每個字怎麼敲出來,張嘴就能說,注意力可以更多放在內容本身。

很多人大概都經歷過這樣的瞬間:想給同事講清楚一件複雜的事,打了三行字刪掉兩行,最後發了一句「有空打個電話吧」。你當然想講清楚,只是打字這個動作會不斷把表達壓短。

在 AI 時代這個問題更明顯。你給 AI 寫提示詞時,50 字和 500 字的輸入,得到的結果差別很大。背景、約束、驗收標準、使用者場景——這些上下文才是 AI 真正需要的東西。但誰願意在鍵盤上打 500 字?

如果你能按一個鍵,說上兩分鐘,讓這些上下文自動變成文字呢?

四、一個鍵和一套麥克風

MacBook 鍵盤左下角有一個平時存在感很低的鍵:fn(部分新款鍵帽上也標著 🌐)。大部分人只在切功能鍵時偶爾碰一下,甚至不確定它還能做什麼。

但如果你把它當成語音入口來看,這個鍵的位置其實很順手——左手小指自然就在那兒,不需要抬手,不打斷當前的工作流。

Apple 其實已經把語音的基礎設施準備好了:一套能區分人聲和噪音的麥克風陣列,一個隨手可及的物理按鍵。新款 MacBook 的規格里還寫到了 Voice Isolation 和 Wide Spectrum 這類麥克風模式,主要用於音訊和視訊通話時提升人聲清晰度[1][2]。這些模式主要服務通話場景,未必覆蓋所有輸入場景;但它說明 Apple 在系統層面對人聲處理一直有投入。

硬體和入口都在。缺的一直是最後一層:把你說出來的話,變成可以直接用的文字。

五、補上軟體層

普通語音輸入出來的文字通常會顯得粗糙——口水詞、重複、沒標點、不分段。說完還得花時間整理,又回到了鍵盤上的那套工作。

自然口述穿過軟體層後整理成可直接使用的文字
軟體層的價值,是把自然口述整理成能直接使用的文字。

Flow 輸入法做的事情很簡單:把你說的話整理成能直接用的文字。你說的時候可以停頓、重複、臨時換思路,出來的文字口水詞已經去掉了,標點、分段、邏輯都理好了,可以直接發給同事、貼進 AI 對話方塊、放進文件裡。

Mac 使用者的日常本來就高度文字化——郵件、文件、Slack、LINE、Notion、程式碼編輯器。Flow 輸入法能在任意文本框裡工作,游標在哪兒就能在哪兒說。

開完會馬上說五分鐘,趁細節還熱,把結論、分歧、待辦說出來——打字覆盤最難的是「開始」,口述可以繞過這個門檻。下班前對著螢幕說三分鐘,這周做了什麼、下週推什麼,一版週報底稿就有了。前面提到的那些場景——給同事講清楚一件事、給 AI 補夠上下文——也是同一個動作:按一下 fn,說完就能用。

六、把已經買過的硬體用起來

你花一萬多買的 MacBook,有一塊好螢幕、一顆快晶片、一套好鍵盤。

它也有一套為你的聲音設計的麥克風,和一個隨時可以按到的鍵。

下次開啟一個空白文件,先別急著打字。按一下 fn,說給它聽。

把 MacBook 的麥克風用起來。

Flow 輸入法把自然口述整理成乾淨文字:識別、標點、分段、去口水詞、理順邏輯。給 AI、同事、文件,都可以直接用。

引用

  1. Apple: MacBook Pro Technical Specifications.
  2. Apple: MacBook Air Technical Specifications.
  3. Kellogg, R. T. (1996). A model of working memory in writing. In C. M. Levy & S. Ransdell (Eds.), The Science of Writing (pp. 57-71). Lawrence Erlbaum Associates.