Windows標準の文字起こし機能「ライブキャプション」を使う

Windows 11 バージョン22H2から、文字起こし機能「ライブキャプション」が標準で搭載されました。これは動画やWeb会議などの音声を認識して、自動的に文字として表示する機能です。下はライブキャプションを使っている画面例です。

Microsoft サポートページ「meet Windows 11」の動画をライブキャプションで文字起こししている例

本記事では、このライブキャプションの使い方や活用シーンなどを紹介します。

要件
ライブキャプションの使い方
ライブキャプションの活用シーン
機能の補足・気になる点
参考URL
おわりに
1. フィードバック

要件

ライブキャプションは、Windows 11バージョン 22H2 以降で利用できます。エディション（HomeやProなど）は問いません。

日本語音声の文字起こしをするには、2023年７月11日のアップデート KB5028185 (OS ビルド 22621.1992) の適用が必要です。現在では基本的にWindows Updateで最新の更新プログラムを適用すれば、日本語音声に対応したライブキャプション機能が使用できます。

なお、Windows 11 バージョン21H2以前やWindows 10以前のOSでは、最新の更新プログラムを適用しても使用できません。

ライブキャプションの詳細はMicrosoftのサポートページ「ライブキャプションを使用してオーディオの理解を深める」に記載があります。

ライブキャプションの使い方

ここからはライブキャプションを有効にして、日本語音声の文字起こしを行う方法を紹介していきます。手順は簡単なので、お手元のPCで試していただくと分かりやすいと思います。

まず、OSのバージョンや更新プログラムを確認します。前述の通り Windows 11バージョン22H2以降、2023年７月以降の更新プログラムの適用が必要です。これらは基本的には自動的に適用されるので、特段の操作は不要なはずです。

ライブキャプション機能を起動するには、[Ctrl] + [Win] + [L] キーを押下します。もしくはスタートメニューから［すべてのアプリ］＞［アクセシビリティ］＞［ライブキャプション］を選択します。

ライブキャプション起動時、初回のみ下図のようにダウンロードが求められます。「ダウンロード」ボタンを押して、日本語音声の認識に必要なデータをダウンロードします。

更新プログラムが適用されていないと英語のみ

Windows 11 22H2の必要な更新プログラム（前項参照）が適用されていない場合、下のように「英語（米国）」限定になります。この状態では日本語音声の文字起こしが出来ないので、Windows Updateで最新の更新プログラムを適用します。

ダウンロード開始後、数分待ちます。

ダウンロードが完了すると、下のように表示されます。

動画の再生などで音声を発生させると、下のように自動的に音声を認識してウィンドウに表示されます。

デフォルトでは画面上部にウィンドウが表示されますが、歯車のアイコンをクリックし［位置］＞［画面に重ねて表示］を選ぶと、任意の位置・大きさで配置することができます。

認識した音声はデフォルトだと2行で表示されますが、ウィンドウを広げると下のように多くの行を表示できます。

ウィンドウを表示している間は、PC内で発生する音声が常に文字に起こされます。アプリケーションは問わず、Youtubeの動画やWeb会議など、PCから発生する音声であれば何でも認識します。ちなみに音楽を流すと、ボーカルの音声が断片的に認識します（精度は悪いですが）。

「×」ボタンでウィンドウを閉じると、ライブキャプション機能が終了します。

ライブキャプションの活用シーン

ライブキャプションは、聴覚に障碍を持つユーザーにとって有用な機能と思われます。その他にも、次のようなシーンでの活用が考えられます。

Web会議の聞き逃し対策
- Web会議中にライブキャプションをONにすると、相手の発言内容をより深く理解するのに役立ちそうです。文字起こしした内容を議事録として保存することはできませんが、一時的に聞き逃してしまった発言を確認する場合には便利です。Web会議ツールによっては、文字起こし機能を搭載していないものがあるので、その代替として使えます。
動画の字幕機能として
- Youtubeであれば自動認識した字幕を表示する機能がありますが、それができない動画もあります。そのような動画の再生中にライブキャプションをONにすると、簡易的な字幕機能として利用できます。電車の中や静かなオフィス内などで動画を再生する際に便利そうです。

機能の補足・気になる点

その他、ライブキャプション機能の補足や、認識した音声のプライバシー、PCの負荷などについて解説します。

自分の声を文字起こしする

デフォルトでは、自分の声は文字起こしが行われません。つまりWeb会議の場合、相手の声は文字として表示されますが、自分の声は表示されません。

自分の声も文字に起こしたい場合、下のように設定を変更します。歯車マークから［設定］＞［マイクオーディオを含める］をONにすればOKです。

プライバシー

Microsoftのサポートページによると、ライブキャプションで認識された音声データは自PC内で処理され、クラウドに送信したり保存されることはない旨の記載があります。

オーディオの処理と、検出された音声データからのキャプションの生成はすべて、デバイス上で行われます。オーディオ、音声データ、キャプションはデバイスから離れることはなく、クラウドや Microsoftと共有されません。
Microsoft サポートページ「ライブキャプションに関するよく寄せられる質問 (FAQ)」より

PCの負荷

音声の解析処理が自PC内で行われるのであれば、どの程度のマシンパワーが使われるか確認しました。筆者の環境では、ライブキャプションで文字起こしを行っている時は、CPU使用率が5～10%前後上昇しました。なおライブキャプションを有効にしていても、音声が発生していない場合はほとんど負荷はありませんでした。

下の例は、CPU 4コアメモリ4GBを割り当てた仮想マシンでライブキャプションによる文字起こしをしている途中のタスクマネージャーの画面です。CPU使用率 10％前後で推移していました。