Google音声入力で書き起こしをしてみたら音声入力以上の最適解を見つけた

みなさんはGoogleの音声入力を知っているでしょうか。Googleの音声入力とは、マイクに向かって喋った内容を文字にしてくれるという便利な機能です。

今回は、Googleの音声入力を使ってみた感想を書いていきます。

まずはじめに、私が音声入力を使った理由と用途はずばり「文字の書き起こしがダルいから」です。

画像になっている文章を書き起こすという作業だったのですが、これが1000文字以上あったのでかなりダルい。

何か効率が良い方法はないかと考えたときに思いついたのが、音声入力でした。

つまり、私の場合の音声入力の仕方は「画像になっている文章を読み上げて入力する」というものです。

先に結論を書いておくと、

かなり制度が高まっているが、固有名詞が頻出する文章では使いづらい

最初はかなり時間がかかる

自分の滑舌の悪さに絶望

これが音声入力をやってみた私の感想です。

音声入力を実践してみた結果、1000文字くらいの書き起こしに20分ぐらいかかりました。

今回は使い方に慣れていないこともあり、かなりロスタイムが多くありました。

慣れればこれの半分くらいの時間で入力ができるようになるかと思います。

しかし、試行錯誤している間に、画像化されている文書を書き起こしする最も良い方法を見つけました。

それは、これまたGoogleさんのOCRという機能です。

Googleが提供している画像認識サービスであるOCR。ざっくり言えば、画像の中に含まれているテキストを抽出してくれるというものです。

これを使えば、音声入力などせずともキャプチャしたツイートの内容やメモの内容を簡単にものの数秒で書き起こしすることができます。

この機能の精度はかなり高いので、ほとんどミスなく読み取ってくれてかなり便利です。

音声入力などせずともこれなら最速で文字起こしが可能です。

しかし、このOCRにも弱点はあります。それは、手書きの文字を読み取ることは難しいという点です。

手書き文字の認識はまだまだ誤認識が多く、間違いなく手打ちのほうが速いでしょう。

以上のことから、現在は画像化されている文章の書き起こしは手動かGoogleのOCRが最適な手段と言えそうです。

音声入力は、現状では動画や音声の書き起こしにだけは効力を発揮すると言えそうです。

オワタブログ