Google Voice を担当するエンジニアは、Google Voice の背後にあるアルゴリズムを大幅に作り直しました。 Google Voice はユーザーの声をより簡単に分離できるようになり、ユーザーのリクエストにさらに迅速に応答できるようになりました。

最近、Android スマートフォンの音声検索の応答性と正確さが大幅に向上していることに気づいた場合、それは単なる印象ではありません。 Google Voice を支えている Google エンジニアは実際に次のことを公開しています。Google Research ブログの長い記事音声認識アルゴリズムのかなりの部分を作り直した、と説明している。

あなたが開発者で、言語学とアルゴリズムに情熱を持っている場合は、この記事が特に気に入っていただけるはずです。一方で、誰にとっても理解するのははるかに複雑です。チームは設計したことを発表「より優れた音響モデルネットワーク» 「」を使用してコネクショニストの時間分類 (CTC)" そして「差別的訓練順序技術」(シーケンス識別トレーニング技術)。

より具体的には、Google Voice は、ユーザーが特定の音素を発音する方法に基づいて単語をより簡単に予測できるようになりました。アルゴリズムは、発音の仕方を分析し、論理的、文法的に何が続くかを予測します。ある意味、人間と同じように、Google Voice は文が完成する前に文の残りの部分を多かれ少なかれ推測できます。

Googleは、このプロセスがすでに知られており、以前から機能していたことを示唆しています。しかし、その後、分析時間である 300 ミリ秒の遅延が必要になりました。本当の偉業は、プロセスを可能な限り高速化し、アルゴリズムを使用して予測システムを改善することでした。たとえば、Google Now を起動するだけで、この精度の向上に感心するだけで、結果が目の前に現れます。