Google が音声録音アプリケーションの秘密を明らかにしました。単なるプリインストールされたアプリケーションではなく、文字起こしを行ったり、発言者を区別したりすることもできます。 Googleが説明したPixelスマートフォンに統合された技術的偉業。
グーグルは、音声トラックと文字起こしを分離することで、ディスカッションの中でどのようにして発言者を区別することができたかを説明しています。一部の端末で利用できる機能スマートフォンPixel Recorder アプリのピクセル。
GoogleのPixel Recorderアプリは素晴らしいです
のピクセルエクスペリエンス完了です。すべてをカバーしたと思っていても、特に Google スマートフォン専用の非常に便利な小さな機能がまだいくつかあります。数日前、ピクセル6、ピクセル6プロ、ピクセル6a、ピクセル7などピクセル 7 プロを受け取りましたシステムを更新する。 Pixel Recorder オーディオ録音アプリを強化します。
後者は、音声録音および文字起こし(行をスキップすることによって)内の各話者を識別してラベルを付けることができます。それはによって動作します機械学習もちろん、後でテキストを修正することもできますが、これらのラベルに名前を割り当てることもできます。
Google が会話内の複数の発言者を識別する方法
で彼らがブログに書いているチケット, Google のエンジニアは、この機能がどのようにして話している人を区別して音声を文字に起こすことができるのかについて説明しています。このインテリジェントな文字起こしを主に担っているのは、Google が開発した新しい話者タグ付けシステムです。ターントゥダイアライズ、今年初めて発表されました。
このシステムは、モバイル デバイスの限られたパフォーマンスに対処する必要があります。高度に最適化された複数の機械学習モデルとアルゴリズムを活用» リアルタイムで動作します。これは 3 つの要素で構成されています。
- 話者変更検出モデル。
- 各話者の発話から音声特徴を抽出する話者エンコーディング モデル。
- 各音声の話者ラベルに注釈を付ける多段階クラスタリング アルゴリズム。
機械学習は時間をかけてデータを取得するため、音声録音が長いほど信頼性が高くなります。その後、問題なく数時間(最大 18 時間)録音できるようになり、さらに優れています。さらに、このラベル付けシステムは、間違いがあったことに気付いた場合、録音の初期に付けたスピーカーのラベルを修正できる場合があります。
今のところ、ターントゥダイアライズのCPU部分で動作します。Google Tensor のデータしかし、そのエンジニアは、より多くの計算を、人工知能そしてそれはチップの神経エンジンを部分的に構成します。これによりエネルギー効率が向上します。
愛好家のコミュニティに参加してみませんか?私たちの不和ようこそ、ここはテクノロジーに対する相互扶助と情熱の場所です。