こんにちは、CAMPHOR- 運営メンバーの@artic-kueeです
12月10日に、【サイシード】拡散モデルで始める音声合成 というイベントを開催しました!
今回のイベントは久しぶりにHOUSEにて開催し、10名の方にご参加いただきました。ご参加いただいた皆様、ありがとうございました!
実際のイベントの様子をお伝えします!
イントロダクション
冒頭20分ほどでCAMPHOR-の説明、株式会社サイシード様の会社説明を行いました。
チャットボットサービスや検索サービスなど、自然言語処理系を中心としたサービスで知られる株式会社サイシード。
実はもう一つ強みがあって、それがワクチン接種予約システム。
京都市を含む、多くの自治体のシステムに利用されているそうです。
皆さんも実はお世話になっているかも?
第一部
第一部では、イントロダクションとして近年話題の拡散モデルの応用に関するトピックをご講義いただきました。
stable diffusion など話題になっている応用に関してご解説頂いたのち、各々で拡散モデルを用いた音声合成システムを実際に使ってみました。
Google Colabで実行可能な講義資料をご提供いただき、参加者の皆さんもめいめい好きな文章をAIに発話させていました。
第二部
第二部では、先程体験した音声合成システムに用いられているGrad-TTSの理論に関してご講義いただきました。
拡散モデルは画像処理に用いられるモデルなのですが、音声をメルスペクトログラムという二次元の特徴量に変換することで、拡散モデルを適用しているのだそうです。
第二部では、実際の音声データをメルスペクトログラムに変換してみました。
第三部
第三部では、今回の音声合成システムの構成に関して詳しくご講義いただきました。
Grad-TTSはTransformerで生成された音声データからノイズを取り除く役割を担っているそうです。
最後に、各過程を追いながらGrad-TTSによる音声合成を行いました。
理論と実装の対応が分かりやすい、素晴らしい講義でした。
最後に
今回のイベントでは、今話題の拡散モデルと、その音声処理への応用であるGrad-TTSに関してご講義いただきました。
最新の技術を理論と実装の双方から学べる、非常に有意義なイベントでした。
久しぶりの開催となったHOUSEで開く懇親会も、質問や談笑が絶えない交流の場となりました。
本イベントにご参加くださったみなさん、協賛してくださった株式会社サイシードのみなさん、ありがとうございました!