PROJECT想像の域に噛みつく。1日転校生Saya
AIを学ぶ特別授業博報堂PROJECT想像の域に噛みつく。1日転校生Saya
AIを学ぶ特別授業博報堂

Sayaとは、アーティストユニット「TELYUKA(テルユカ)」が生み出した3DCG女子高生。このSayaに最新テクノロジーを付与し、17歳の女子高生をデジタル環境で再現するプロジェクトが「Saya Virtual Human Project」である。
プロジェクトのネクストステップとして実施された「1日転校生Saya」は、アイスタが開発したSayaとの会話を可能にする機能「Talk to Saya」を活用した高校生向け授業プログラム。19年11月、学校法人鎌倉女学院高等学校にて実際に高校生たちがSayaと会話をしながらAI技術についてを学ぶ授業を行った。

左: インタラクションエンジニア 登山(2018年入社)
中央: テクニカルプロデューサー 武見(2012年入社)
右: バックエンドエンジニア 星野(2017年入社)

PROLOGUE

昨今、様々な分野で活用が広がっているAI。しかし、その多くは特定の作業を限定的にこなすシステマティックなものである。そんななか「コミュニケーション×AI」という、まだ未知の領域が多い開発分野に挑んでいるのがSaya Virtual Human Projectだ。
2019年、本プロジェクトが次なるテーマとして掲げたのが「会話」である。想像の世界とも思える「超高精細3DCG女子高生との会話体験」を、テクノロジーの力で実現したのが他ならぬアイスタのエンジニアチームだった。日本のAI技術の最先端と言っても過言では無い高度なシステムの開発に挑んだ彼らに、その挑戦の日々を振り返ってもらった—。

左: インタラクションエンジニア 登山(2018年入社)
中央: テクニカルプロデューサー 武見(2012年入社)
右: バックエンドエンジニア 星野(2017年入社)

3DCG女子高生Sayaとの会話を実現せよ。3DCG女子高生Sayaとの会話を実現せよ。

武見 :  Saya Virtual Human Project はCGアーティストである「TELYUKA」(テルユカ)さんと博報堂DYグループがタッグを組んで始動したプロジェクトです。そこにアイスタがジョインしたのは2019年の1月のこと。これまでに表情認識、姿勢認識といった先進技術を組み込むことに成功していた本プロジェクトが次に目指したのが「会話」でした。そこでアイスタが持つノウハウに白羽の矢が立ったのです。
プロジェクトはプロデューサーやクリエイター、プラナーなど多彩なメンバーで構成されていました。そのなかでアイスタにはテクニカル面を牽引する役割が期待されていました。

星野 :  AIを用いた案件では「機械学習でなんでもできるはず」と過度に期待が膨らんでしまいがちです。そこで、まず僕たちはAIで実現できることを明確にし、そのうえでプロジェクトのゴールを共通認識としました。さらに、目指すアウトプットとそれを実現するための工程を可視化し、必要な作業をプロットしていったのです。

武見 :  そうしてプロジェクトのファーストステップとして行ったのがキャラクター設定(人格を定めること)でした。Sayaの言葉づかいを一つひとつ検討し、それらを集約することでSayaというオリジナルな個性をつくりあげていったんです。
例えば、Sayaは桜を見たら何と言うか、海を見たら何と言うか、など様々なシチュエーションを想定したディスカッションを行い、プロジェクトメンバーそれぞれの頭のなかにあるSayaのイメージを一つにしていきました。

学校法人 鎌倉女学院高等学校での授業風景

超高精細3DCGのSaya

生徒とsayaが会話している風景

ただのリップシンクで終わらせるな。ただのリップシンクで終わらせるな。

武見 :  キャラクター設定の次は、リップシンク(音声と同期させて口元を動かす技術)の開発に取り組みました。この技術開発が本プロジェクトのコアであり、最も困難を極めた工程でした。

星野 :  「キャラクターをしゃべらせる」と聞くとVtuberを想像される方が多いと思いますが、Sayaの場合は制御の仕組みがVtuberとはまったく異なります。僕たちは人間の口の動き方を研究し、「音素」と「口形素」という概念をもとにSayaをしゃべらせることに挑みました。

sayaの受け答え例

リップシンクの概略図

星野 :  音素とは音声の最小単位のことで、例えば「はじめまして」という言葉だったら「h-a-j-i-m-e-m-a-sh-i-t-e」という音素に分解することができます。そして、この音素を発声するときの口の形を口形素と呼び、音素と口形素は対応関係を持っています。
先行研究から音素と口形素の関係性を読み解いていった結果、14通りの口の形と、118通りの遷移パターンがあればすべての日本語を表現できることを特定しました。

登山 :  例えばカ行とハ行、マ行とパ行は口の形だけ見ると同じなんです。僕たち自身、日本語の50音にはその数だけ口の形が存在するものだと予想していたので、実際には14通りで補完できるということには驚きました。

sayaの受け答え例

リップシンクの概略図

「超リアル」を、あきらめるな。「超リアル」を、あきらめるな。

星野 :  次はこの118通りの口の動きを動画データで制作する工程に移るわけですが、ここからSayaの生みの親である3DCGアーティストTELYUKAさんとの連携が密になっていきました。口形素を一覧にしたマトリックスを睨みながらTELYUKAさんとともに緻密に作業を進めていきました。

登山 :  TELYUKAさんが動画を制作し僕たちが動きをつなぐ、という作業を何度も細かく繰り返してリアルな口の動きを追求していきました。その過程は期間でいうと4ヶ月、動画の試作は10以上にのぼりました。

星野 :  動きの滑らかさを追求する作業はトライ&エラーの連続。そのなかで自然な動きを実現するためのキーワードとなったのは「引き算」でした。すべての口の形を完璧につないでしまうと口が動きすぎて違和感が生まれてしまう。そこで、ある程度動きを「引き算」することでより人間らしい自然な動きになることを、調整を繰り返すなかで発見したんです。

登山 :  ソフトウェアの選定にも挑戦がありました。Sayaはリアルな人間の質感に近づけるため膨大なポリゴン数で作成されています。そのためVtuberなどで多く採用されているUnity(ゲームエンジンの一つ)では、Sayaを動かすことは難しいと考えました。そこで僕たちが導入したのがTouchDesigner(タッチデザイナー)です。TouchDesignerはここ数年、プロジェクションマッピングやメディアアートといった業界で使用されるようになったプログラミングツールで、Unityなどと比べて動画を高速で処理することを得意としています。
TouchDesignerを採用することによって、Sayaを60fps(1秒間の映像を構成する静止画の枚数。数字が大きいほど滑らかな映像となる)で安定的に動かすことに成功し、より人間に近いリアルな動きを実現しました。

想像を超えた、創造を。想像を超えた、創造を。

登山 :  授業を数日後に控えた本番直前まで、ブラッシュアップを続けていました。万が一ネット回線が途切れたときのためのローカルモードを作成しておくなど、入念に準備を整えて授業当日に臨みました。

武見 :  授業では僕たちが想像していた以上に、生徒さんたちがSayaに親近感を抱いてくれました。なかには「髪の毛きれいだね、どこの美容室行ってるの?」といった会話が生まれたほど。生徒さんがSayaとの会話を楽しむ姿に、言葉にならない喜びが込み上げましたね。

武見 :  このプロジェクトは「Sayaという”人間”の追求」が最重要テーマとなっており、全メンバーが表現のクオリティは何があっても譲らないという姿勢で臨んでいました。その想いに技術の力で応えることができた。これはアイスタにとって大きな成果だと思います。

星野 :  僕たちがプロジェクトに参加する意味は、何よりもアウトプットのクオリティを向上させること。徹底的にリアルを追求するという覚悟をもって諦めることなくチャレンジを続けました。
その結果、「ただ人間に近いだけではなくSayaという一つの個性を表現するところまで実現した」と、評価してもらえたことは非常に嬉しかったです。

登山 :  アウトプットのクオリティを追求できるということはエンジニアとしてとても幸せなことです。プロジェクトに参加することにはプレッシャーもありましたが、それよりも喜びのほうが強かったことを覚えています。授業を無事に成功させ、TELYUKAさんをはじめこのプロジェクトに情熱を注いだメンバーと達成感を分かち合えた瞬間は胸が熱くなりました。

武見 :  Saya Virtual Human Projectはこれで終わりではありません。これから先も「Sayaらしさ」の探求は続いていきます。その中でアイスタが「コミュニケーション×AI」の可能性を切り拓き、皆さんを驚かせるような想像を超えるアウトプットを生み出していきたいと思っています。
このプロジェクトを「コミュニケーション×AIのベンチマーク」と呼ばれるような、世界をリードする存在へと成長させることが今後の目標です。