最近になってWebカメラによる表情モーションキャプチャ「FaceRig」にはまっています。そして生放送にてテストしてみました。
動画内(生放送内)にて使用した主要ソフトは以下の通りです。
- FaceRig
http://store.steampowered.com/app/274920/FaceRig/?l=japanese
- Live2D
- Yuzuki Yukari [Live2D content]
http://steamcommunity.com/sharedfiles/filedetails/?id=630129247
- ゆかりねっと
- VOICEROID2 結月ゆかり
http://www.ah-soft.com/voiceroid/yukari/
その他配信ツール:OBS studio・棒読みちゃん・アンコちゃん
仕組みとしては、FaceRigによって自分の表情が認識され、それがLive2DとYuzuki Yukari [Live2D content]モデルによって結月ゆかりとなり、画面に映し出されているというわけです。
通常、VOICEROIDは読み上げたいテキストを入力する必要がありますが、ゆかりねっとを使うとgoogle音声認識によって喋った言葉が随時文字変換され、それをVOICEROIDが読み上げる、という構成になっています。ゆかりねっとには音声入力を字幕化する機能もあるので、それも活用しています。FaceRigでは表情認識以外の情報は捨てられるので、撮影背景が整っていなくても問題ありません。ゆかりねっとではマイクに音声認識フィルターを通すためにノイズは発生せず、棒読みが好ましいために声を出すのが苦手でも大丈夫です。
つまり、FaceRigとゆかりねっとを組み合わせれば誰でも、ゆかりさんをはじめとしたVOICEROIDになれるというわけです。
ただ欠点もありまして、FaceRigについては表情認識が難しく、少しでもカメラに対して横を向くと認識してくれません(そのタイミングだけ真顔になります)。モデルによっては腕が振れなかったりするなど、その他のボディランゲージをすべて表現するのは到底不可能です。ゆかりねっとについても、正しく音声認識してくれないことあり、また笑い声や悲鳴は拾ってくれません。
ただ、この欠点も訓練次第で改善してゆくことは可能です。FaceRig作動時は首の動きを抑え、高度なトラッキング設定で自身の表情の変化具合に合わせたチューニングを行えば、だいぶよくなるかと思います。ゆかりねっとも、音声入力を意識した単語区切りの発音を心がければいいですし、「はっはっはっ」「きゃー」と棒読みすればVOICEROIDとして喋ってくれます。固有名詞についても単語登録してゆけば誤読は防げます。
FaceRig×ゆかりねっとの可能性は2種類あると考えています。1つは、いわゆるVOICEROIDによる実況や劇場が簡単になる、ということです。
VOICEROID実況・劇場は、ゲームなり子芝居なりを収録・編集・投稿するものですが、その作業量は膨大(らしい)です。映像としてのゲームや物語構成を撮るだけでも大変なのに、そこにVOICEROIDの表情を付け、音声を1つ1つ加えてゆく苦労は想像しやすいです。そこで、FaceRigとゆかりねっとを導入すれば、主たるゲームや物語だけではなくVOICEROIDの表情や音声、さらには字幕まで簡単に加えることができます。確かに、表情認識や字幕音声の精度は従来の編集後付けと比べたら劣るでしょうが、そのデメリットを打ち消すほどの編集の手軽さ、さらにはそのスピードを活かした投稿頻度の高さへつなげることができます。
もう1つの道は、生放送での活用です。FaceRigとゆかりねっとを導入すれば、VOICEROIDの姿と声を用いてリアルタイムで会話できます。その方法をさらに拡大すれば、VOICEROID自身の魅力も相まって多数の注目を集めることができます。ただ前述の通り、表情や音声の認識が完全ではなく、ゆえにVOICEROIDになりきることは難しいです。またリアルタイムであるがゆえに、参照するVOICEROIDのキャラクターイメージから逸脱した発言・行動が現れてしまいがちで、結果としてコンセプトから外れてしまうことでしょう。
ここまでの流れとして、FaceRigとゆかりねっとの組み合わせには可能性があるものの、その先に少し限界も見えてきました。その原因を強引にまとめると、VOICEROIDには個々のキャラクターが確立されており、FaceRigやゆかりねっとではそのイメージからズレてしまうがゆえに違和感を抱いてしまう、ということです。
ならば「VOICEROIDを演じなければいい」という手が出てきます。
FaceRigではオリジナルのアバターを用いる、VOICEROIDはオリジナル(結月ゆかりや琴葉茜など)とは異なる声調を設定する、またはゆかりねっとを使用せずにボイスチェンジャーを用いて発声する、ということをすれば、ソフトの表情・音声はユーザーそのものとして受け取られ、好意的に解釈できます。もちろんこれはオリジナルキャラクターを作って育ててゆくことと同じ意味であるため、簡単ではないことに変わりはありません。
魅せるためのキャラクター、というところまでいかなくても、FaceRigとゆかりねっとを活用すれば、プライバシーの露出は最小限に、コミュニケーションの効果は最大限にすることができます。ゆくゆくはVR技術とも合わさって、バーチャル空間で、バーチャルなキャラクター同士で、実際に会っているかのように話し合う未来が訪れるかもしれません。実は現在でも、キズナアイをはじめとしたバーチャルキャラクターが登場しています。
FaceRigとゆかりねっとによって簡単にVOICEROIDになりきろうとすることができます。しかし本当の意味でVOICEROIDを演じ切ることは難しく、むしろキャラクターのイメージを崩してしまってその寿命を縮めてしまうかもしれません。新しい技術で面白そう、といった興味本位で試してみる心意気は大切ですが、その先にある未来を考えたとき、乱用するのは控えた方がいいでしょう。