CULTURE | 2018/04/21

初音ミクとキズナアイ――声の「感情価値」がつなぐバーチャルとリアル

久保田大海（Hiromi Kubota）
編集者
出版社で本を編集するかたわら、ウェブサイト「KOMUGI」...

久保田大海（Hiromi Kubota）

編集者

出版社で本を編集するかたわら、ウェブサイト「KOMUGI」で記事を執筆。アカデミックな知見を交えたユニークな切り口と、わかりやすいビジネス分析に定評がある。編集を手がけたタイトルに『教養としてのテクノロジー』『ゲーミフィケーション』『ITビジネスの原理』『VRビジネスの衝撃』『アマゾンと物流大戦争』など。主にテクノロジー領域の編集を得意としており、海外アジア圏への版権販売の実績多数。

なぜ初音ミクはバーチャルYouTuberになれないのか？

「キズナアイを知っているか？」と訊くだけで、情報感度が高いか低いかがバレるかもしれない。彼女こそ、バーチャルYouTuberの先がけであり、いまやチャンネル登録者数は170万人、ゲーム専門のチャンネルを合わせれば240万人超の視聴者を抱える人気YouTuberだ。

バーチャルYouTuberとは、人間の代わりに2Dもしくは3DCGのアバター（その多くは美少女キャラクターである）として登場する投稿者のこと。2018年に入り、ブレイクしたバーチャルYouTuberは数知れず。輝夜月（かぐやるな）、ミライアカリ、電脳少女YouTuberシロなど、続々と人気者の仲間入りを果たしている。人間のYouTuberにとっては、戦々恐々といったところだろうか。

バーチャルYouTuberのコメント欄を見ると、ときおり外国語が混ざっているのがおもしろい。アイ（AI）という名前から、人工知能（AI）を自称しているが、「中の人＝声優」がいるようにも思える。この点については、のちほど触れる。

さて、キズナアイが知名度を得ていく姿を見て、私が真っ先に思い出した人がいる。もう一人のバーチャルアイドルである「初音ミク」だ。

初音ミクは、もともとは音声合成システム「ボーカロイド（VOCALOID）」に対応したDTM（デスク・トップ・ミュージック）用のボーカル音源であり、製品に設定されたバーチャルアイドルというキャラクターだ。2007年の発売から、動画サイト「niconico（ニコニコ動画）」に初音ミクが歌うカバー曲やオリジナル曲がたくさん投稿され人気となり、「ボカロ音楽」と呼ばれる一大ジャンルを築いた。

なぜ初音ミクはバーチャルYouTuberになれなかったのか？なぜ時代はキズナアイを歓迎したのか？初音ミクからキズナアイへ至る「コンテクスト（文脈）」は一体何なのか？本稿では、それらの疑問について考察したい。

「初音ミクの10年」が示す意味

初音ミクが歌うオリジナル曲は、「集合知（Wisdom of Crowds）」で生まれる。ボカロ曲の作成に携わる人は「ボカロP」と呼ばれ、ファンのリスペクトを集める。さらに挿絵イラストを描く「絵師」、ミュージックビデオを制作する「動画師」といった存在により、1つの作品が完成する。ユーザーによってコンテンツが生成される「UGC（User Generated Contents）」文化であり、niconicoのような過剰なコミュニケーションを促す動画サイトが、その文化を醸成した。

「ニコニコ超会議」や「ニコニコ超パーティー」に足を運んだことのある人なら、その熱量がわかるだろう。私も「ニコニコ超パーティー」に初めて参加した時の興奮は今でも覚えている。まさにボトムアップで、歌い手、躍り手、実況者らが一体となってイベントを創り上げているからだ。

キズナアイはどうか。キズナアイはHPで2次創作（キャラクターや世界観を利用した小説・楽曲などのコンテンツ制作）やコスプレなどのライセンスを許諾している。商用利用については「Project A.I.」より事前の承認を受けるものとする、とあるが、これは初音ミクとほぼ同様だ。一見するとボトムアップでコンテンツが生まれているようにも思える。

しかし、大きな違いは、「Project A.I.」という製作委員会（主体）がいることだ。「中の人」がいるかはさておき、明らかな「創る側」が存在する。つまり、バーチャルYouTuberであるキズナアイは発信者であり、ボーカロイドである初音ミクのように「集合知」でも「UGC」でも「ボトムアップ」でもない。この点が大きな違いだ。

なぜ、この違いが生まれたのか？ 2007年の初音ミク誕生から、18年にキズナアイが表舞台に立つまでの10年間で起きたことを（１）niconico vs. YouTube、（２）「声」の持つ感情価値、の２つに分けて考えてみよう。

ニコニコ劣勢の理由――（１）niconico vs. YouTube

niconico（＝初音ミク）がYouTube（＝キズナアイ）に対して劣勢である理由は、一概には言えないが、端的にビジネスモデルの違いだろう。niconicoの収益ドライバーが「課金モデル」なのに対し、YouTubeは「広告モデル」だ。

課金モデルはゲートが必要であるため、新規ユーザーが入りにくくなる。一方で、広告モデルはいくらでも無料で見られるため、ユーザーが集まりやすい。視聴人数に対する収益性（ARPU）はniconicoの方が高いが、どうしても長期ではYouTubeに人が流れてしまうのだ。

加えて、niconicoの「画面上にコメントが流れる」という仕組み自体の特徴もある。コンテンツである動画そのものよりも、動画のまわりで起こるコミュニケーションを楽しむことが優先されるため、コンテクストを持たない新参者（エントリーユーザー）に楽しさが伝わりづらい「ムラ社会」になりやすい。

ならば「niconicoも広告モデルへ移行すればいいではないか」と考える人もいるだろう。しかし、YouTubeが広告モデルで成り立つのは、Googleという世界一広告を集めるのが上手い集広のプラットフォームを持っているからだ。niconicoが広告モデルで正面から勝負しても、YouTubeには歯が立たないだろう。

ユーザーが多いプラットフォームから、新たなヒロインが誕生するものだ。今後も、niconicoの初音ミクよりYouTubeのキズナアイに勢いがあるだろうし、誰もそれを止めることはできないだろう。

初音ミクはなぜ歌うのか？――（２）「声」の持つ感情価値

初音ミクとキズナアイ、二人の違いを次のようにまとめてみた。

【図表１：初音ミクとキズナアイ】

無粋なことではあるが、キズナアイの「中の人」が声優だったと仮定しよう。すると、二人の大きな違いは「コンピュータ」がつくり出す「合成音声」と「人間」がつくり出す「声」に現れる。

そもそも、コンピュータによってつくられる「合成音声」に、人間の「声」が持つような温度を感じるのはむずかしい。iPhoneのSiri（シリ）に「すみません。よくわかりません」と言われて、イラッとしたことはないだろうか。同じコトバを発するにしても、人間の「声」ならば、感情やニュアンスを込めることができるので、もう少し関係性はやわらかい。

たとえば、東京ディズニーシーの「タートル・トーク」を思い出してほしい。「お前たち、最高だぜぇ～！」と話しかけるクラッシュの声が「合成音声」でつくられていたら、あそこまでの爆笑を生めないだろう。人間なりの「間（ま）」もある。表情の変化がない、ゆるキャラの「ふなっしー」に感情移入できるのも、あの独特の「声」があるからだ。

逆に、私たちが初音ミクに感情移入できていたのは、彼女が「歌い手」だったからではないだろうか。合成音声の無感情を補うだけの、素晴らしい「音楽」と「歌詞」があったからこそ、私たちは初音ミクに恋をした。彼女のライブ「マジカルミライ」は本当に素晴らしいものだと思う。

「文字のブログ」から「声のブログ」へ

AIアシスタントによる「スマートスピーカー」は普及が進んでいる。AmazonのAlexa、Google Home、LINEのClovaをはじめ、各社が販売を競っているところだ。米国ではすでに18歳以上の16%にあたる約3,900万人がスマートスピーカーを所有しているという（Edison Research and NPR “Smart Audio Report, fall/winter 2017”）。

さらに、2018年4月に入ってグリーがバーチャルYouTuberビジネスへの参入を発表し、100億円規模の投資を行うと発表があった。バーチャルYouTuberを支えるのは、（多くはおそらく人間の）「声」だ。音声出力の機会が増えれば、それだけ「声」は身近になる。私たちは人間の「声」が持つ感情価値を見直す時期に来ているようだ。

私が個人的に応援しているスタートアップに「Voicy（ボイシー）」がある。スマホ1台あれば、録音から配信までアプリで完結し、自分のラジオ番組を持てる音声メディアだ。CEOの緒方憲太郎さんはVoicyというサービスを「声のブログ」と表現している。

Voicyでの番組配信を始めている人に、はあちゅうさん、イケダハヤトさん、田端信太郎さんなど、ブロガーやツイッタラー出身のインフルエンサーが多いのも興味深い。「文字（ブログ）」のつながりだけではなく、「声（Voicy）」でのつながり、つまり「感情価値」が求められる時代になりつつあるのだ。

ジャンルは違えど、VoicyとバーチャルYouTuberという「声」がキーとなるプレイヤーが存在感を増しているのは面白い。インフルエンサーもある意味でバーチャルな存在だからこそ、「声」のリアリティを求めたのだろう。

アニメの「情報量」と「声」

そうなってくると気になるのは、「人工知能は人間を超えるか」問題である。つまり、「人間のYouTuberをバーチャルYouTuberが超える日が来るのか？」だ。その答えを探るためにも、「なぜ人間（実写）ではなくバーチャル（CGによるアニメーション）が勢いを増しているのか？」に関する考察が必要だ。

やや強引ではあるが、その違いを次のようにまとめたいと思う。

【図表2：実写とアニメーション】

実写とアニメーションにおける、いちばんの相違点は「情報量」の多寡だ。かつてスタジオジブリに社外留学したドワンゴ取締役CTOの川上量生さんは、著書『コンテンツの秘密ぼくがジブリで考えたこと』（NHK出版）で、ジブリアニメを表す重要なキーワードとして「情報量」を挙げている。

つまり、アニメの線は、現実よりも少なく描かれているものだ。たとえば、人間の表情もデフォルメされて描かれる。目や眉を大きく動かしたり、口を大きく開けるなど、アニメでは大げさに表現される。だからこそ、「笑っている」「泣いている」という感情がはっきりと人間に伝わる。子どもがアニメを好きな理由は、実写のように読み取りが難しい複雑な感情表現がなく、また情報量が少ないからだと言えるだろう。

そのアニメの少ない視覚情報を補うカタチで、声優さんの喜怒哀楽に富んだ表現があり、それがアニメの面白さにつながっている。アニメを「聴覚的」と整理したのは、その声優の「声」がとても重要だと感じたからだ。

そもそも「声」を聴く「耳」は、「目」とは異なり自ら閉じることができない感覚器官である。見たくないものは目を閉じられるが、聞きたくないものは脳内の処理で無視する（聞き流す）しかない。ゆえに、カフェの雑音（ホワイトノイズ）を人間は自然に聞き分け、スルーすることができる能力を持っている。

脳科学でも、声や音は知的領域を司る新皮質だけではなく、本能領域にあたる旧皮質まで届くと言われている。つまり、危険を察知したり、快・不快を瞬時に判断するのが「耳」であり聴覚なのだ。

キズナアイはヒカキンを超えるか？

日本のトップYouTuberであるヒカキンが小中学生に人気の理由は、おそらくアニメのように感情表現（特に顔面）が豊かであり、子どもたちにとってわかりやすいのだと思う。加えて、ヒカキンがボイスパーカッションなど、もともとボイスパフォーマーだったことはよく知られている事実だ。そもそもヒカキンは「声」がいい。

一方で、CGにより情報量を減らした「アニメーション」と、感情を伝える人間の「声」を武器に、これからも新たなバーチャルYouTuberが山ほどデビューするだろう。好き嫌いはともかく、あなた好みの絵柄と声質をまとったバーチャルYouTuberが登場する日がやってくる。

キズナアイはヒカキンを超えるだろうか？これは愚問かもしれない。「人工知能は人間を超えるか」という質問と、ほぼ同じだからだ。しかし、１つだけ異なるのは、バーチャルYouTuberを操るのが（おそらく）「人間」であることだ。であるならば、ひょっとして……。ひょっとするかもしれない。

KOMUGI