DeNA fontgraphy AI であなたの声が Fontgraphy になる

製作者鼎談 「AI×デザイン」
fontgraphy(フォントグラフィー)
という新しいチャレンジ

サイト上で「私のDeNAを作ってください」と音声入力すると、その人の声の特徴をAIが分析し、フォントとイメージ画像が選定され、DeNAの文字が入ったグラフィックを生成する「fontgraphy(フォントグラフィー)」。
DeNAのAI×デザインの研究成果の一つです。

本プロジェクトを推進したデザイン本部マーケティングデザイン部 渡辺 義久が、監修者である九州大学 内田 誠一教授(以下、内田)、AIシステム部の高山 将太(以下、高山)、橘 健太郎(以下、橘)にプロジェクトの背景や未来への可能性について聞きました。

  • 左:高山 将太(AI本部AIシステム部AI研究開発第一グループ)
  • 中:内田 誠一教授(九州大学 大学院 システム情報科学研究院 情報知能工学部門ヒューマンインタフェース研究室)
  • 右:橘 健太郎(AI本部AIシステム部AI研究開発第四グループ)

――まず、自己紹介をお願いします。

内田:専門は、画像を解析、合成、認識する画像情報学です。特に文字に興味があります。文字も画像として捉えた時、単なる画像としてではなく、フォントやデザインによって別の印象や意味を与えますよね。最近では、広告の文字の統計や解析をしていますがとても面白いんです。

AIという言葉が注目されたのは最近ですけどね。画像を数値として扱うことは、とても長い歴史があります。僕自身もかれこれ25年くらい関わっています。今はコンピュータの計算機能力が上がってデータがたくさん取れるようになったりと、なんだか華やかさがありますが昔はもっと地味な感じでしたよ(笑)。

高山:AIシステム部の高山です。学生時代は、画像処理の研究室で人物追跡の研究をしていました。

研究では機械学習を使っていませんでしたが、2018年11月にAIチームにジョインし、このフォントグラフィーにアサインされ、スタイル変換の勉強を始めました。

橘:同じくAIシステム部の橘です。学生時代から信号処理(※)に携わっていたので、10年くらい音声に関わっています。信号処理自体は前から好きで、音楽にエフェクトやエコーをかけることに興味がありました。

前職は電機メーカーで音声を担当していました。車のナビゲーションシステムの音声合成、カーナビの音声合成の開発、技術開発というとイメージがつくでしょうか。

(※信号処理……光・音声・画像などの信号を数理的な手法で分析・加工する学問のこと)

フォントグラフィーの斬新さは「音声と画像を掛け合わせる」こと

――今回のチャレンジについてどう思いましたか?

高山:AIを活用したこういった取り組みなど、一般の人がAIを手で触るという経験ってあまりないじゃないですか。

機械学習をビジュアルで表現することは、なかなか難しいと思うんです。画像合成をしたCGを見てもピンとこないものですが、文字作るというのが、フォントグラフィーのちょっと変わっている点だなと。

橘:視覚と聴覚など、本来別々とされる知覚が互いに影響を及ぼし合うことをクロスモーダルと言うんですが。

このフォントグラフィーの斬新なところは、「音声と画像を掛け合わせる」ということです。例えば、声を入力したらその声に合った顔の画像を生成してくれたりします。研究においても最近になってやっと手がつけられ始めた分野なので、面白いなと思いました。

内田:DeNAの創業20周年を機に、これからくるだろう「AI×デザイン」で新しいチャレンジをするという、目の付け所が面白いな、すごいなと思いましたね。

僕の興味と一致しているところもあって、お声がけいただいた時にはワクワクしました。

AIが活躍!声の印象を「いい感じ」のグラフィックにする技術

――今回の取り組みにおける、AIの技術や仕様について教えてください。

高山:まずフォントグラフィーに発声された、話者の声の印象を推定して、その印象に近いフォントとパターン画像を選びます。次にパターン画像の画風をフォントに反映させます。この画風の反映にスタイル変換という技術を使います。

スタイル変換では、コンテント画像から取り出した形の情報と、スタイル画像から取り出した画風の情報を使って画像を生成します。今回はフォントをコンテント画像とし、パターン画像をスタイル画像としてフォントグラフィーを生成しました。

――フォントとイメージの2つの中間を取って合成している感じでしょうか。

高山:足して2で割るような中間地点というわけではありません。フォントから取り出した形の情報に、パターン画像から取り出した画風の情報を反映させています。スタイル変換の分野では、どうやったら画風を反映させることができるのかが研究されています。

――なるほど。フォントと画像の合成という点では、AI分野でも新しさがあるのではないですか?

高山:今まではスタイル変換というと、画像を絵画風に変換するといったことが主流でした。例えば、ペットの画像をゴッホの画風に変換するなど。

これを、フォントに適用してグラフィックっぽく作ろうとする取り組みは、今までと違った面白さが出るのではないかと感じました。

――音声AIの面で、技術的なチャレンジをしたポイントがあったら教えてください。

橘:声の印象は定性的な感覚なので、言語化することとそれをピックアップすることが一番大変でした。「かっこいい」という印象も、日本と海外の人だと全然違うわけです。そういう表現語のピックアップがまず難しかった。

いざその表現が決まっても、基準になるデータがないので、DeNAの社員から声のサンプリングをして、それぞれ人手でそれらに評価スコアをつけていきました。私はそこがポイントだと思っています。全て自前でデータを用意し学習させたという、かなり力技感がありますけど(笑)。

内田:確かに。DeNAの社員800人からのサンプリング、人による評価、声の印象語の抽出と、それをフォントの画像の印象に合わせて結びつけていったわけですもんね。

――どうやって声とフォントの印象を結びつけたんですか?

高山:フォントについた30個のタグと8つの声の印象語の類似度を計算しました。類似度はword2vec(※)という手法を使って求めています。

(※word2vec……大量のテキストデータを解析し、各単語の意味をベクトル表現化する手法。)

内田:人間の感覚や印象とデザインの間には、このAI時代の今でも大きなギャップがまだ残っていると思います。今までは、デザイナーの頭の中を見なければわからない未知の領域でした。お二人が色々な機械学習を入れて、人間の感性とデザインを繋いだということが一番新しい部分ではないですかね。

AIとデザイナーを隔てる「逆張り」という考え方

内田:僕は質感の本質は何だっていうのを解明したいんです。ビジュアルデザインだと、デザイナーの頭の中にイメージみたいな何かがあるわけじゃないですか。その何かを見たいっていうのはあります。デザイナーの頭の中を覗きたいっていうか。

――AIの可能性が増えたら「デザイナーの頭の中を覗ける」ことになるんですかね。これまでも深く研究されていると思いますが、「AI×デザイン」が今後、どのように進化していくのか、どのような可能性があるか教えてください。

内田:一般の人々には、デザイナーが行うようなTPOを踏まえた上で文字のデザインを考えて使うということはできません。

プレゼン資料を作るにしても、センスの悪いスライドから少しでも良くしたいという気持ちがあるじゃないですか。そういうのが出来るようになるといいな、と思います。

AIでデザイナーの職を奪おうという気持ちは全くないのですが、少しでも近づくことができたら面白いだろうし、今ならそれが出来る気がしているんです。

――人間にしかできないようなことを、機械とどう分担するかというチャレンジでしょうか。

橘:AIが作ったものはプロフェッショナルな人が作ったものに、基本的に置き換えられないと思っています。AIが人間の感覚を完全に模倣するのはやっぱり無理なので、AIで作るものはインスタント食品のような感じかなと。

ただ、素人でもパッと作れて、それを組み合わせたら新しいものが出来るので、ある分野を突き詰めたプロが作るのとはまた別のものが出来上がってくるのかな、と思います。なので、基本的に棲み分けされていくのではないでしょうか。

――そうですね。AIはデザイナーをサポートする側面だけではなくて、先ほど橘さんが言っていたような、インスタントなものをつくるという双方向に可能性があることがわかりました。

内田:AIや機械学習にできることは過去の事例の蓄積の補間なんです。でも、デザイナーは過去と全く異なったことどころか、時には過去の事例の逆張りができる。トレンドがこうだから、逆にこっちを採用してみようというような。AIや機械学習は過去の事例を積み上げ、ものをつくることはできても、突拍子のないものをつくることがすごく苦手なんですよね。

今の方法論だとその辺がすごく難しいので、まだまだデザイナーの頭には敵わないというのが正直なところです。

――デザイナーは、今までの価値観をひっくり返す方法を常に意識しているかもしれません。「今」のもっと先を読んで、「今ダサいもの」が次のトレンドになるかもという考え方をしますね。

内田:逆張りは必ず成功するわけではないですが、当たる可能性もありますよね。これは今のところ人間にしかできない能力です。

――トレンドや時代感みたいなバイアスがかかりますからね。

内田:機械学習って、常識がないですからね。人間なら、フォントやサウンドエフェクトに時代毎の流行り廃りがある肌感がわかりますが、AIは教えてもらったことしか分からないので(笑)。

AIはデザイナーになれるのか

――インプットを繰り返すことによって学習する内容が増え、将来、AIでデザインを簡単につくることもできるのでしょうか。

内田:そうですね、できるかもしれない。ですけど、完成形がどのようなもので、そこにどう数値的にアプローチしたり表現したりするか、インプットは結構複雑そうですね。

高山:人がすべて設定したらAIの意味がなくなりますしね。ただ、人が作ったものとAIが作ったものの差異は縮められて「人がつくったものでしょうか?AIがつくったものでしょうか?」のようなクイズにしたら、答えが半々になるクオリティには持っていけると思っています。

――人が想像できることのインプットを繰り返して覚えさせたらどうでしょうか?

内田:それって、すごく本質的な話だと思うんです。画像合成だったら顔の画像を生成することはできるのですが、どこに「自然さ」や「不自然さ」を感じるかは誰もきちんと説明できないので、機械にそれを教えることが難しいんです。

例えばフォントをとってみても、厳密にデザインされているので、そのカーニングとか、文字の間隔とか、直線の幅とか、曲がり方とか、ほんの少し変わっただけで印象が変わるんです。全体のバランスや統制、エレメントの一貫性などは、まだ十分なクオリティに達していないと思っています。

今回のプロジェクトは、「DeNA」という文字がまずベースにあって、フォントを選択することから始まったじゃないですか。ゼロからビットマップとしての文字をつくれって言ったら、めちゃくちゃになっていた可能性があるので賢いやり方だなと思いました。

――AIでグラフィックなどを作るサービスは他にすでにありますが、どういう印象を持たれていますか?

内田:これからどんどん面白くなっていく分野だと思います。グラフィックをAIだけで作るとすると、現状の技術ではまだ難しいこともあります。意外に思われるかもしれませんが、AIだけでまっすぐな直線を含むようなグラフィックを作ろうとすると、微妙に曲がってしまうことが多く、結構難しいんです。

一方で、AIならではのグラフィックもあり得えます。なので、人間とAIが協働してデザインするサービスができると、ますます盛り上がるかもしれません。

高山:AIは裏に狙いを持ったデザインをするとことは、多分できていないし、難しい部分だと思います。裏の意図と、その意図を達成するための表現方法を考えるのはデザイナーだからこそできることなのかなと。

AIや機械学習だと、元になるデータが何かしらないと作れないので、感性は表現しづらいんです。フォントグラフィーのように、声に対して視覚的な印象を付けていくような、正解に近付くように学習させることはできるのですが。人間の感じていることや意図をAIに表現させることは難しいと感じました。

「フォントグラフィー」の可能性

――今回取り組んだ「フォントグラフィー」を日常生活に取り入れていくことは可能でしょうか?

内田:メッセージアプリでスタンプや絵文字や顔文字などを使いますよね。声で伝えた感情をグラフィック化するフォントグラフィーなら、そういった感情を伝えるときにも活用できるかなと思います。

「悲しい」と言ったら、それを受け取った相手の画面にそれを表すフォントグラフィーが表示されたり、画面全体をブルーにすることもできますよね。

高山:何と何を掛け合わせるかは自由なので、色々なことが出来ると思います。自分の写真と声を組み合わせて、アニメ風にしてみるのも面白そうですね。

橘:そういうベクトルで考えると、自分の顔にハリウッド俳優の顔を掛け合わせると、顔や音声を変換してくれる技術ができてきています。なりきりができるVTuberの応用編のようなこともできそうですね。

内田:クロスモダリティと言って、今までバラバラに扱われてた音や画像や文字などが別々の感覚の情報を繋げられるようになってきたので、具体的なアイデアが色々浮かんでくると思います。ゲームでも使えそうですね。

高山:橘さんのいうようななりきりができたら、自分に似た主人公でゲームをプレイすることも実現できそうですね。

橘:オープンワールド系のゲームで、最初に自分のキャラクターを作って色々動かすというゲームはあります。自分の写真を撮ってそのゲームの世界観と掛け合わせて、自分に近いキャラを生成して遊ぶことも可能ですね。ちょっとイケメンに加工して出すこともできたり(笑)。

――様々な可能性が期待できそうですね。本日は、ありがとうございました。

詳しい技術的な内容はDeNA engineers's Blogに掲載しております。
こちらもご覧ください >

DeNA

Monotype