音声合成の音声を聞くと脱力しちまう

日立製作所中央研究所が、肉声に近い高品質のアナウンス音声を生成できる音声合成技術を開発したそうです。

この音声合成なるモノ、聞いていて不自然ではないものにお目にかかったことがないんですよ。 過去にも何度か自然に近い音声を合成できるというニュースがあり、たとえば NTT IT のこのページでは NTT 自慢の音声合成のデモを聞けたりして、また各社もこの分野にしのぎを削っているようですが、どうにもこうにも不自然さが残り、やっぱり機械が話してるんだな感は拭い去れません。 今回日立が発表したものがどの程度のものか判りませんが、どうせ人間が喋るのと寸分違わず発声するわけではないと思います。

私はこの音声合成に多大な期待を寄せているのです。 不自然ではない音声合成を聞きたいと思いながら、この 10 年待ち続けました。 でも、21 世紀に入って 3 年も経つというのにまだ出てきやがりません。

確かにちょっと前よりはずいぶん滑らかに自然にはなりました。 昔の音声合成はトチ狂ったイントネーションと音質もなんかモガモガしてモゴモゴしてました。 それから比べればイントネーションもマシになりモガモガもモゴモゴもマシになりましたっていうかマシになっただけかよオイ!

スタートレックLCARS を見ているだけに、現在の愚鈍な音声合成がもどかしいのです。 LCARS はユーザーに流暢な言葉で問いかけ、まるで人と会話しているような錯覚さえ覚えます。 LCARS 好きの私はコレに物凄く憧れます。 ていうか、TNG 第 1 話を観た瞬間からコンピュータはこうあるべきだと目が覚めるわ目からウロコが落ちるわ目から鼻へ抜けるわ目から火が出るわでもう大変でした。 コンピュータに話し掛けられたいのです。

妥協して、まだちょっと変な音声合成でも標準で OS に搭載して欲しいくらいです。 何かエラーがあったらクソの役にも経たないような意味不明のダイアログなんか出してないで、キチンと己の言葉で喋れ! 貴様機械の分際で文字情報だけで人間様に指図するとは何事だ! しかも 「再起動してください」 だけとはナメとんのか!! となるわけです。

これをキチンと音声で喋ってくれれば、たとえ多少の不自然さをかもし出す日本語でも 「まーしゃーないか」 となるわけであります。 たぶん。 もちろん、LCARS のように完璧に喋ってくれるような、向こうから問い掛けてくるような、ワルツを踊るような*1音声合成・認識だと完璧なのは言うまでもありません。

*1:DS9 でオブライエンがカーデシアのコンピュータと対話を比較し、「連邦のコンピュータはワルツを踊るような」 と表現しました。