ขนาดวิดีโอ: 1280 X 720853 X 480640 X 360
แสดงแผงควบคุมโปรแกรมเล่น
เล่นอัตโนมัติ
เล่นใหม่
2:21 ← 余計な前置きが長いんじゃ!って方向け
有能すぎ
ありがたい
初見だから音読さんが日本最初の合成音声だと思って感動しちゃった
途中で出てくる「ええ、そうです」というのが亡くなった伯父そっくりの声質とイントネーションでびっくりした。他の言葉も昔の東京の人の発音に近いように思います。聞き取り調査が東京でやったものなら当時の東京の人の発音に近くなっても不思議ではないのですが。
こういう証言があるのも面白いなぁ
いつの間にか当時の発音を残せたわけですね。
4:31
60年以上前の技術なのに,想像以上に実用に耐える音声でびっくりした技術者の人には尊敬しかないな
技術が停滞してる証拠
停滞も何も、チューリングテストに合格してる事例があるんだから、ほぼこれ以上ない領域まで進化しちゃったんだよな。だから今度はハードウェア、ユーザビリティ、悪用防止、等の方向に開発が広がっていってるわけで。逆に君はどこ目指してるのって話。
@@東海道と中山道の旅人MBT これ以上に何があるんや?頭のバージョンアップを君はすべきだね
@@naiChaSanJieMeidお前らオタクは萌え萌えキューン♡みたいな声を求めてるんだろうが人が話さなくても入力すればしゃべってくれるってのはそれだけで便利なんだよ。
@@taueman8 ありがとう。
この声でおはようって起こされたら心臓飛び出るぐらいビビるわ
ぅぉはよう
w
60年以上も前なのに結構まともな音声やね。
技術が停滞してるだけ
@@東海道と中山道の旅人MBT停滞してるって色んなコメで必死に打ってる君可愛いね♥️♥️♥️
60年前を舐めすぎやろ😂
ゆっくりボイスよりも綺麗に作れてるやんか
@@よし-k3x6eえ、、、
こっからゆっくりやボカロに進化したって考えるとすごい感慨深いな
ボイロも入れろ
@@アンチチョコミン党おっせーやな(適当)
@@アンチチョコミン党一気に知名度落ちたわ
@@アンチチョコミン党数多ある合成音声の名前なんていちいち入れてられるかよ
@@Aventador_lbwk結月ゆかりやきずなあかりなどの合成音声シリーズの略ってところですかね?元はボイスロイドです
1959年の時点で「や」「わ」「おはよう」などと聞こえるような高度な合成音声を作り出せたとは!音声合成技術にもやはり歴史があったのね。
ちょっとトモコレみたい
確かに
男「ぼ↓く↑と↓つ↑き↑あ↑って」
この既視感あれだ、トモコレだ
それだ!
戦争終わって荒廃した日本が14年後に作ったんだぜ?凄いよねほんと当時の人は
本当のほんとにそうだね
元々日本は高度な技術を持っていたからだろうね知らんけど
電波技術で後手を踏んで戦争に負けた反省がここに出て来てるのでは、とも思う。
なんだか、ぎこちなく喋るロボットみたいで応援したくなるな。
弱いロボットっていう研究がありまして、興味があればググってみて下さい。ロボット自体に能力がなくとも、人間の庇護欲を利用して人間にやってもらえたら…という考えです。
「音と声の境界」って繊細なんやねえ。
言語として成立してない単母音の連呼から始まって、短い単語を自分の能力を少しずつ確認するかのようにたどたどしく発音するの、ゲームに出てくる明らかにヤバいラスボス格の羽化シーンすぎる
合成音声を合成音声で解説するのが実に面白いw
二つを比べてみるのもこの動画の醍醐味ですね
この時代のパソコンで遠隔操作使って合成音声で「呪ってやる」とか「ここから出して」とか流されたら誰だって呪われたって思うでな
そのスレのまとめ動画から実際のBeepを聞きにここへ来ました^^
@@怠惰マン-b5r おぉ同士よ
@@壱ノ瀬ハルカ ナカーマがいた
???「同志よ……」
同じく。聞いてみると納得の音声ですね
なんかこの合成音声聴くとトモコレを思い出してしまう
コクハクシタ↗︎イ→ノデスガ
〇〇のそっくりさん、こんにちわ!
わた↑しと付き→合ってく↓ださい
@@Theコラム ご め ん な さ い ( 絶 望 )
先に言われた……(´・ω・`)
日本人はNoと言う事すら難しいのに「いやです」とはっきり言える合成音声さんすげえ
???「まぁ、全部言わされてるんですけど」
いやです、いゃです、いゃぇす、いえす!YES!
@@ぱぴこぐみ匿名Mです
この声を遠隔で流されたらそりゃトラウマになるわな
お主もか!我が同志よ!
君らもあのスレの話を聞いた人か!
多分同じ動画orスレ見たんだな
仲間発見!
同士いたぁww
論文を書いた開発者が動画の監修をしてるのがまた凄い
学会「この理論を作ったのは私ですが...」
ほんとだ!鈴木誠史という方ですね。開発時30歳として、いま93歳・・・生き証人だ。
素人質問で恐縮なのですが
@@user-ht1ez9ss4yヒィっ!
@@7gfkkgcvbnj 23年当時で90歳と付属文に書かれてますね。
これが今じゃ歌歌えるようになったのか…
もうすぐでもう人間と聞き分けがつかないな。
電子計算機はそれだけ偉大なんだよな
これでも元となる人間の声から作られてるからな中の人がいない完全機械オンリー音声の足立レイとか見るにまだまだ先は長そうだ
ええ、そうです
これが初音ミクのおじいちゃんだと思うと凄いな
当時の開発者は実況や茶番劇に使われるとは思ってなさそう
ましてや、なんの功績も残していない馬の骨に勝手に商標登録されるなんて、この音声の開発者が知ったらさぞかし悲しむだろうなぁ
@@tomaaa9985あれはまた…別や。ヤツが登録しようとしたんは「特定の動画フォーマット」であって「電子音声技術」やない。「SofTalk」を登録したとかなら、それこそ化けて出られかねんがな。
@@tomaaa9985あうん
の呼吸?
でかい機械だったものが今じゃ個人の小さい機械の中でできるし波形接続以外にもHMM方式やNNWを利用した合成が出たりと技術の進歩を感じる
これが初音ミクの先祖か
@@ごんすけ-f2z daisy bellな
@@ごんすけ-f2z 必殺技っぽい
@@ごんすけ-f2z クレイジーは草
名前どうなってんの
合成音声がこんなに前から作られていたことに驚き!けっこう日本語として聞こえる!すごい!
初の技術ってもうちょっと拙い感じかと思ったけど普通に聞ける感じなの凄い
終戦からわずか14年すごいよな
最近個人が開発した中の人が居ない音声合成ソフト『足立レイ』とかなり似てるから似た仕組みなんだろうなぁ
最初のものでも、大正・戦前期のラジオくらいの音質だから、結構凄いと思う。
それを今聞ける理由は保存メディアがあったからで、つまり同じような磁気テープやレコードディスクをこの装置も積んでいるからですね。>音質
@@Kei-IWA_Siliconated保存メディアや記録媒体の進化も 感動的ですね。
口腔の再現って、結構急峻なピーク/ディップを持った「次数の高い」フィルターをスウィープする必要があるので、それを最初に作った人は尊敬します。
膣つきてぇ〜
すごいねー😂😂
たしかに「次数の高い」フィルターはアイデンティティでプロットすることがエッセンシャルですもんね。それをファーストでメイクしたヒューマンはリスペクテッドすべきです
オフチョベットしたテフをマブガッドしてリットにする定期
人間の口ってエグいくらい帯域が狭くて高性能な周波数フィルタだから電子回路で再現するの大変なんだよな…
こんな昔から開発され始めてたとは凄い。何となく70〜80年代くらいにできた技術かと思ってた笑
とちらにせよ昭和に開発されてるのが驚くマジでだってその割にはアナウンスとか合成音声になったの最近でしょ?
NPO科学映像館の「シュミレター」(誤字)で50年ほど前の小学生がテレビで算数の問題を解く映像があったけど、そういう教材がすぐに普及はしなかったのを見るに、コストとか社会の慣れって大きいよな
そもそもコンシューマーエレクトロニクスに於いて真空管がトランジスタに置き換わるトランジスタからICやLSIにたどり着くまで各々15年ほど掛かって(買った消費者もスゴいw)今の超絶レベルのマイクロエレクトロニクス汎用CPUインテル8080の設計者は日本人ワンチップ汎用CPUのアイデアも元は日本の電卓メーカー
燃えプロとかあんな小さなチップであれだけの声をだしてたしね
@@ねこ-p5b1y 日本は世界屈指の技術大国だったからね。アメリカに消されたけど。
てことはゆっくりボイスとかめっちゃ凄いんだなぁ
あら!!
フリーで何でも言わせられしな。
しなしーな
@@慎吾高杉ライセンスがあることをご存じで?
あの軽さはやばいわなあずんだもん(低スペ民)
どうにか修復して「ゆっくりしていってね」と言わせたい
それいいな
興味深く見させてもらいました。この技術の延長に今日の音声合成や、またMP3のような音声データ圧縮などもあるのだな、と思うと、感慨深いですね。
錆び付いた廃遊園地のまだ生きてる部分がたまたま作動したみたいな恐怖感ある
最初の合成音声でもこんなにはっきり聞き取れるのすごいな
結構とゃんとしてるのすごい
とゃんとしてるは草
その文章がちゃんとしてないんよ
とゃんとしてるんですね
とゃんとした文書こうよ
とゃんとしてない文
この時代に合成音声をつくろうとした(しかも本当に作った)ことだけでなくそれを使った言語学の研究まで考えていたことが古の知恵みたいですごい
携帯電話の音声って、通話者の声に似せて作られた「合成音声」だったのか。最初の頃は、合成音声の母音がビープ音のような音だったのと比べると凄い進化ですね。ICが無かった時代、ちょっとした事をする回路をトランジスタでもなく真空管で組むと巨大ですね。
携帯電話の音声が「合成音声」であるくだり、先月末の「チコちゃんに叱られる」内で、「なんで携帯電話の声はいつもと違って聞こえるの?」→「あなたの本当の声ではないから」という答え合わせで詳細に解説されていましたね。
うそ電話詐欺で孫を装ってもバレにくいのは耳が遠くなった以外にも要因があったんだなあ
母に電話かけた時自分と妹で「あんたらの声どっちがどっちか分からん」って言われてたのはこういう事だったのか
>ちょっとした事をする回路をトランジスタでもなく真空管で組むと巨大ですね。普通の電卓(関数電卓とかじゃなくて)を真空管で作ると体育館ほどの大きさになり、発電所が直に必要なほどの電気が必要で、真空管電卓の沢山の真空管の一本でも切れればまともに動かない・・・らしいw
これを考えるとボイスボックスとかってもはや魔法だな
十分に発達した科学技術は、魔法と見分けがつかないってか?
@@いんねしんしー正にそれ
PC-6001mkIIなどに搭載されていたICが、この装置の子孫にあたる様な実感がありました。という事は、この装置は現在の全ての日本語合成音声のご先祖様と言って良い存在なのでしょう。
PC-6001mkII持っていましたがまさにこの系譜の声、って感じでしたね。抑揚がなくモゴモゴ喋る感じがそっくりで、6600シリーズで音階がつけられるようになりましたがその後Beep音源の変調音声あたりまではこんないかにもな合成音声然とした音だった記憶があります。6001シリーズと同時期に学研の科学あたりで聖徳太子の声を専用のミニコンで合成したという付録がついてきたことがありますが、6001シリーズよりは自然ですが、男性がしゃべった声をエフェクトかけて電話品質くらいに落としたような声してました。
PC6001にカセットポンした音声合成カートリッジで触りましたが、この系譜らしさがありましたね語尾の伸ばし方が同じ感じ。小5の時に友人の高橋君宅で使わせてもらったから約40年前以外に進歩していないのかな?って印象、8bit機には難しかったPCM録音も16bitだと比較的無難な音質まで再生可能になり、短く録音した音声を切り貼りする手法が長く続いていましたね。
ぱすぽ~とぉ~みせなぁ~さ~い(何のゲームか忘れましたが衝撃的でした)
NECはパソコンメーカーとして有名になりましたが、元々は電話交換機のメーカーなので色々と関係していたのかもしれません。
もともと真空管を組み合わせて作っていたものを、なるべくそっくりICに焼き直すように作り替えたんでしょうかね
すばらしい。昭和30年代にここまで再現できるなんてすごすぎる。
1899年生まれの人がまだ60歳、戦後14年、大正15年から33年だったと思うと、どれだけ昔なのかが実感できるな……
アラフォーおっさん俺の親がまだ生まれてないし、もう死んでるジッジバッバが当時20代だったと思うとすごく昔の話だ
東京タワー開業翌年だよ
これめっちゃわかりやすい……@@blackbear6306
すげぇ…………@@shiramin
何とも言えない不気味さがあって味があっていいなぁ
1980年頃に松下電器(現Panasonic)が小型で「法定放送装置」と言うのが京阪バスや京都市営バスに取り付けられました。「危険物を持ち込まないでください」「整理券をお取りください」「次停まります。ご乗車ありがとうございました」バスで本格的に合成音声による案内放送はclarionで開発されたのが最初と言われています。
だんだん話せるようになっていくみたいな感じがいい。
2:30どうぶつの森のとたけけっぽい今では歌えるにまで進化してるのが凄い
このアナログ波形合成音を聞いた当時の技術者や数学者は、恐らく失禁するほどうれしかったと思う。
「ええ」が「え、え」と単体で発音するのではなく「えー」というふうにつなげて発音してるのすごい
なんですごいのかわからん。
@@usr747技術がすごいんやん
@@potalo_dx3zt2wx7m ええと発音させるのとえーと発音させることにどんな技術的な差があるの。
@user-pb3yb4pu7w 2 分前@yotu1113 単に1文字ずつ発音させるんじゃなくて、前後の音に応じて最適な発音をさせてるのがすごいってことではそんなことはしていないと思うけど。そもそも一文字という概念がないと思うが。一音ならまだわかるけど。
伸ばし棒ってコマンドがあったんかなえ えorええってので人間が表現してたんじゃないの
当時のおばあちゃんとかからの聴き取りの語音明瞭度もこのくらいだったから充分実用的に聞こえる。
YMO的な『ザ・合成音声』って感じがたまらなくカッコイイですね✨✨
P-modelでは1992年の解凍P-MODELではAmigaのSay commandがサンプリングされてました
そういえばYMOの頃にはもうパソコンに合成音声入ったりしてたけどYMOはそこまで合成音声使ってるわけでもなかったね
@@lem6611YMOのは合成音声じゃなくてボコーダーだからねアレは機械を通してるだけで、発声そのものは人間のソレだよ
どちらかと言うとクラフトワークや冨田勲かと。
ショウガクカン ビ デ オ
AI利用の音声変換について調べていたらこの動画がオススメに出てきました。技術の進歩ってすごいなあと感慨深いです。
「ええ、そうです」が昔の人の言い方でおもしろい
当初、古いゲーム機種でサウンドの波形を入れる「容量」が限りなく少なかった時代FINAL FANTASY シリーズで登場する、モーグリの「クポ」という音ももっとも容量が少ないサイン波を採用することで生まれました
でもサイコソルジャーは唄っていた
この動画の監修がその大昔の論文書いた人で最後ちょっと感動した
黎明期の合成音声は、人工内耳でやるような感じで、機械で合成されたような音声になってしまいます。人工内耳は、本来は3万本の聴覚神経をCochlearではわずか22個、Advanced Bionicsでは18本、MED-ELでは12個の電極で肩代わりをしますので、機械で合成されたような聞こえ方になるそうです。
大変為になりました。先人達の努力には頭を垂れるのみです…
東京タワーが完成前から合成音声ってあるんだ〜何もない状態から作って現代に欠かせないや電話の機能やボーカロイドに発展したりする技術だったり先人の人たちってやっぱすごいな〜
古典的なロボット系SFの金字塔である「われはロボット(邦題)」が出版されたのが1950年。そのほか2001年宇宙の旅(の元ネタ)など、ロボットやAIが喋る、という超技術を描いた名作は50年代の物がわりとある。SFで描かれるほど夢の技術だった「機械が喋る」という技術を、おなじ50年代に開発されてるってのが本当にすごい。
調声してないUTAUみたいな声だけど楽器から作ってんのすごい努力
隔世の感あります 『ワレワレ ハ ウチュウジンダ』これ 初めて98買ったとき 出してみて 友人達に聞かせたら 「オモロイ」と 感心してた それから 三十年ほどした今 防災無線のデジタル化に伴い 合成音声化村の老人曰く「どこの家の娘だろか 奇麗な声の標準語」とか
初期の声を聞けば聞くほど某アーティストが出したCG年賀状に出てきた目玉みたいなやつの声に聞こえてくるし、この声が唄音ウタとか足立レイみたいな無機音源の遠い祖先と考えると熱いものがあるな…
ミジュクモノメ.
ボーカロイドの礎というか原点と考えるとすごい
ボカロは完全機械ではなく中の人がいるのでちょっと違います例えば初音ミクは藤田咲さんの声を元にして作られていますゆっくりは完全機械なのでこっちが近いですね
@@RapidTachikawa 中の人がいるから前者というわけでもないぞ。最近のAI系(Cevio AI、Synthesizer V AI、Voicepeak、VOCALOID6など)は中の人こそいるけど、後者の方が近い。
@@ikalukakiyoe詳しくないんですが、VOCALOIDは五十音すべて録音してるのではなく音声の要素を抽出して合成しているんでしたっけ?だとすると、「肉声から要素のみをデータ化して送信し、受信側は合成音声で復元・再生する」技術の発展形なんですね。主要なアイデアは違っても技術は全部繋がってんだな…
@@水勿月潤 5までのVOCALOIDは音声を要素ごとに録音したものをつなぎ合わせることで歌声を生成してます。 五十音をどのレベルで録音しているのかは不明(小林幸子氏の話によると、「あい」発音した時の間の音声なんかも収録するとか)ですが、少なからず50音を録音する以上のデータを録音していることにはなります。(復元というよりは合成というほうが適当かも。)因みに、VOCALOID6などのAI系音声は学習データを用意して、その学習結果から音声をPC内で0から生成するので、以前のものとは全然違います。(学習データを用意するだけなので、中の人は何曲か普通に歌うだけでよいのだとか。)
どっちかというとゆっくりのご先祖様なのかな。でもこの機械や技術が無ければ初音ミクちゃんは生まれなかったと思うと感動だよね!
60年も前から機械に喋らせようとする考えがあったことに驚き
合成音声とは少々違うけどMPEGの圧縮率とかものすごいもんなぁどちらもこういう解析の積み重ねから生まれたものなので兄弟みたいなものとも言えるかFHDや4Kの映像なんて圧縮伸張の仕組みが無かったらとても扱える代物じゃないし人知れず基礎研究に取り組んだ先人達に感謝
基礎研究って大切なんですよね。
1959年って、キャリントン・イベントから、ちょうど一世紀後ですね。この時代に研究されていたとは、ビックリです。
ここから約20年後に、TIがスピーク・アンドスペルを売り出し、そこからさらに五六年で、パソコンゲームに正弦波音声合成を使った物が現れ、更に20年経つとボーカロイド…なんとも感慨深いですね。
この合成音声から20年後といえば、YMOの「TECHNOPOLIS」内の「ト・キ・オ」や「T・E・C・H・N・O・P・O・L・I・S」という合成音声が出てきますね。さらにその4年後にリリースされた同じYMOの「君に、胸キュン。」では、曲中の「キュン!」を合成音声で作成しようとしたけど、結局断念してメンバー3人の肉声を重ね合わせたものになっています。40年ほど前まではそれほど合成音声を作成するのが難しいものだったのに、現在だとPC・スマホでチャチャッと作成できますから、この数十年の技術の進歩はすさまじいものです。
@@toyo-rex4899 テクノポリスのあの声、一度録音してボコーダーでエフェクトかけてたと思ってたんですが、実際には完全合成音声だったんですね。びっくり…。
そう?20年ってめちゃくちゃ長いよ通信速度の進歩に比べたら大分遅いと思う
すごいP-MODEL感がある
オゾノ・コブラノスキー
Amiga Say command
これはすごい!チューニングは大変そうだけど、時間をかければ普通に会話できるレベルで驚いた。
これの2年後の1961年にはコンピュータがDaisy bell歌ってるんだよな...
開発者「シャベッタァァァァァァァ!!(歓喜)」
「聞き取りテスト」の発音が英語のテストで聞く音程そのままでモヤァってした笑
今から約40年前、『燃えプロ』とか『水戸黄門』でファミコンが初めて喋った時は感動したものだった。
泥ママに盗まれたPCにBEEP音で夜中にホラー音声流してみたって動画があったけど…夜中にこの絶妙にカスレた音声が流れてきたら確実に漏らす自信がある。PC「…お、はよう。」
2チャンのやつやんw絶対見た後に調べたべw
@@azukidango だから何…?
変なトーンってのには気になるけど、何を言ってるのかは理解できるから凄いですね!
この頃はまだ音声のスペクトラムを見て声の特徴を調べるってのはできなかったんやろな
この音声を使って人力ボーカロイドを作る猛者が出現すると予想
YAMAHA布教しようね
オゾノコブラノスキー
なんかトモダチコレクション思い出したわ懐かしぃ〜
ゆっくり実況とボーカロイドで、慣れてるけど未だに合成音声が聞き取れない人がいるよね
最初は何でも難しいのよ。無から有を作るわけだから。発送、いや発想するだけでも凄いこと。その時点で存在する技術をいろいろと組み合わせることで実現させる技術者には脱帽です。
これも凄いですが冨田勲の無線等を使って山間部を走り電波の強弱やノイズを使って作ったという音声合成も凄い。昔の人は本当に奇知に飛んだ事をしてたんだなぁと改めて感心しました。
人力合成音声になるのかな?
要するに、アナログシンセを調整しまくって音声出したのか…これといいデイジーベルといい、あの時代にボイロとかボカロじみたことやってるの凄いよね
ボイロとかボカロは録音された音素の連続なのでどっちかというと方法1に近いぞ。(唯一足立レイだけが1と2の合わせ技って感じ。)
@@ikalukakiyoe そっかあれ声サンプリングしてるんだっけか
@@ikalukakiyoe 足立レイは完全なる合成電子音だったと思う。人間の声は使ってないはず。
足立レイは木琴をベースに作った声だったはず
@@fukyouwa-yin中の人はいないよ、もちろん。ただ、歌を生成するときはUTAUを使用する。=録音したデータを物理的につなげる。なので、1と2の合わせ技といったまで。(今更だが、デフォ子も1と2の合わせ技か。灯台下暗しだった。)余談ですが、Neutrino、Cevio AI、Synthesizer V AI、VoiSona 、Voicepeak、VOCALOID6、Ace Studioなどは中の人こそいるけど、AI生成(学習データに基づいて音声をPCで音声を作る=サンプリングではなくモデリング)なので、2の方になります。
「はいはい」の所が一部ゆっくりボイスっぽい
「研究」も
トモコレってこれから作られてたのか...!!
60年以上前からあったの凄い
俺が求めてたのはこういう如何にも機械が作りました感のある音声だよ。
4:23 悲しき魔物
4:10の声が無駄にテンション高いおじさんみたいで好き😅
テンションがHighですね。
クラフトワークのようなかっこよさを感じた
これのおかげで世界に誇る日本のボカロ文化があるとするとめちゃくちゃ感慨深いなぁ
「単語ごとに録音して、必要に応じて並べて再生する」という方式の人工音声の話。昔のATMがその方式を使っていて例えば「お金を」「お入れ」「ください」みたいに喋るところ、不具合で「ください」が再生されなくなり…とんだ高飛車なATMが爆誕した、という笑い話が忘れられません。
先人達の知恵が、今日の技術の基礎になり発展してると思うと考え深いですね。思った以上に、聴き取りやすく完成度が高い事に驚かされます。
だんだん初代トモダチコレクションの音声に聞こえてくる
おはようが言葉を少し覚えた怪物が話しかけてくる感じで怖ぇ
研究目的が直接の合成音声ではなく音響心理学やG.7xx等のCODEC開発の基礎研究として生かされてたんですねぇ
第一声目聞いたとき、ゾッとしたわ
人間の声真似をする鳥みたい
この合成音声の「んほぉ♥」とか聞いたらたまらんだろうなぁ
wwwwwwwwwwww
モーニングコールで「オハ、ヨウ」とか言われたら恐怖で仕事休む
2:21 ← 余計な前置きが長いんじゃ!って方向け
有能すぎ
ありがたい
初見だから音読さんが日本最初の合成音声だと思って感動しちゃった
途中で出てくる「ええ、そうです」というのが亡くなった伯父そっくりの声質とイントネーションでびっくりした。
他の言葉も昔の東京の人の発音に近いように思います。
聞き取り調査が東京でやったものなら当時の東京の人の発音に近くなっても不思議ではないのですが。
こういう証言があるのも面白いなぁ
いつの間にか当時の発音を残せたわけですね。
4:31
60年以上前の技術なのに,想像以上に実用に耐える音声でびっくりした
技術者の人には尊敬しかないな
技術が停滞してる証拠
停滞も何も、チューリングテストに合格してる事例があるんだから、ほぼこれ以上ない領域まで進化しちゃったんだよな。
だから今度はハードウェア、ユーザビリティ、悪用防止、等の方向に開発が広がっていってるわけで。
逆に君はどこ目指してるのって話。
@@東海道と中山道の旅人MBT これ以上に何があるんや?頭のバージョンアップを君はすべきだね
@@naiChaSanJieMeidお前らオタクは萌え萌えキューン♡みたいな声を求めてるんだろうが人が話さなくても入力すればしゃべってくれるってのはそれだけで便利なんだよ。
@@taueman8 ありがとう。
この声でおはようって起こされたら心臓飛び出るぐらいビビるわ
ぅぉはよう
w
60年以上も前なのに結構まともな音声やね。
技術が停滞してるだけ
@@東海道と中山道の旅人MBT停滞してるって色んなコメで必死に打ってる君可愛いね♥️♥️♥️
60年前を舐めすぎやろ😂
ゆっくりボイスよりも綺麗に作れてるやんか
@@よし-k3x6e
え、、、
こっからゆっくりやボカロに進化したって考えるとすごい感慨深いな
ボイロも入れろ
@@アンチチョコミン党おっせーやな(適当)
@@アンチチョコミン党一気に知名度落ちたわ
@@アンチチョコミン党数多ある合成音声の名前なんていちいち入れてられるかよ
@@Aventador_lbwk結月ゆかりやきずなあかりなどの合成音声シリーズの略ってところですかね?元はボイスロイドです
1959年の時点で「や」「わ」「おはよう」などと聞こえるような高度な合成音声を作り出せたとは!音声合成技術にもやはり歴史があったのね。
ちょっとトモコレみたい
確かに
男「ぼ↓く↑と↓つ↑き↑あ↑って」
この既視感あれだ、トモコレだ
それだ!
戦争終わって荒廃した日本が14年後に作ったんだぜ?凄いよねほんと当時の人は
本当のほんとにそうだね
元々日本は高度な技術を持っていたからだろうね
知らんけど
電波技術で後手を踏んで戦争に負けた反省がここに出て来てるのでは、とも思う。
なんだか、ぎこちなく喋るロボットみたいで応援したくなるな。
弱いロボットっていう研究がありまして、興味があればググってみて下さい。ロボット自体に能力がなくとも、人間の庇護欲を利用して人間にやってもらえたら…という考えです。
「音と声の境界」って繊細なんやねえ。
言語として成立してない単母音の連呼から始まって、短い単語を自分の能力を少しずつ確認するかのようにたどたどしく発音するの、ゲームに出てくる明らかにヤバいラスボス格の羽化シーンすぎる
合成音声を合成音声で解説するのが実に面白いw
二つを比べてみるのもこの動画の醍醐味ですね
この時代のパソコンで遠隔操作使って合成音声で「呪ってやる」とか「ここから出して」とか流されたら誰だって呪われたって思うでな
そのスレのまとめ動画から実際のBeepを聞きにここへ来ました^^
@@怠惰マン-b5r おぉ同士よ
@@壱ノ瀬ハルカ
ナカーマがいた
???「同志よ……」
同じく。
聞いてみると納得の音声ですね
なんかこの合成音声聴くとトモコレを思い出してしまう
コクハクシタ↗︎イ→ノデスガ
〇〇のそっくりさん、こんにちわ!
わた↑しと付き→合ってく↓ださい
@@Theコラム ご め ん な さ い ( 絶 望 )
先に言われた……(´・ω・`)
日本人はNoと言う事すら難しいのに「いやです」とはっきり言える合成音声さんすげえ
???「まぁ、全部言わされてるんですけど」
いやです、いゃです、いゃぇす、いえす!YES!
@@ぱぴこぐみ匿名Mです
この声を遠隔で流されたらそりゃトラウマになるわな
お主もか!我が同志よ!
君らもあのスレの話を聞いた人か!
多分同じ動画orスレ見たんだな
仲間発見!
同士いたぁww
論文を書いた開発者が動画の監修をしてるのがまた凄い
学会「この理論を作ったのは私ですが...」
ほんとだ!鈴木誠史という方ですね。
開発時30歳として、いま93歳・・・生き証人だ。
素人質問で恐縮なのですが
@@user-ht1ez9ss4yヒィっ!
@@7gfkkgcvbnj 23年当時で90歳と付属文に書かれてますね。
これが今じゃ歌歌えるようになったのか…
もうすぐでもう人間と聞き分けがつかないな。
電子計算機はそれだけ偉大なんだよな
これでも元となる人間の声から作られてるからな
中の人がいない完全機械オンリー音声の足立レイとか見るにまだまだ先は長そうだ
ええ、そうです
これが初音ミクのおじいちゃんだと思うと凄いな
当時の開発者は実況や茶番劇に使われるとは思ってなさそう
ましてや、
なんの功績も残していない馬の骨に勝手に商標登録されるなんて、
この音声の開発者が知ったらさぞかし悲しむだろうなぁ
@@tomaaa9985
あれはまた…別や。ヤツが登録しようとしたんは「特定の動画フォーマット」であって「電子音声技術」やない。
「SofTalk」を登録したとかなら、それこそ化けて出られかねんがな。
@@tomaaa9985あうん
の呼吸?
でかい機械だったものが今じゃ個人の小さい機械の中でできるし波形接続以外にもHMM方式やNNWを利用した合成が出たりと技術の進歩を感じる
これが初音ミクの先祖か
@@ごんすけ-f2z daisy bellな
@@ごんすけ-f2z
必殺技っぽい
@@ごんすけ-f2z クレイジーは草
名前どうなってんの
合成音声がこんなに前から作られていたことに驚き!
けっこう日本語として聞こえる!すごい!
初の技術ってもうちょっと拙い感じかと思ったけど普通に聞ける感じなの凄い
終戦からわずか14年
すごいよな
最近個人が開発した中の人が居ない音声合成ソフト『足立レイ』とかなり似てるから似た仕組みなんだろうなぁ
最初のものでも、大正・戦前期のラジオくらいの音質だから、結構凄いと思う。
それを今聞ける理由は保存メディアがあったからで、つまり同じような磁気テープやレコードディスクをこの装置も積んでいるからですね。>音質
@@Kei-IWA_Siliconated保存メディアや記録媒体の進化も 感動的ですね。
口腔の再現って、結構急峻なピーク/ディップを持った「次数の高い」フィルターをスウィープする必要があるので、それを最初に作った人は尊敬します。
膣つきてぇ〜
すごいねー😂😂
たしかに「次数の高い」フィルターはアイデンティティでプロットすることがエッセンシャルですもんね。それをファーストでメイクしたヒューマンはリスペクテッドすべきです
オフチョベットしたテフをマブガッドしてリットにする定期
人間の口ってエグいくらい
帯域が狭くて高性能な周波数フィルタ
だから電子回路で再現するの
大変なんだよな…
こんな昔から開発され始めてたとは凄い。
何となく70〜80年代くらいにできた技術かと思ってた笑
とちらにせよ昭和に開発されてるのが驚くマジで
だってその割にはアナウンスとか合成音声になったの最近でしょ?
NPO科学映像館の「シュミレター」(誤字)で50年ほど前の小学生がテレビで算数の問題を解く映像があったけど、そういう教材がすぐに普及はしなかったのを見るに、コストとか社会の慣れって大きいよな
そもそもコンシューマーエレクトロニクスに於いて
真空管がトランジスタに置き換わる
トランジスタからICやLSIにたどり着くまで
各々15年ほど掛かって(買った消費者もスゴいw)
今の超絶レベルのマイクロエレクトロニクス
汎用CPUインテル8080の設計者は日本人
ワンチップ汎用CPUのアイデアも元は日本の電卓メーカー
燃えプロとかあんな小さなチップであれだけの声をだしてたしね
@@ねこ-p5b1y 日本は世界屈指の技術大国だったからね。アメリカに消されたけど。
てことはゆっくりボイスとかめっちゃ凄いんだなぁ
あら!!
フリーで何でも言わせられしな。
しなしーな
@@慎吾高杉ライセンスがあることをご存じで?
あの軽さはやばいわ
なあずんだもん(低スペ民)
どうにか修復して「ゆっくりしていってね」と言わせたい
それいいな
興味深く見させてもらいました。この技術の延長に今日の音声合成や、またMP3のような音声データ圧縮などもあるのだな、と思うと、感慨深いですね。
錆び付いた廃遊園地のまだ生きてる部分がたまたま作動したみたいな恐怖感ある
最初の合成音声でもこんなにはっきり聞き取れるのすごいな
結構とゃんとしてるのすごい
とゃんとしてるは草
その文章がちゃんとしてないんよ
とゃんとしてるんですね
とゃんとした文書こうよ
とゃんとしてない文
この時代に合成音声をつくろうとした(しかも本当に作った)ことだけでなく
それを使った言語学の研究まで考えていたことが古の知恵みたいですごい
携帯電話の音声って、通話者の声に似せて作られた「合成音声」だったのか。
最初の頃は、合成音声の母音がビープ音のような音だったのと比べると凄い進化ですね。
ICが無かった時代、ちょっとした事をする回路をトランジスタでもなく真空管で組むと巨大ですね。
携帯電話の音声が「合成音声」であるくだり、先月末の「チコちゃんに叱られる」内で、「なんで携帯電話の声はいつもと違って聞こえるの?」→「あなたの本当の声ではないから」という答え合わせで詳細に解説されていましたね。
うそ電話詐欺で孫を装ってもバレにくいのは
耳が遠くなった以外にも要因があったんだなあ
母に電話かけた時自分と妹で「あんたらの声どっちがどっちか分からん」って言われてたのはこういう事だったのか
>ちょっとした事をする回路をトランジスタでもなく真空管で組むと巨大ですね。
普通の電卓(関数電卓とかじゃなくて)を真空管で作ると体育館ほどの大きさになり、発電所が直に必要なほどの電気が必要で、真空管電卓の沢山の真空管の一本でも切れればまともに動かない・・・らしいw
これを考えるとボイスボックスとかってもはや魔法だな
十分に発達した科学技術は、魔法と見分けがつかないってか?
@@いんねしんしー正にそれ
PC-6001mkIIなどに搭載されていたICが、この装置の子孫にあたる様な実感がありました。
という事は、この装置は現在の全ての日本語合成音声のご先祖様と言って良い存在なのでしょう。
PC-6001mkII持っていましたがまさにこの系譜の声、って感じでしたね。抑揚がなくモゴモゴ喋る感じがそっくりで、6600シリーズで音階がつけられるようになりましたがその後Beep音源の変調音声あたりまではこんないかにもな合成音声然とした音だった記憶があります。6001シリーズと同時期に学研の科学あたりで聖徳太子の声を専用のミニコンで合成したという付録がついてきたことがありますが、6001シリーズよりは自然ですが、男性がしゃべった声をエフェクトかけて電話品質くらいに落としたような声してました。
PC6001にカセットポンした音声合成カートリッジで触りましたが、この系譜らしさがありましたね
語尾の伸ばし方が同じ感じ。小5の時に友人の高橋君宅で使わせてもらったから約40年前
以外に進歩していないのかな?って印象、8bit機には難しかったPCM録音も16bitだと比較的無難な
音質まで再生可能になり、短く録音した音声を切り貼りする手法が長く続いていましたね。
ぱすぽ~とぉ~みせなぁ~さ~い(何のゲームか忘れましたが衝撃的でした)
NECはパソコンメーカーとして有名になりましたが、元々は電話交換機のメーカーなので色々と関係していたのかもしれません。
もともと真空管を組み合わせて作っていたものを、なるべくそっくりICに焼き直すように作り替えたんでしょうかね
すばらしい。昭和30年代にここまで再現できるなんてすごすぎる。
1899年生まれの人がまだ60歳、戦後14年、大正15年から33年だったと思うと、どれだけ昔なのかが実感できるな……
アラフォーおっさん俺の親がまだ生まれてないし、もう死んでるジッジバッバが当時20代だったと思うとすごく昔の話だ
東京タワー開業翌年だよ
これめっちゃわかりやすい……@@blackbear6306
すげぇ…………@@shiramin
何とも言えない不気味さがあって味があっていいなぁ
1980年頃に松下電器(現Panasonic)が小型で「法定放送装置」と言うのが京阪バスや京都市営バスに取り付けられました。
「危険物を持ち込まないでください」「整理券をお取りください」「次停まります。ご乗車ありがとうございました」
バスで本格的に合成音声による案内放送はclarionで開発されたのが最初と言われています。
だんだん話せるようになっていくみたいな感じがいい。
2:30どうぶつの森のとたけけっぽい
今では歌えるにまで進化してるのが凄い
このアナログ波形合成音を聞いた当時の技術者や数学者は、恐らく失禁するほどうれしかったと思う。
「ええ」が「え、え」と単体で発音するのではなく「えー」というふうにつなげて発音してるのすごい
なんですごいのかわからん。
@@usr747技術がすごいんやん
@@potalo_dx3zt2wx7m ええと発音させるのとえーと発音させることにどんな技術的な差があるの。
@user-pb3yb4pu7w 2 分前
@yotu1113 単に1文字ずつ発音させるんじゃなくて、前後の音に応じて最適な発音をさせてるのがすごいってことでは
そんなことはしていないと思うけど。そもそも一文字という概念がないと思うが。一音ならまだわかるけど。
伸ばし棒ってコマンドがあったんかな
え え
or
ええ
ってので人間が表現してたんじゃないの
当時のおばあちゃんとかからの聴き取りの語音明瞭度もこのくらいだったから充分実用的に聞こえる。
YMO的な『ザ・合成音声』って感じがたまらなくカッコイイですね✨✨
P-modelでは1992年の解凍P-MODELではAmigaのSay commandがサンプリングされてました
そういえばYMOの頃にはもうパソコンに合成音声入ったりしてたけどYMOはそこまで合成音声使ってるわけでもなかったね
@@lem6611YMOのは合成音声じゃなくてボコーダーだからね
アレは機械を通してるだけで、発声そのものは人間のソレだよ
どちらかと言うとクラフトワークや冨田勲かと。
ショウガクカン ビ デ オ
AI利用の音声変換について調べていたらこの動画がオススメに出てきました。技術の進歩ってすごいなあと感慨深いです。
「ええ、そうです」が昔の人の言い方でおもしろい
当初、古いゲーム機種で
サウンドの波形を入れる「容量」が限りなく少なかった時代
FINAL FANTASY シリーズで登場する、モーグリの「クポ」という音も
もっとも容量が少ないサイン波を採用することで生まれました
でもサイコソルジャーは唄っていた
この動画の監修がその大昔の論文書いた人で最後ちょっと感動した
黎明期の合成音声は、人工内耳でやるような感じで、機械で合成されたような音声になってしまいます。
人工内耳は、本来は3万本の聴覚神経をCochlearではわずか22個、Advanced Bionicsでは18本、
MED-ELでは12個の電極で肩代わりをしますので、機械で合成されたような聞こえ方になるそうです。
大変為になりました。先人達の努力には頭を垂れるのみです…
東京タワーが完成前から合成音声ってあるんだ〜
何もない状態から作って現代に欠かせないや電話の機能やボーカロイドに発展したりする技術だったり先人の人たちってやっぱすごいな〜
古典的なロボット系SFの金字塔である「われはロボット(邦題)」が出版されたのが1950年。
そのほか2001年宇宙の旅(の元ネタ)など、ロボットやAIが喋る、という超技術を描いた名作は50年代の物がわりとある。
SFで描かれるほど夢の技術だった「機械が喋る」という技術を、おなじ50年代に開発されてるってのが本当にすごい。
調声してないUTAUみたいな声だけど楽器から作ってんのすごい努力
隔世の感あります 『ワレワレ ハ ウチュウジンダ』
これ 初めて98買ったとき 出してみて 友人達に聞かせたら
「オモロイ」と 感心してた それから 三十年ほどした今
防災無線のデジタル化に伴い 合成音声化
村の老人曰く「どこの家の娘だろか 奇麗な声の標準語」とか
初期の声を聞けば聞くほど某アーティストが出したCG年賀状に出てきた目玉みたいなやつの声に聞こえてくるし、この声が唄音ウタとか足立レイみたいな無機音源の遠い祖先と考えると熱いものがあるな…
ミジュクモノメ.
ボーカロイドの礎というか原点と考えるとすごい
ボカロは完全機械ではなく中の人がいるのでちょっと違います
例えば初音ミクは藤田咲さんの声を元にして作られています
ゆっくりは完全機械なのでこっちが近いですね
@@RapidTachikawa 中の人がいるから前者というわけでもないぞ。最近のAI系(Cevio AI、Synthesizer V AI、Voicepeak、VOCALOID6など)は中の人こそいるけど、後者の方が近い。
@@ikalukakiyoe
詳しくないんですが、VOCALOIDは五十音すべて録音してるのではなく音声の要素を抽出して合成しているんでしたっけ?
だとすると、「肉声から要素のみをデータ化して送信し、受信側は合成音声で復元・再生する」技術の発展形なんですね。
主要なアイデアは違っても技術は全部繋がってんだな…
@@水勿月潤 5までのVOCALOIDは音声を要素ごとに録音したものをつなぎ合わせることで歌声を生成してます。 五十音をどのレベルで録音しているのかは不明(小林幸子氏の話によると、「あい」発音した時の間の音声なんかも収録するとか)ですが、少なからず50音を録音する以上のデータを録音していることにはなります。(復元というよりは合成というほうが適当かも。)
因みに、VOCALOID6などのAI系音声は学習データを用意して、その学習結果から音声をPC内で0から生成するので、以前のものとは全然違います。(学習データを用意するだけなので、中の人は何曲か普通に歌うだけでよいのだとか。)
どっちかというとゆっくりのご先祖様なのかな。
でもこの機械や技術が無ければ初音ミクちゃんは生まれなかったと思うと感動だよね!
60年も前から機械に喋らせようとする考えがあったことに驚き
合成音声とは少々違うけどMPEGの圧縮率とかものすごいもんなぁ
どちらもこういう解析の積み重ねから生まれたものなので兄弟みたいなものとも言えるか
FHDや4Kの映像なんて圧縮伸張の仕組みが無かったらとても扱える代物じゃないし
人知れず基礎研究に取り組んだ先人達に感謝
基礎研究って大切なんですよね。
1959年って、キャリントン・イベントから、ちょうど一世紀後ですね。この時代に研究されていたとは、ビックリです。
ここから約20年後に、TIがスピーク・アンドスペルを売り出し、そこからさらに五六年で、パソコンゲームに正弦波音声合成を使った物が現れ、更に20年経つとボーカロイド…なんとも感慨深いですね。
この合成音声から20年後といえば、YMOの「TECHNOPOLIS」内の「ト・キ・オ」や「T・E・C・H・N・O・P・O・L・I・S」という合成音声が出てきますね。
さらにその4年後にリリースされた同じYMOの「君に、胸キュン。」では、曲中の「キュン!」を合成音声で作成しようとしたけど、結局断念してメンバー3人の肉声を重ね合わせたものになっています。
40年ほど前まではそれほど合成音声を作成するのが難しいものだったのに、現在だとPC・スマホでチャチャッと作成できますから、この数十年の技術の進歩はすさまじいものです。
@@toyo-rex4899 テクノポリスのあの声、一度録音してボコーダーでエフェクトかけてたと思ってたんですが、実際には完全合成音声だったんですね。びっくり…。
そう?20年ってめちゃくちゃ長いよ
通信速度の進歩に比べたら大分遅いと思う
すごいP-MODEL感がある
オゾノ・コブラノスキー
Amiga Say command
これはすごい!
チューニングは大変そうだけど、時間をかければ普通に会話できるレベルで驚いた。
これの2年後の1961年にはコンピュータがDaisy bell歌ってるんだよな...
開発者「シャベッタァァァァァァァ!!(歓喜)」
「聞き取りテスト」の発音が英語のテストで聞く音程そのままでモヤァってした笑
今から約40年前、『燃えプロ』とか『水戸黄門』でファミコンが初めて喋った時は感動したものだった。
泥ママに盗まれたPCにBEEP音で夜中にホラー音声流してみたって動画があったけど…夜中にこの絶妙にカスレた音声が流れてきたら確実に漏らす自信がある。
PC「…お、はよう。」
2チャンのやつやんw絶対見た後に調べたべw
@@azukidango だから何…?
変なトーンってのには気になるけど、何を言ってるのかは理解できるから凄いですね!
この頃はまだ音声のスペクトラムを見て声の特徴を調べるってのはできなかったんやろな
この音声を使って人力ボーカロイドを作る猛者が出現すると予想
YAMAHA布教しようね
オゾノコブラノスキー
なんかトモダチコレクション思い出したわ懐かしぃ〜
ゆっくり実況とボーカロイドで、慣れてるけど未だに合成音声が聞き取れない人がいるよね
最初は何でも難しいのよ。
無から有を作るわけだから。
発送、いや発想するだけでも凄いこと。
その時点で存在する技術をいろいろと組み合わせることで実現させる技術者には脱帽です。
これも凄いですが冨田勲の無線等を使って山間部を走り電波の強弱やノイズを使って作ったという音声合成も凄い。昔の人は本当に奇知に飛んだ事をしてたんだなぁと改めて感心しました。
人力合成音声になるのかな?
要するに、アナログシンセを調整しまくって
音声出したのか…
これといいデイジーベルといい、あの時代に
ボイロとかボカロじみたことやってるの
凄いよね
ボイロとかボカロは録音された音素の連続なのでどっちかというと方法1に近いぞ。(唯一足立レイだけが1と2の合わせ技って感じ。)
@@ikalukakiyoe
そっかあれ声サンプリングしてるんだっけか
@@ikalukakiyoe 足立レイは完全なる合成電子音だったと思う。人間の声は使ってないはず。
足立レイは木琴をベースに作った声だったはず
@@fukyouwa-yin中の人はいないよ、もちろん。ただ、歌を生成するときはUTAUを使用する。=録音したデータを物理的につなげる。なので、1と2の合わせ技といったまで。(今更だが、デフォ子も1と2の合わせ技か。灯台下暗しだった。)
余談ですが、Neutrino、Cevio AI、Synthesizer V AI、VoiSona 、Voicepeak、VOCALOID6、Ace Studioなどは中の人こそいるけど、AI生成(学習データに基づいて音声をPCで音声を作る=サンプリングではなくモデリング)なので、2の方になります。
「はいはい」の所が一部ゆっくりボイスっぽい
「研究」も
トモコレってこれから作られてたのか...!!
60年以上前からあったの凄い
俺が求めてたのはこういう如何にも機械が作りました感のある音声だよ。
4:23 悲しき魔物
4:10の声が無駄にテンション高いおじさんみたいで好き😅
テンションがHighですね。
クラフトワークのようなかっこよさを感じた
これのおかげで世界に誇る日本のボカロ文化があるとするとめちゃくちゃ感慨深いなぁ
「単語ごとに録音して、
必要に応じて並べて再生する」という方式の人工音声の話。
昔のATMがその方式を使っていて
例えば「お金を」「お入れ」「ください」みたいに喋るところ、
不具合で「ください」が再生されなくなり…
とんだ高飛車なATMが爆誕した、
という笑い話が忘れられません。
先人達の知恵が、今日の技術の基礎になり発展してると思うと考え深いですね。思った以上に、聴き取りやすく完成度が高い事に驚かされます。
だんだん初代トモダチコレクションの音声に聞こえてくる
おはようが言葉を少し覚えた怪物が話しかけてくる感じで怖ぇ
研究目的が直接の合成音声ではなく音響心理学やG.7xx等のCODEC開発の基礎研究として生かされてたんですねぇ
第一声目聞いたとき、ゾッとしたわ
人間の声真似をする鳥みたい
この合成音声の「んほぉ♥」とか聞いたらたまらんだろうなぁ
wwwwwwwwwwww
モーニングコールで「オハ、ヨウ」とか言われたら恐怖で仕事休む