Talk to AI with enhanced speech recognition | Gemini

แชร์
ฝัง
  • เผยแพร่เมื่อ 20 ส.ค. 2024
  • Talk to AI Voice to Voice with Enhanced Speech Recognition on Gemini - Google’s newest and most capable AI model. Watch Google DeepMind Research Scientist Adrià Recasens Continente demonstrate Gemini’s abilities to understand audio in different languages, from multiple speakers and to combine vision, audio and text to offer a helping hand while cooking in the kitchen.
    Check out more Gemini demos: goo.gle/4164rNO
    Find out more about Gemini: deepmind.googl...
    Read the blog post: goo.gle/3uRyug7
    Subscribe to our Channel: / google
    Tweet with us on X: / google
    Follow us on Instagram: / google
    Join us on Facebook: / google

ความคิดเห็น • 163

  • @tristanwegner
    @tristanwegner 8 หลายเดือนก่อน +79

    Not losing nuances by not converting to text is a big improvement indeed. I guess theoretically one could still encode to tone in the text e.g. 'Hi there [sad]", but direct seems more nuanced.

    • @FretBuzzLIF
      @FretBuzzLIF 8 หลายเดือนก่อน +10

      Thats a lot of detail loss anyway, like describing an image into text to turn it back to image later

    • @Mooskislide
      @Mooskislide 8 หลายเดือนก่อน +11

      The examples shown however don't demonstrate any nuance. Nothing would be lost by using an ASR model and operating on text. Music examples would have shown this but they didnt use them.

    • @tristanwegner
      @tristanwegner 8 หลายเดือนก่อน +2

      You mean like their underwhelming tree demo@@FretBuzzLIF

    • @VivianePimenta-sp3jv
      @VivianePimenta-sp3jv 5 หลายเดือนก่อน +1

      0:47 😢😮😊😅😂🎉❤ 0:53 😊

    • @GeaziGeazim75
      @GeaziGeazim75 12 วันที่ผ่านมา +1

      🎉

  • @caelen_c
    @caelen_c 8 หลายเดือนก่อน +152

    This seems like the all in one AI

    • @IN-pr3lw
      @IN-pr3lw 8 หลายเดือนก่อน +34

      > Multimodal

    • @marcos-123q
      @marcos-123q 8 หลายเดือนก่อน +5

      ​@@IN-pr3lw🤭

    • @Dominic416_
      @Dominic416_ 8 หลายเดือนก่อน +4

      *AGI

    • @crazyRBLX11
      @crazyRBLX11 8 หลายเดือนก่อน +11

      That's the whole point of Gemini.

    • @DajuSar
      @DajuSar 8 หลายเดือนก่อน

      Its not but we are getting there @@Dominic416_

  • @chrisg9343
    @chrisg9343 8 หลายเดือนก่อน +17

    These Gemini videos are incredible. What a time to be alive

    • @groundcrewz
      @groundcrewz 8 หลายเดือนก่อน

      What a time to be alive !!

    • @marvinbernal
      @marvinbernal 8 หลายเดือนก่อน +4

      Hold your papers ...

    • @Meta_humane
      @Meta_humane 8 หลายเดือนก่อน +3

      Hold on to your papers fellow scholars

    • @Google
      @Google  8 หลายเดือนก่อน +5

      Glad you're loving these videos!

    • @calistafalcontail
      @calistafalcontail 5 หลายเดือนก่อน

      Only people, who arent creatives themselves and cant see where this is going and how it will deprive people of creative skills, love this crap.

  • @ShpanMan
    @ShpanMan 8 หลายเดือนก่อน +22

    Great, now give it hands to do the actual cooking too.

    • @Dron008
      @Dron008 8 หลายเดือนก่อน

      But don't ask it (or maybe them) what is strangulation.

    • @ankitnmnaik229
      @ankitnmnaik229 8 หลายเดือนก่อน

      Will happen soon ...

  • @sarthakgautam8035
    @sarthakgautam8035 7 หลายเดือนก่อน +2

    Hey Google,I am loving these videos

  • @ilyass-alami
    @ilyass-alami 8 หลายเดือนก่อน +23

    We want the all features of Gemini's vision to be added to Bard 👁️

    • @gerardolopez9368
      @gerardolopez9368 8 หลายเดือนก่อน +1

      Does make sense

    • @loot6
      @loot6 8 หลายเดือนก่อน +5

      I don't think we need bard anymore, he was a failure. Gemini looks like the way to go from here.

    • @andregustavo2086
      @andregustavo2086 8 หลายเดือนก่อน +5

      ​@@loot6actually Bard now is going to work from Gemini's reasoning underneath it.

    • @loot6
      @loot6 8 หลายเดือนก่อน +1

      @@andregustavo2086 Well if they replace Bard with Gemini underneath that would work although it wouldn't really be Bard anymore.

    • @andregustavo2086
      @andregustavo2086 8 หลายเดือนก่อน

      @@loot6 yes, but that's easier for marketing since they don't need to stop Bard's branding and start Gemini's from scratch.

  • @theeternalnow6506
    @theeternalnow6506 8 หลายเดือนก่อน +3

    Wild times ahead.

  • @himhimmy-vp4es
    @himhimmy-vp4es 4 หลายเดือนก่อน +5

    well I am not sure how to use automatic voice recognition for example when I say something it would automatically stop and then speak because in the website I can press listen and then it can speak but in here I hear automatic speaking first off a sound when pressing the microphone which I didn't hear in the website and a really bad thing is in here I hear a text to speech with a bit of emotions but in the website I hear the normal Google Text-to-Speech so the sound is different there I'm not sure if that's a problem of Gemini ultra and advanced but I really want to check that out just if it's one audio send and receive

  • @danylaley
    @danylaley 8 หลายเดือนก่อน +3

    they should add an audio decoder to get the audio generating capabilities we need.

    • @ultra6334
      @ultra6334 8 หลายเดือนก่อน +3

      Yes, I think it is still using text-to-speech for the output audio

  • @sbh0892
    @sbh0892 8 หลายเดือนก่อน +2

    Is this currently available to developers via the Gemini Pro API?
    If it is, how good is it at handling non-native English accents, particularly from South and East Asia?

  • @jaswan79
    @jaswan79 8 หลายเดือนก่อน +5

    Are these capabilities native to Nano?

  • @WhoamI-tl3di
    @WhoamI-tl3di 8 หลายเดือนก่อน +1

    Is there any way to try this? Because I can't find any API or even Playground for this...

  • @jaswanthna1604
    @jaswanthna1604 8 หลายเดือนก่อน

    In coming we can see a plugin or inbuilt to listen any podcast in every language

  • @y1.5
    @y1.5 8 หลายเดือนก่อน +1

    No live demonstration? Means it's not reliable yet

  • @JOHN.Z999
    @JOHN.Z999 8 หลายเดือนก่อน +2

    Gemini is awesome 😱😱😱😱

    • @Google
      @Google  8 หลายเดือนก่อน

      Glad we're on the same page 📚

  • @anf86
    @anf86 3 หลายเดือนก่อน

    This is amazing! Can we please get an update for pixel phones as voice to text is very bad.

  • @xandermed
    @xandermed 8 หลายเดือนก่อน +3

    I can't wait to use this with my students and enjoy it asking and imagining things with its help. Love Gemini already.

    • @Google
      @Google  8 หลายเดือนก่อน +1

      Bard with Gemini Pro is here to help! ✨

    • @calistafalcontail
      @calistafalcontail 5 หลายเดือนก่อน

      Imagining happens in the mind...its about pictures in our head and then putting them into reality with OUR skills. Humans will become less able to imagine and visualize if they let ai garbage do everything. Creative skills will seem less relevant and it will deprive people of so much...also spiritually. Its just awful.

  • @kaio0777
    @kaio0777 8 หลายเดือนก่อน +6

    Real time translation is $1 trillion company think about it guys.

    • @joelface
      @joelface 8 หลายเดือนก่อน +2

      There are several other companies who have accomplished this right around the same time... I think that will probably bring the value to a more reasonable level. Certainly it is revolutionary.

    • @Dominic416_
      @Dominic416_ 8 หลายเดือนก่อน

      Value wise ya but it’ll be free!

    • @joshuaritter1880
      @joshuaritter1880 8 หลายเดือนก่อน

      If it's free, you're the product.

    • @HUEHUEUHEPony
      @HUEHUEUHEPony 8 หลายเดือนก่อน

      @@joshuaritter1880 ill pay the price

    • @joelface
      @joelface 8 หลายเดือนก่อน +1

      @@joshuaritter1880 not necessarily if it’s an open source version running locally.

  • @sashank224
    @sashank224 8 หลายเดือนก่อน +1

    Voice for English a sounds ight, i fell for inflection PI natural voice processing. But the multimodel capabilities are welcomed 😮.

  • @YusriCassim
    @YusriCassim 6 หลายเดือนก่อน

    They’ll completely works documents before sending 3:45

  • @littlecrafthouse15
    @littlecrafthouse15 5 หลายเดือนก่อน +1

    Very nice ❤️

  • @Theguywithspectacles
    @Theguywithspectacles 8 หลายเดือนก่อน

    Never been a Fan of A.I until now, can't wait to meet GEMINI😫😫

  • @JonathanPriceFTW
    @JonathanPriceFTW 8 หลายเดือนก่อน

    Wow... Love it.

  • @penxcilmusic
    @penxcilmusic 8 หลายเดือนก่อน

    Late but stronger than before!

  • @areebmianoor4449
    @areebmianoor4449 4 หลายเดือนก่อน

    Where is the documentation to be able to use the speak with audio

  • @abdullaahmed096
    @abdullaahmed096 8 หลายเดือนก่อน

    I am here for the history

  • @lycas09
    @lycas09 8 หลายเดือนก่อน +3

    Is Gemini capable of understanding "any" raw sound (like the sound of the Rain for example) or just speech?

  • @cheesypoetry7551
    @cheesypoetry7551 8 หลายเดือนก่อน

    Ladies and gentlemen-welcome to the future 🔥

  • @seanhunter111
    @seanhunter111 8 หลายเดือนก่อน

    Something about his feels staged. It's interesting that he keeps uploading clips of speech rather than speaking to it himself. Does it not accurately recognise his speech because of his accent? Have those files been specifically curated?

  • @dietrichdietrich7763
    @dietrichdietrich7763 8 หลายเดือนก่อน

    Interesting Concept

  • @user-xi8tz6yf2e
    @user-xi8tz6yf2e 8 หลายเดือนก่อน

    Did you use TH-cam data to train ?

  • @TimecastGaming
    @TimecastGaming 6 หลายเดือนก่อน +3

    So how and where can i use this now?

  • @binadevi3748
    @binadevi3748 8 หลายเดือนก่อน

    Welcome to jamshedpur

  • @scarlettlee3417
    @scarlettlee3417 8 หลายเดือนก่อน

    If this is deployed to mobile phones, everyone owns an AI assistant.

    • @himhimmy-vp4es
      @himhimmy-vp4es 4 หลายเดือนก่อน

      I wish you could use it with Android 9 or 10 because mine is 10 and I can't use it the program says the program is not supported on this device and even on Android 14 it says unavailable and on Android 8 it says you need to update your Google App because eventually I think Android 8 has an old Google and it doesn't support it

  • @pablocosentino2126
    @pablocosentino2126 8 หลายเดือนก่อน +1

    Amazing

  • @NikitaRemez
    @NikitaRemez 8 หลายเดือนก่อน

    Adrià, do you think Gemini will understand catalan? As google assistant don't. 😉

  • @tvtimoun
    @tvtimoun 4 หลายเดือนก่อน

    How can Gemini assist in refining and enhancing a monolingual Haitian dictionary that already contains 160,000 words? How can I have access and training on it ?

  • @MetaSugarman
    @MetaSugarman 8 หลายเดือนก่อน +2

    Just take my money, can't wait

  • @michaelc1632
    @michaelc1632 8 หลายเดือนก่อน

    Hopefully it'll be able to transcribe the lyrics from the songs in my doomblackdeathgrindcore playlist.

  • @George-nx8zu
    @George-nx8zu 5 หลายเดือนก่อน

    When will multimodal input to speech be added to the Android Gemini API?

  • @JoseBonilla-uk5gf
    @JoseBonilla-uk5gf 7 หลายเดือนก่อน

    Hello Google, can you make a video on how to add Gemini to nocode pages like bubble?

  • @Dron008
    @Dron008 8 หลายเดือนก่อน +1

    This is so cool I just though about it recently that speech recognition is not enough for lesson learning because it ignores pronunciation. It may be used in so many ways! Will it recognize by voice when person is sad or irritated? It seems not so hard now.

  • @info_way
    @info_way 8 หลายเดือนก่อน

    That's really great google comes back with the greatest worrier demonstrations step up to AI.

  • @PabloAndresSandovalMorales
    @PabloAndresSandovalMorales 8 หลายเดือนก่อน

    Valor auriculares?

  • @BennyDuero-xl6nq
    @BennyDuero-xl6nq 7 หลายเดือนก่อน

    0:49 0:50

  • @jhdesigner
    @jhdesigner 8 หลายเดือนก่อน +1

    Nice... I just don't like how it sounds like a robot speaking.... ChatGPT sounds more natural

    • @Dron008
      @Dron008 8 หลายเดือนก่อน

      It is the easiest thing to improve.

  • @pavankp30
    @pavankp30 8 หลายเดือนก่อน

    Lets see what will happen in future

  • @kristine6996
    @kristine6996 8 หลายเดือนก่อน

    My aunt teached me how to make an omelet.

  • @PeterStrmberg007
    @PeterStrmberg007 8 หลายเดือนก่อน +2

    Just take my money

  • @waeldehni53
    @waeldehni53 8 หลายเดือนก่อน

    When will we have the android app version of it with out having to use browsers

    • @PierreDennis
      @PierreDennis 8 หลายเดือนก่อน

      It'll probably hit America first before it goes global.

  • @MitziRoberts
    @MitziRoberts 8 หลายเดือนก่อน +4

    It seems like this is going to be quite helpful for those with a disability.🎉

  • @fcore-ws6kg
    @fcore-ws6kg 6 หลายเดือนก่อน

    Si , und warum zum Geier funktioniert genau das jetzt noch nicht. Das wär doch Mal der Hammer wenn es das gäbe

  • @gerardolopez9368
    @gerardolopez9368 8 หลายเดือนก่อน

    Ok, but I see Bard being a good adildition, time will tell

  • @enuma8161
    @enuma8161 8 หลายเดือนก่อน

    google gemini and youtube collab

  • @AnotherCupofTea2
    @AnotherCupofTea2 8 หลายเดือนก่อน +1

    Amazing!

  • @01untitleduntitled
    @01untitleduntitled 8 หลายเดือนก่อน

    dude I can just look at my omelette myself to see if it's cooked or not

  • @jumarkpelismino5632
    @jumarkpelismino5632 7 หลายเดือนก่อน

    I wish it can also speak in my language, Tagalog...

  • @ilyass-alami
    @ilyass-alami 8 หลายเดือนก่อน +1

    Can Gemini do life and earth science exercises based on viewing documents with cells , in Arabic

  • @Angus-Johnson-8334
    @Angus-Johnson-8334 8 หลายเดือนก่อน

    Rapture is imminent. Jesus loves you. Don’t take the mark of the beast.

  • @francosfarms1573
    @francosfarms1573 8 หลายเดือนก่อน

    Is this based on python?

    • @DarkWizardGG
      @DarkWizardGG 8 หลายเดือนก่อน

      It's probably based from Python cuz Google has TensorFlow, a machine learning frame to train AI models.😁🤖🤖🤖🤖🤖

  • @erolaPC
    @erolaPC 8 หลายเดือนก่อน

    🙌🙌🙌🙌

  • @damianbirchler497
    @damianbirchler497 8 หลายเดือนก่อน

    Sounds a bit aggressive. At least now I'll finally able to make an omelette!

  • @jopeteus
    @jopeteus 6 หลายเดือนก่อน

    When this technology evolves, and it has text to speech, my plan is to speak to it in a language I'm learning so I can improve my language skills.

    • @calistafalcontail
      @calistafalcontail 5 หลายเดือนก่อน

      This monstrous crap will ruin so many skills and it will render your language skills useless one day, like so many other things. Its not here to assist you, its meant to deprive people of all ambition to master something and deprives creative drive.

  • @davidmejia-martinez4715
    @davidmejia-martinez4715 8 หลายเดือนก่อน

    Its over for us humans

  • @HuongTran-jg7tw
    @HuongTran-jg7tw 8 หลายเดือนก่อน

    Where can I try this? Bard on my computer doesn't have the "add chunk" button

  • @KlausRosenberg-et2xv
    @KlausRosenberg-et2xv 8 หลายเดือนก่อน

    That's seems like AGI. 🤔

  • @RussellSeabright
    @RussellSeabright หลายเดือนก่อน

    Why are you people messing with my phone and me

  • @phoenix1741
    @phoenix1741 6 หลายเดือนก่อน

    This is pro version 😢

  • @BigDataLogin
    @BigDataLogin 8 หลายเดือนก่อน

    Cool

  • @SmailOuchafra
    @SmailOuchafra 8 หลายเดือนก่อน

    🥰🥰🥰

  • @hypeventure
    @hypeventure 8 หลายเดือนก่อน

    Future of music feedback is coming soon for music producers? Also anime voice responds?? Possible?

  • @HarpaAI
    @HarpaAI 8 หลายเดือนก่อน +1

    🎯 Key Takeaways for quick navigation:
    00:00 🎙️ *Processing raw audio with Gemini*
    - Gemini can process raw audio end-to-end without converting it to text.
    - This approach retains nuances like voices and pronunciation.
    00:57 🗣️ *Pronunciation example*
    - Gemini accurately differentiates between pronunciations in a foreign language.
    - It provides detailed responses based on audio input.
    02:02 🗨️ *Multimodal understanding*
    - Gemini goes beyond transcription, understanding conversation content.
    - It seamlessly integrates vision, audio, and text for nuanced comprehension.
    03:14 🔄 *Simultaneous processing of three modalities*
    - Gemini demonstrates the ability to process audio, vision, and text simultaneously.
    - It can provide step-by-step guidance based on audio input, enhancing user interactions.
    Made with HARPA AI

  • @Blate1
    @Blate1 8 หลายเดือนก่อน

    How long till the singularity?

  • @danylaley
    @danylaley 8 หลายเดือนก่อน

    Is this spanish or greek?

  • @disminliguido
    @disminliguido 8 หลายเดือนก่อน

    The ai voice still looks artificial. The chatgpt voice to android looks like a real person speaking.

  • @n2l2l
    @n2l2l 8 หลายเดือนก่อน

    But the bowl has holes..... 🤣 crack the egs and whisk them.... well.... someone has never used bowl with holes .... for sure 😁

  • @surfreadjumpsleep
    @surfreadjumpsleep 16 วันที่ผ่านมา

    omg how many people will die from eating raw eggs!

  • @raghavsomani1995
    @raghavsomani1995 8 หลายเดือนก่อน +7

    Can gemini help me understand your accent?

  • @elizabethmarrerojimenez
    @elizabethmarrerojimenez 8 หลายเดือนก่อน

    Seem better than Claude 😂

  • @Hamz-rl8hx
    @Hamz-rl8hx 8 หลายเดือนก่อน

    I wonder if the Ai has perfect pitch?

  • @user-ft5vc1qy2k
    @user-ft5vc1qy2k 8 หลายเดือนก่อน

    🌑🌒

  • @user-ol1qm9ey7g
    @user-ol1qm9ey7g 8 หลายเดือนก่อน

    เราจะมีการวิจัยพืชทดแทนยาเสพติดเราจะปรับปรุง

  • @ShakilAhmad-mi7xn
    @ShakilAhmad-mi7xn 4 หลายเดือนก่อน

    ❤🎉😂😮

  • @jessieanderson3931
    @jessieanderson3931 8 หลายเดือนก่อน

  • @user-sw9km6xb8q
    @user-sw9km6xb8q 3 หลายเดือนก่อน

    Ali Noor😂

  • @elck3
    @elck3 8 หลายเดือนก่อน

    Sounds like another excuse for Google to collect personal information

  • @SHAINON117
    @SHAINON117 8 หลายเดือนก่อน

    ❤❤❤🤤🤤🤤👄

  • @ShakilAhmad-mi7xn
    @ShakilAhmad-mi7xn 4 หลายเดือนก่อน

    😢😮h

  • @ankk98
    @ankk98 8 หลายเดือนก่อน

    agi

  • @vcfirefox
    @vcfirefox 8 หลายเดือนก่อน

    Software engineer jobs are.GONE

  • @mitreg1
    @mitreg1 7 หลายเดือนก่อน

    Even if you show a program code to copilot, chatgtp and bard, they can't do anything

  • @rajumondxb
    @rajumondxb 8 หลายเดือนก่อน

    This wont help people

  • @ratsock
    @ratsock 8 หลายเดือนก่อน

    Meanwhile, Google Assistant getting worse and worse to the point of being a glorified table decoration.

  • @avi7278
    @avi7278 8 หลายเดือนก่อน +2

    wow! this would have been super impressive last year!

    • @Cagrst
      @Cagrst 8 หลายเดือนก่อน +5

      This is literally the best publicly available model you dolt 😂

    • @avi7278
      @avi7278 8 หลายเดือนก่อน +2

      @@Cagrst publicly available available? Show me its API docs. Go ahead, I'll wait. And it's the best, based on what exactly? I'll bet you can't answer either of these questions coherently.

  • @SatyamMishraBEE
    @SatyamMishraBEE 8 หลายเดือนก่อน

    publicity stunt hhaaa

  • @brytonkalyi277
    @brytonkalyi277 8 หลายเดือนก่อน +1

    °•°• I believe we are meant to be like Jesus in our hearts and not in our flesh. But be careful of AI, for it is just our flesh and that is it. It knows only things of the flesh (our fleshly desires) and cannot comprehend things of the spirit such as peace of heart (which comes from obeying God's Word). Whereas we are a spirit and we have a soul but live in the body (in the flesh). When you go to bed it is your flesh that sleeps but your spirit never sleeps (otherwise you have died physically) that is why you have dreams. More so, true love that endures and last is a thing of the heart (when I say 'heart', I mean 'spirit'). But fake love, pretentious love, love with expectations, love for classic reasons, love for material reasons and love for selfish reasons that is a thing of our flesh. In the beginning God said let us make man in our own image, according to our likeness. Take note, God is Spirit and God is Love. As Love He is the source of it. We also know that God is Omnipotent, for He creates out of nothing and He has no beginning and has no end. That means, our love is but a shadow of God's Love. True love looks around to see who is in need of your help, your smile, your possessions, your money, your strength, your quality time. Love forgives and forgets. Love wants for others what it wants for itself. Take note, true love works in conjunction with other spiritual forces such as patience and faith (in the finished work of our Lord and Savior, Jesus Christ, rather than in what man has done such as science, technology and organizations which won't last forever). To avoid sin and error which leads to the death of our body and also our spirit in hell fire, we should let the Word of God be the standard of our lives not AI. If not, God will let us face AI on our own and it will cast the truth down to the ground, it will be the cause of so much destruction like never seen before, it will deceive many and take many captive in order to enslave them into worshipping it and abiding in lawlessness. We can only destroy ourselves but with God all things are possible. God knows us better because He is our Creater and He knows our beginning and our end. Our prove text is taken from the book of John 5:31-44, 2 Thessalonians 2:1-12, Daniel 7-9, Revelation 13-15, Matthew 24-25 and Luke 21. Let us watch and pray... God bless you as you share this message to others.

  • @sethirvine5426
    @sethirvine5426 2 หลายเดือนก่อน

    So far, it can't understand me

  • @user-ol1qm9ey7g
    @user-ol1qm9ey7g 8 หลายเดือนก่อน

    3เหรียญทองคำขายให้บริษัท google ดีกว่าเขามีวิสัยทัศน์เทคโนโลยีแห่งอนาคตมันจะเป็นต้นแบบ

  • @jumarkpelismino5632
    @jumarkpelismino5632 7 หลายเดือนก่อน

    I wish it can also speak in my language, Tagalog...