ขนาดวิดีโอ: 1280 X 720853 X 480640 X 360
แสดงแผงควบคุมโปรแกรมเล่น
เล่นอัตโนมัติ
เล่นใหม่
兄弟,你真的很适合当trainer. 之前无意间看到你一期节目就开始关注你,到现在这期感觉你水平又提高了好多。我看过很多讲解端到端技术的博主,但你讲的真的深入浅出,一听就是内行,让人对端到端技术充满信心,说实话,我听得有点小激动.我就是单纯喜欢特斯拉的技术和愿景,作为一个投资美股多年,去年最高盈利100%,结果被特斯拉一只股票拉低到只剩不到30%,但还是没卖一股的小散来说,你应该能明白我为啥看到你的视频会有点激动吧,哈哈. 能把复杂的东西讲得这么简单,真是难得的能力。加油,继续发布好的视频!
确实,这位博主也是我见过讲FSD中讲得最好的❤
他讲的其实很多并不准确。。
他这个视频只要不能证明视觉>视觉+雷达就是白扯,如果要考虑成本,不用自动驾驶成本更低。
自动驾驶真的智能了,早上送你上班,然后它就去自己跑滴滴了,兴奋吗😂😂@@yanfang999
………………送你一句话:吹牛逼都好得很,the evail is in the details.
对激光雷达的优势错得厉害. 他不只是精准测量距离 还可以测量很远的距离 “很远”是重点 比普通摄像头强三倍距离. 在高速行驶时,这个优势是非常有用的.加上激光雷达可以在天气恶劣的情况下看得比摄像头清楚很多 例如大雾,下大雨下雪等等 我觉得未来应该是用激光维达加上摄像头加上机器深度学习 完成Level Five的主动驾驶
所以你的设想【完全自动驾驶】后面要加上超能力的,基于人类无法正常驾驶的情况下,比如大雾下大雨下雪这类极端气候,“激光雷达”PLUS“摄像头”还能发挥作用??!!。为什么?这不是悖论吗?好好开车和不要开车是两种情况,不需要有超能力啊。天气极端的时候,路上是没有车的。
目前没有算法把视觉和雷达觉融合,用雷达的厂商都是使用的历史遗留。 不过一旦有算法融合雷达觉, 可以比较容易的合并进v12的模式里。 不过按交通法规来说,纯视觉已经足够好了, 足以超过绝大多数人类驾驶员。
並沒有⋯激光雷達受惡劣天候影響是很大的,毫米波雷達才可以穿透你說的那些東西;然後激光雷達標榜可以看很遠,但有可能遠的東西看不出來是什麼,因為點太稀疏了,視覺其實用一個長焦鏡頭,遠也可以看很遠⋯
@@okldr無論視覺跟激光雷達或毫米波雷達融合都是最早期的技術⋯早期視覺深度訊息不準或無法取得,都是用這兩者融合補足深度訊息的
@@user-Ivan_Chan 不只是极端 可能只是一点点rgb 以径不行了
up,建议对比一下极端天气条件下,视觉与雷达的区别。
端到端指的是输入是原始数据,输出是最后的结果。在整个学习过程中,不进行人为的子问题划分,完全交给深度学习模型直接学习从原始输入到期望输出的映射。 而非端到端呢,就是输入不是直接的原始数据,而是在原始数据中提取的特征(如feature),这一点在图像问题上尤为突出。因为图像像素数太多,数据维度高,会产生维度灾难,所以原来一个思路是手工提取图像的一些关键特征。
可以解释一下传统的cv跟控制系统分离的架构。这个历史讲清楚了就比较好理解了
這個視頻很適合丟給還不太懂AI有強大的人看,感謝分享
其實模塊化有個淺顯易懂的例子,要是你開車的時候是閉上眼睛聽副駕告訴你前方有什麼東西來進行決策的話,我看你還能多好的開這趟車,不車禍也難。
想像用 fsf v11 开车多可怕
所以v11不適合無人 必須人類全時用眼睛雙手隨時介入
@@waffenss1234567 v12 系統有 bug,需要專注前方路況,免得反應不及。
12:50这里老司机的举例感觉不太恰当,再有经验的司机也有少数没遇见的情况,比如上个月的夜间高速坍塌,死亡几十人。你就是开了一百年的车,该看不见还是看不见,而激光雷达就是为了应对这种极端场景。后续拿雷达比喻成新司机,更是不妥。在现阶段自动驾驶还不成熟阶段,鼓吹纯视觉方案,有种特斯拉精神股东即视感。
你的意思是激光雷达能预测高速坍塌🤔 ?
@@kevinlai4542 激光雷达,低照度环境下几十米外的深坑还是看得见的。不知道你怎么理解成预测高速坍塌。
任何理解基本物理的人都知道,无论是视觉的摄像头,还是激光雷达或者毫米波雷达,都会有自身优势和缺陷。这些都是自动驾驶的眼睛。而AI算法和算力是自动驾驶的大脑。眼睛不好,大脑再强也有极限。同样高水平的大脑,眼睛强比眼睛弱好,在特别情况下更是如此。举个例子,小雨天对面开了远光灯,对摄像头是致命的。大暴雨沙尘暴对激光雷达和摄像头都要命,但是4D毫米波雷达就还好。所以为特斯拉辩护的人,我想说,你可能只是入教了,迷信了。
相信特斯拉单视觉比雷达+视觉更强的人你就别跟他解释和聊天了,因为他们连基础的物理学都不懂。
咋可能啊,激光雷达又不是神仙 ,也有分辨率的,也要有训练场景的。
视觉>雷达,但是视觉<视觉+雷达
自動駕駛需要的是預判不是精準,預判的安全是遠超精準的,預判提前減速就可以避免事故發生,而不是去考驗激光雷達的精準配合硬體的煞車性能來避免事故。
讲得太好了,自动驾驶是神经网络ai的一个应用,因此也明白了为什么英伟达股票大涨
神经网络和雷达不矛盾。雷达可以补充视觉方案看不到的信息,神经网络的一切优势都可以在雷达信息上应用。特斯拉不用雷达我认为就是为了省钱,马斯克在这个点上有些偏执了。但考虑到做出这个决策时激光雷达确实又大又贵,也可以理解。
那為啥不再多裝一組camera就好😂360 lidar必要性已經被tesla證明在自駕認為中可以捨棄了lidar只剩可以寫死的corner case有點用但那種也不需要lidar了浪費錢一般雷達就好喔對了lidar和雷達是不同東西
雷达是整个实时路况地图的输入参数,因为成本不用激光雷达,现在特斯拉是有4d毫米波雷达
其實路上道路坍塌、天坑,需要人們提出需求讓科技廠商研發預警科技,這時候這種設備也是會出現在市場上,是汽車選配可以自己加錢裝。道路上出現坍塌、天坑的問題這是相關管理單位的責任,端對端的純視覺自駕對標真人自駕,真人躲不掉路面的缺陷,特斯拉自駕也一樣躲不掉,若真需要裝雷達,雷達版特斯拉會是一個選配吧😅
真的,純視覺最多也是做到人類程度的失誤率,但一般人對自動駕駛的要求必定更高,所以在大雷雨 濃霧 地形崎嶇 黑暗視線不佳 的狀況下,視覺不足以駕駛時,用雷達或甚至用3D雷達搭配影像辨識,大概才是大眾的期待,但這樣開發時間更長,特斯拉股價會沉浮更久😂😂
@@allenclue意見很專業!是從事科技業的人嗎?
精彩!唯一一个看了2遍的视频。
4D毫米波雷達 遇上 大雨/大雪/大霧 行駛 都能完美偵測 純視覺 "做不到"! !遇到障礙物 自動煞停 只要大撞一次 一次就好你足夠買4D激光雷達了或4D毫米波 或 4D激光雷達的意義在這再過10年 旗艦車機晶片+變態算力強大NPU 搭配數千萬台麻豆車輛 即時大數據反饋 能輕鬆應對路上各種狀況 純視覺才真的可靠起來把全品牌 通聰車聯網 共享視野 共享車況 及時連上即時數據台灣路給台灣車主用 日本路給日本車主使用這樣才是LEVEL5 全自動駕駛 的極致
感谢您的分享,我在大学学到神经网路的就是这个原理,但是您可以从工程师的角度分享这背后实现的细则,我会推给任何想要了解fsd的人
如果遇到大雾的天气,纯视觉方案都看不清了,怎么保证自动驾驶呢?雷达方案能够精准测距,反而能够提前识别到风险,所以是不是 纯视觉
有一个点不同意,不管是激光雷达还是毫米波雷达甚至以后的麦克风捕捉的声音都可以送到端到端系统训练,阻塞因素在于成本和可靠性,而不是架构上不需要。
兄弟说得都没错, 理论上更正确,但我今天在过一个有故障的路口时,有警察在指挥,车很多,我也不是第一辆车,在让我这个方向的车流开始移动时,并且我前面的车和我都是要直行通过路口,但我的车却停下了,应该是把警察当成行人了😅
不管是v11还是v12,我从来不觉得特斯拉在技术层面和实际效果上做到比人类司机开得好会有问题,但是问题在于端到端模型的不可解释性如何说服法律和监管机构😂
非常清晰易懂!持续关注。
路政的那个例子讲的非常好
感谢大佬
抓到野生大佬
今天fsd 12.3.6在我车上犯了三个很傻的错误 一次是在停车场corner高速前进丝毫没有看到转角并且减速转弯的意思 另一次是在空无一人的停车场转角停了十秒不知道该往哪里走,第三个是map data明明说要出停车场左拐但是试了三次他都偏偏右拐。这让我感觉fsd v12根本没有推理能力 完全是靠模仿人类驾驶 也就是elon说的reason by analogy而不是fist principle,一旦遇到没遇到的情况他就不会了,而不是通过以往的训练数据去推理,这么简单的没有人的停车场都可以卡住🤣稍微有点推理能力就该知道往哪走啊
V12还是reasoning by analogy,他是总结规律而不是真正的从first principle去理解为什么要这么开,fsd必须要融入LLM来补充逻辑推理这一块短板
整个视频里提到,摄像头的输入信息细节是最多,也是非常好,完全从源头,说出了传感器融合方案的缺点,看似做加法,其实是巨量的信息丢失
路政这个例子真的很好,就像现在国内疯狂推的萝卜快跑,交警在旁边指挥都完全没用只会傻傻的停在原地等待后台远程操控,要是AI的强大学习能力就没有这种问题了
雷达存在的意义不仅仅是为了测距精确,更重要的是在摄像头无法正常工作的时候起到双保险的作用。比如强逆光,进出隧道,能见度低等情况。实际场景中硬件是不会始终处于完美工况下的。
我觉得目前的人工智能还没有真的达到智能,而还是捕捉输入信息,分析信息特征,寻找这个特征对应的操作,其实本质上还是模块。引入AI不过是在最后一个模块中不再人工产生对于动作,而是用机器学习。
感謝Jackson, 長知識了我看到這些Model X影片,就知道是Jackson的頻道了
現在的華為ADS 2.0其實是什麼架構? 將來的ADS 3.0又是什麼架構呢?
纯视觉目前就是不如sensor,因为现在的摄像头用的也才几百万像素。想要实现人眼这么清晰,需要达到5.76亿像素才行。不然现阶段就还是先用sensor配合摄像头比较好
讲的很好,就像我以前学车一样,跟公司的老司机出去,我就学那些老司机怎么开车,有什么特点,自己学,后来学车时候都是一把过
驾考是死的,正常人还得按照驾校教的那套来。不然老司机来了也有可能过不了,何况是实际上手几十小时的新人
我已经跟我闺女说好了,等她过几年学了驾照,开始开车上学的时候,我就给她买个FSD的车,再怎么样也肯定比她开车靠谱的多😂
😅人才
講得太棒了,清楚易懂👍
你视频里说毫米波雷达没法穿墙是不客观的,信噪比会下降但的确是可以穿的。毫米波雷达经常能看到前方排着队的很多辆车。即使是在完全遮挡的情况下,在鬼探头的情况,行人作为一个运动物体,雷达其实是能够更早的捕捉到这个运动。毫米波雷达其实是一个很好的信息补充,特别是在极端天气下。
你的理解是錯誤的。第一,對於橫越馬路的行人這個運動物體雷達是無法辨識的,因為橫向運動無法產生多普勒效應,無法偵測物體是在運動狀態。第二,毫米波雷達的解像力很差,尤其是在穿越車車輛空隙所產生漫射與干擾,根本無法正確的辨識一個完整的人。更何況要早期辨識出行人的一隻腳及局部,那幾乎是不可能的任務。這樣的情形就算是解像力高出一截的激光雷達大概率也辨識不出來。
@@brianforest 这取决于雷达的安装角,不是所有雷达都是面对正前安装的,只要有非切向速度就可以被检测到。你说的“解像力”也就是径向分辨率和角分辨率,径向分辨率是取决于设定的雷达最大距离,取样率,以及带宽,角分辨率取决于天线的数量和间隔。雷达可以做得很大,甚至级联芯片来做到很高分辨率,但就是和成本的取舍。不能说雷达就是比不上,抛开成本说效率肯定不客观,技术进步了雷达也是很有希望的。
@@zhehuang7130光達LiDAR 不單是LiDAR 單元的成本考量而已,還有後端電腦的算力要更多、消耗電量也增加光是解算極高分辨率的雷達回波又要匹配電腦要足夠的運算力,還要處理雷達回波和Camara影像的融合感知的時間同步,這是融合感知棘手的問題與成本又要消耗運算力
@@jamescooper777 光雷达和毫米波雷达是两种不同传感器。我们讨论毫米波雷达的话,一般来说雷达系统里面会有一个处理器,专门用来处理电平信号,然后给PC端的就已经是点云的数据了。要说算力对比的话用HD Camera一样每帧也要处理很多像素,其实运算上没你想象那么大的差距。然后帧对齐的话以前都是用时间戳有时还得插帧,现在帧率都上来了以后直接统一trigger就好。
错的地方多了去了。即使感知模块跟决策模块分开,决策模块也是可以使用传感器融合后的数据进行训练的。这个博主说的好像不搞图像到控制的端到端,就不能使用神经网络似的。
讲的太好太明白了。牛
谢谢分享,听完了觉得v12好危险,你必须相信那个端到端的大脑。不了解它的学习过程,我是不敢开,也不敢做的。不想做机器学习的小白鼠,用自己的生命去给机器训练corner case。
他这个视频只要不能证明视觉>视觉+雷达就是白扯,如果要考虑成本,不用自动驾驶成本更低。不出事故的老司机可能一年没开几次车,或者路况一直很好等等,仅此而已。其实说再多都是扯,美国现在开启自动驾驶的人有多少,比例多大?事故率怎么样?扯技术有啥用?
英文很難我知道 但是都有chatgpt了丟進去翻譯沒很難😂😂
讲的好,通俗易懂
其實真正開車還有開車經驗以外的經驗和技術,就是AI學所有老司機以外的一些開車的各種情況,舉個例子:有時候,開車的時候,再某些情況為了要解決一些問題不得不做出常理以外的操作,就像AI會因為路上有人搶劫或為了要幫忙什麼事情把車在安全範圍內擋住某個路面的地方?AI會因為路上有些騎電動車的不文明行為突然對他警示甚至不讓?有些地區路面路況差甚至有尖銳的不易察覺的邊緣,正常行駛會對車不好,令可繞路,有的地方地下污水橫流,那,,,“味道”簡直無法形容,快速經過怎麼洗車洗的乾淨?人類就可以聞到,而下雨時,AI能判斷是路面雨水橫流?還有,有時候路上一些不文明司機,怎麼去應付?怎麼判斷對方不是故意還是看手機或者真的不是故意的?能通過時,從側窗看一下裡面司機表情和乘客知道大致原因嗎?突然刮風是否不必要經過一些地方還有太多太多了,不便敘述,這些都和開車技術和經驗無關
還有一個,神經網絡Ai系統會注意到車內部什麼的情況,並非車身故障系統可以檢查出來的問題而停車查看?比如說貌似車後備箱或底盤有什麼東西卡住發出聲音,車再不小心沾了什麼在晃動等等,細鐵絲,,,積水雖然不深但是有一攤,但是前面有個高點的減速帶,旁邊公交站有人,趕時間開快了就直接把水濺到人看到某些特殊車輛是否要繞過:能識別豪車?能識別前面園區保安臨時指揮?還有路過一些農村鄉下,即使兩邊有人站著因為某種風俗,最好也不完經過,要倒車先從別的地方走等等
simple and powerful explanation :)
视觉是否包括雷达?雷达是否会补充视觉?特斯拉不用雷达是为什么?特斯拉以后会用雷达吗?
大神讲讲神经网络的架构和训练吧!谢谢
很多关键的地方说的就过于理想化了。你说的这些庞杂的路况情况,神经网络也不一定能搞定,马斯克又不懂自动驾驶。而且工程师还没有办法进行具体优化,只能继续大力看看有没有奇迹。
可以补充一点端到端相比模块化的不足吧,我理解模块化的过度也是需要的吧,而且端到端深度学习是黑盒训练,也会存在一些自动驾驶层面的其他风险吗?
某鹏据说也放弃了雷达,该用神经网络,那他又没有超级计算机,他要如何实现这个学习的过程?谢谢
坐等老马开源
@@blazetank 他没有超级计算机 开源也没用啊
感謝分享, 解說得很好!
天生视频UP主,天赋!
自動駕駛肯定要使用A I發展的途徑很多,不要自以為是。
很惊讶这个视频会有 100+评论 座位一个 有2000+ 订阅的博主 我给这条视频几点 负反馈1. 视频提到 摄像头可以做到所有信息, 信息不浪费 喂给AI 学习 。 这简直是在胡扯, 特斯拉的8个摄像头 捕捉的视频内容 本身就需要缝合拼接,摄像头镜头本身就是鱼眼 图像是畸形的。 所以 抓取回来的视频肯定是有信息丢失的。 其次你说AI 通过学习视频 看什么车窗反光镜 提前预判鬼探头刹车, 这更是胡扯, 当前摄像头的画质清晰程度根本就达不到, 就算达到了, 图像在做本地端上AI 推理计算的时候必然会压缩,而且更具这个就觉得 会是一个关键的像素标记点 真的对图标标注很业余。2. 视频提到自动驾驶的终极路线是视觉。 这个目前只能说目前视觉方案稍微领先, 相比对于激光雷达而言,雷达带来的数据 不但有精准的大小数据 还有距离 和 时间, 而且是三维一体的。 如果全部通过摄像头来做 也不是不可以, 那就回到1,你有没有能力 通过纯摄像头 同时拿到 物体大小, 距离, 时间, 特斯拉 通过 BEV 娘看模式+transfer似乎准确率在不断提高, 但还是那个观点, 姚明能灌篮,不等你你能灌篮。 汽车的安全只有 0 和 100% , 无限接近的99.99999999%没有意义3. 把1亿个司机的开车视频给他看,他就会了?????如果选出这1亿个司机室标准的好 且 守法的司机。 先让AI 看10一亿个好司机 标注了 然后回来喂?4. 人确实是靠眼睛来开车,但是不能成为 纯视觉就是自动驾驶解决方案的充要条件。 按你这个逻辑, 早期的飞机 都靠人眼,那战斗机为啥后面还要上雷达?不要一味迷信马斯克, 作为一个大V 博主, 可以有自己的观点, 但劝你 善良。
123 说的都不对,第四更是离谱,这个世界上最离谱的比喻就是飞机了,请问车需要在几马赫的速度行驶的同时发现几公里外的目标吗?能举出这个例子来你其他的问题我连理都不想理你了,完全没脑子。告诉你如果飞机在 120 公里以下飞行并且周围全是遮挡只需要看三百米之内,他也不会用雷达
首先魚眼鏡頭校正根本不是給AI的任務再來calibration 根本是做爛的問題而且你很怕拼接不好的話你會增加各鏡頭感知範圍再去除邊角料後再去處理圖像壓縮?你是買不到卡只能用1050跑嗎?後面這機率說明簡直民科都不如高中畢業沒?
0和100%, 这么可笑的说法,大概是幼儿园学算术的水平
继续按照这个模式加油💪
是我见过的最容易懂而且相对比较精确的科普了。但是还是有几个问题想探讨下。第一个是关于用两个或者多个网络算不算端到端的问题 这个我个人认为其实是要细分的,最简单的分法是看梯度能不能在两个网络之间传递。如果可以的话我认为本质上还是一个端到端的系统 是具有基于训练数据持续学习的能力的。第二个问题是关于激光雷达对训练是不是必要的。我承认开车不需要精确的距离。但是激光雷达提供了一个距离值的ground truth 我认为这对神经网络训练是有帮助的。直观上讲 神经网络不需要学习如何从像素推断大致距离了 这降低了学习任务的难度 进一步有可能降低训练的成本 原本需100M次迭代才能达到的效果加入雷达之后可能50M就达到了。因此从这个角度我认为激光雷达不一定对端到端训练没有帮助。 考虑到目前激光雷达成本已经比之前低了不少 加入激光雷达点云数据做训练我认为也是一种可以考虑的方案。第三个是视频里一直强调的的一个观点:端到端的训练过程是让网络学会特定的像素分布与特定操作间的映射关系。 这个观点本身我也是认同的。但是在这个过程中网络是有可能学习到错误的映射关系的 而且这种可能性还不容忽视 距离来说 近期有一些人发现穿着印有特定花纹的衣服可以拦停一些自动驾驶的车辆 就是典型的网络学习到错误映射关系的案例。 尽管理论上可以通过增加训练数据去让网络逐渐学会正确的映射关系 但是conner case的稀缺性和训练成本也是一个很大的问题 Elon Musk 也在抱怨说现在真正对特斯拉训练有价值的数据越来越少了。 虽然这条技术路线要比之前模块化的解决方案走的要快要远 并且能够达到可以商用并产生价值的要求 但是我对这套方案能够实现L5级别的自动驾驶还是怀疑态度。
博主不懂就硬吹特斯拉。激光雷达加摄像头的方案会先做传感器融合,送入下一层的数据是融合后的带有色彩的3D模型。然后决策网络可以使用融合后的数据进行训练,融合后包含的信息比纯视觉信息只多不少,需要的神经网络的规模也会降低。特斯拉只保留摄像头是在赌纯视觉可以实现lv3或者lv4。因为特斯拉首先是要把车卖出去,能不能实现自动驾驶是次要问题。而对于waymo这样的企业它们只考虑实现自动驾驶,所以可以容忍在传感器上花费更多的成本。
不管内部几个模型细分,我认为只要人为控制不了中间结果就是端到端。否则不是
你也说了送到下一层是融合后的,融合这个过程细节已经损失了
@@JacksonSHR 摄像头加其他传感器融合后的信息一定比单纯摄像头的信息丰富。博主不懂就别胡说八道误导观众了。
@@Guavaava 丰富有 P 用你利用不起来,全是浪费,现在光一个视觉都没玩明白还在搞白名单,就谈你以后多丰富,这不逗呢吗?你加一百个激光雷达最丰富为啥不加满?车上有空余位置,不加是因为没良心吗?
纯视觉方案只是车企的最优方案,而不是消费者端的最优方案。车企在成本和辅助驾驶方面做出妥协后最优方案是纯视觉。不论AI训练多发达,纯视觉方案的天花板远远低于激光雷达方案,这是先天决定。
博主应该提高一下字幕的美感,像是剪映做出来的。😂
那要如何避免端到端的神经网络在海量的视频中自动学习到不好的驾驶习惯呢?
这型视觉AI技术演算 为何只用在FSD ? 我国家几百年都不可能开放, FSD对我来说是垃圾, 但这个技术可否用在 主动介入避险功能呢? 比方说后面一辆车杀不急 要撞我屁股了, AI 这时候主动介入 帮我闪去旁边 避免了屁股被撞?
我觉得也要搞个雷达或者红外线热成像吧或者夜视仪,万一那天黄沙漫天,乌漆麻黑异象丛生直接眼瞎了
作者其实并没有具体了解过最新的激光雷达路线的实现。现在主流车企的激光雷达主要是对纯视觉识别困难的情况的一个补充,而不是单纯靠激光雷达进行测距。
你其实没看明白我的内容,我的意思是视觉不需要补充
那請你把21:17的影片長度在看一次,這時間是讓你聆聽解說,不是讓你吃爆米花的
激光的補充就是測距 激光的資料量很少 無法辨識形體他無法補充距離以外的資料 因為其他部分視覺都明顯更好
@@waffenss1234567激光雷达是可以给出周围空间的物体的形状的,跟摄像头数据融合后相当于给了摄像头每个像素在空间中相对于车的位置,当然你要说只是测距也算说得过去。
如果路面上的桩桶或者指示牌和市政设定的比例不一致的话,FSD会出现距离误判的对吗,比如市政桩桶高度是1米,有个熊孩子离老远放了一个2米高的充气桩桶,视觉信息上是相当的,其他环境元素也都按比例缩放,那FSD就傻了对吗
14:00 关于这个路政人员挥手的问题,我再想,如果前车追尾导致事故,挥手的不是路政人员,视觉系统能不能判断呢。如果能,那会不会随便一个人挥手都可以影响自动驾驶?如果不能,那对于某些特殊服装路政人员的情况是不是不能识别呢?
你好,请问是不是可以理解为传统自动驾驶用的是if else(把所有情况遍历过),但是特斯拉的是使用无监督学习但是遇到情况足够多了自动增加label
感谢 Jackson 的分享,受益匪浅!我有一个问题,是关于验证的。假设当前版本在某一个特定的路况下会产生接管,我理解 Tesla 应该会拿这些接管的视频去做训练,对于端到端来说,该怎么在训练后去验证,确保 FSD 下一次遇到这种情况能做出正确的决策呢?
一龙最近说端到端现在最大的问题就是,就是有些接管需要很多miles/时间 以后才出现,这种极低密度的样本,其训练的效果是有限的,而且不同的端到端版本之间,很难说是哪个好。
可以设置仿真场景验证,还有去道路测试找相同场景,以及推送给内部用户收集数据?
为什么视觉(特斯拉FSD)>视觉+雷达(华为ADS3.0)?
就喜欢这种用最通俗的讲解让普通人一下子明白了最新科技的技术含金量,这种视频更大的意义我认为是让大陆的普通人再也不会被国产新能源企业虚假宣传忽悠了。
transfomer 神经网络有一个最大的问题,基于注意力的方式那就不会追寻最正确的答案。不信你会发现现有的大模型参加的考试,都不会有考满分的情况。人类开车时或许有一些问题时,可以通过常识或者本能来处理,但是大模型一旦出现问题,可能会很可怕。
包进一个黑盒就万事大吉了吗😂
如果你可以證明出白菜一定比青菜好,我就相信視覺比雷達好。
很好奇優良駕駛要怎麼篩選出來呢或是糟糕駕駛要怎麼去除呢
以Tesla而言,它車上有充足的Log記錄各種操作行為和車體移動的動態,有前視Camera不斷錄影,車內有看著駕駛行為的Camera,從Log中和行車錄影就能先篩出一批中性的安全駕駛老司機至於怎麼知道怎樣的Log和哪些錄影值得採用? 這在機器學習實務領域從2014年至今也已經有「自動標註auto labeling」的軟體技術和工具,大量協助標注員和訓練師挑選訓練材料
人驾车都会有一些违规行为,那AI能判断出来吗?还是会把这种行为也学起来
目前的FSD 12.3就已經會變通,在紐約曼哈頓時代廣場這種狹窄道路,腳踏車、人力三輪車、4人協力車、貨車公車都有,Tesla FSD V12也是沒在看車道線的,要擠大家一起擠,不會擠輸人,不會傻在那邊😂例如雙線道路邊有車臨停,只剩半個車道寬,它看對方沒有來車,就會不減速自己直接跨線繞過去我猜沒有人會遇到違規停車不是這樣繞過去吧?
FSD搞定印度搞定中国可得天下。
特斯拉人类驾驶员的驾驶会被评分,90分以上的优秀驾驶员可能才是给AI学习的
说得非常
如博主这么说,这个AI司机就永远毕业不了,会永远在学习过程中,且永远没有毕业的那一天,也就是只能试用,却不能得到应用😂
????就算开了10年的老司机敢说自己毕业了吗???
学习了 感谢
原来看你的视频觉得特斯拉的fsd12.3版没问题,结果自己试玩发现没有红绿灯的路口,或者有红绿灯但车多,明显发现驾驶有问题,而且突然减速问题我都碰见好几次了
这类视频要直播才有说服力,因为视频可以选择对自己有利的发出来,就算一镜到底的视频也可能只是发挥好的视频,那种剪辑过的视频更加不能信。
你可能没有用过FSD,我有一辆特斯拉,特斯拉今年给所有北美用户一个月的试用。我试用之后得出的结论就是,自动驾驶时代的确已经到来。不要怀疑。
纯视觉最后的尬吹。 特斯拉自己的HW4.0都已经预留了雷达的位置。 FSD命名也明显分成了Unsupervised and supervised, 很明显将来L2也就是高阶辅助驾驶是纯视觉方案, 而L3及以上的使用雷达甚至更先进的传感设备是必然的选择。
感谢分享硬核知识,一个小问题,就是已现有的HW3的摄像头分辨率来说,能否真正实现对前方施工人员手势的判断,或者旁边线道车内人手势的判断呢?因为HW4 的摄像头分辨率是有大幅提高的,HW3分辨率连no turn on red的标识都未必看的清楚,如果是个很大的路口的话。 HW3也能实现最终的自动驾驶吗?
复杂场景只要算力够即可,距离远近有关,所以不要买hw3.0 车子
HW3应该可以实现自动驾驶,因为运行模型并不需要太高的清晰度。就如同很多近视的人一样可以开车无事故。
纯属瞎扯 我觉得要能够真正实现自动驾驶 要让机器能够理解我们真实的物理世界 物理规律 那个时候 也到了AGI 时代。所有现在离自动驾驶还很远的路
首先应该承认机器学习从影像中提取知识的能力已经超过了人类,所以端到端训练会强于人工编程出来的系统。但是,神经网络模型的可解释性也很重要,它能够大幅增强人类对AI自学模型的信心。而且我不认为让FSD学会解释自己理解的世界是很难的事情,毕竟LLM在这方面很成功了。所以xAI对FSD很重要,而FSD也有助于xAI理解世界。
LLM 也没理解,你觉得他理解了,实际是简单的映射,你输入文字映射到回答的文字上,没有理解过程,条件反射
GPT 才是 Generative Pre-trained TransformerLLM是语言基础模型映射到文字,还需要merchine and deep learning ,完全学会理解人类物理世界不是这样容易,端到端学习不是车机上ai 芯片算力做得到。
@@JacksonSHR LLM看上去是简单的映射,因为他是基于前半段句子内容来预测下一个单词。但仔细想想,LLM的映射的基础是嵌入,而嵌入本身就需要对训练数据集的理解和抽象(香港大学马毅教授所谓的“压缩”)。特别是多模态LLM,有助于实现对世界规律的理解,建立真正世界模型。至于推理预测的模式,无论是当前这种基于上下文的预测还是所谓的白盒模型算法,都不重要。因为这些只是对于世界模型中所存储的信息的提取和解释方法。仔细想一想我们人类的智能思维模式。我们也是先通过观察来理解这个世界,并在脑海中建立起抽象信息(如好的、邪恶的、可靠的等感觉),然后通过将这些概念同特殊的语言词语连接来交流。各种语言有不同的语法顺序,但并不影响我们解释自己的世界观和预测。同样,LLM AI的核心在于其基石模型在多模态时代已经越来越具有世界模型的潜力,虽然其推理方法还很原始(基于前几个tokens来预测下一个token),但有效就行。人类可以通过肢体比划来交流,LLM总不会比这更差。
@@horngbill6010 你说的没错,GPT是AI的核心,但是LLM提供了人类同GPT进行交流的接口。仅仅靠道路视频显然无法理解人类世界,这就好像二维世界的蚂蚁(都是瞎子)无法理解三维世界,人类无法理解看不到的红外光、超声波所展现的世界形态,我们所感知的都是局部世界。同样FSD理解的道路世界也是一种局部世界,FSD AI能够将这种局部世界的信息进行压缩并形成抽象的概念和规律(这个局部世界的NATURAL LAW),这同人类对可观测世界的理解方式并无不同。当然,处于更高维度的人类如何理解FSD的世界观是个挑战。另外,我并没有说每辆汽车可以自己训练AI。但他们都可以推理和通过LLM来解释当前AI对当前路况的理解。
希望看更深入讲解
能不能出一期晚上开车光线不好的视频,全是白天的
特斯拉的训练结果会成为自动驾驶的ChatGPT, 其他厂商买其服务即可!
你是说蝙蝠的雷达不行?
看完了,完全不懂,根本提不出问题,只能持续学习。 可能是我想的太简单,也可能是我想的太复杂
很棒的
为什么不是视觉+雷达 >视觉呢?
因为1+1>1是一定的,双系统的优势不容置疑。只不过tesla坚信视觉可以胜过雷达。
讲了半天细节浪费 是一点没有听进去
兄弟,请问怎么评价23款S/X谜一般的前视雷达存在的目的和作用,或者曾经/未来的作用?
配合主动安全监控 FSD 行为
长尾问题如何解决
看明白了,就是發展到了V12,才發現V11還是有原則性的問題,總結是自動駕駛一直在路上…
能不能先把电池的问题解决一下
請問您提的電池問題發生什麼事?謝謝
我只说两点1、视觉 不强于 雷达2、中国普遍采用的是 视觉+激光雷达+毫米波雷达
多从生意的角度考虑,少从技术的角度考虑,你就想通了
华为智驾是V11那种?
上述明顯告訴所有人你是測試自動駕駛的白老鼠,但沒有盡頭。
等等,請問已經確認特斯拉的FSD是感知到決策一進一出的完全端到端了嗎?聽大劉科普是說只有決策是端到端🤔
确认,大刘的理解有误
@@JacksonSHR 感謝解惑👍
定义上不同,不能说对错
@@horngbill6010 求解釋,目前理解是下面這樣,怎麼個定義不同法?端到端:視頻->模型->執行非完全端到端:視頻->感知模型->感知結果>決策模型->執行
端到端是属生成式.AI 一种,使用超级电脑进行大数据资料训练基础模型(Foundation Models),以少量的数据进行基础模型的微调,车上专用神经网络芯片执行此需求,由输入端到输出端的驾驶指令稱端到端。
就看特斯拉什么时候能看懂对向女司机开打雨刮器是什么意思了,那个时候就有些神奇了
專業
雷达的上限很低,视觉的上限很高。
It's like LLM, pixels are like tokens...
牛逼🎉
AI对信息的感知和解释能力非常低,需要大量数据训练才能勉强接近人类,端到端将v11的输入和输出进行了系统的连续化,在相同训练资源下v12的输出并不更准确而是更全面,v12相对v11没有本质提升,而且需要更多数据
有没有可能分两个神经网络 第一个神经网络可以把没有意义的干扰信息去掉 第二个神经网络只去学习有特征的信息 这样既准确又节省了算力?
第一个神经网络如何判断在任何情况下什么是有意义的什么是无意义的?如果他永远的能判断正确,那还需要第二个神经网络干嘛用?
@@JacksonSHR 为什么要只给神经网络喂视觉数据呢,人开车的时候只有有限角度的视觉,还有听觉辅助。所以同时给神经网络喂视觉,雷达数据应该也可以,模型训练速度可能会加快
@@andychen2261 人需要听觉是因为人不能在看着前方的时候再看着左右后
@@JacksonSHR 特斯拉的问题是它没有视觉与雷达融合的数据吧,所以就只训练视觉数据
@@andychen2261 加入雷达会增加模型复杂性,当车减速的时候权重对应到雷达还是摄像头需要 double 训练投入,但是其实并没有得到额外收益,因为雷达能看到的摄像头一定早就拍到了,所以意义不大
明显是错误的。一切都是因为美国没有雷达的产业链。就问一个最简单的问题:纯视觉方案好还是多模态方案好?
你不用问,你过五年看看是不是全变成纯视觉就行了,搁置争议等着你自己就会看到的
鬼扯视觉大于雷达 说的好像雷达不会建模似的 雷达只是更清晰 视觉是平面的雷达是立体的 视觉挡住了就无法解析 雷达挡住了也可以解析 所以雷达更安全
雷达的基础是视觉 视觉都做不好 谈论雷达纯粹是外行
厉害厉害,追加特斯拉感谢博主
兄弟,你真的很适合当trainer. 之前无意间看到你一期节目就开始关注你,到现在这期感觉你水平又提高了好多。我看过很多讲解端到端技术的博主,但你讲的真的深入浅出,一听就是内行,让人对端到端技术充满信心,说实话,我听得有点小激动.我就是单纯喜欢特斯拉的技术和愿景,作为一个投资美股多年,去年最高盈利100%,结果被特斯拉一只股票拉低到只剩不到30%,但还是没卖一股的小散来说,你应该能明白我为啥看到你的视频会有点激动吧,哈哈. 能把复杂的东西讲得这么简单,真是难得的能力。加油,继续发布好的视频!
确实,这位博主也是我见过讲FSD中讲得最好的❤
他讲的其实很多并不准确。。
他这个视频只要不能证明视觉>视觉+雷达就是白扯,如果要考虑成本,不用自动驾驶成本更低。
自动驾驶真的智能了,早上送你上班,然后它就去自己跑滴滴了,兴奋吗😂😂@@yanfang999
………………送你一句话:吹牛逼都好得很,the evail is in the details.
对激光雷达的优势错得厉害. 他不只是精准测量距离 还可以测量很远的距离 “很远”是重点 比普通摄像头强三倍距离. 在高速行驶时,这个优势是非常有用的.加上激光雷达可以在天气恶劣的情况下看得比摄像头清楚很多 例如大雾,下大雨下雪等等 我觉得未来应该是用激光维达加上摄像头加上机器深度学习 完成Level Five的主动驾驶
所以你的设想【完全自动驾驶】后面要加上超能力的,基于人类无法正常驾驶的情况下,比如大雾下大雨下雪这类极端气候,“激光雷达”PLUS“摄像头”还能发挥作用??!!。为什么?这不是悖论吗?好好开车和不要开车是两种情况,不需要有超能力啊。天气极端的时候,路上是没有车的。
目前没有算法把视觉和雷达觉融合,用雷达的厂商都是使用的历史遗留。 不过一旦有算法融合雷达觉, 可以比较容易的合并进v12的模式里。 不过按交通法规来说,纯视觉已经足够好了, 足以超过绝大多数人类驾驶员。
並沒有⋯激光雷達受惡劣天候影響是很大的,毫米波雷達才可以穿透你說的那些東西;然後激光雷達標榜可以看很遠,但有可能遠的東西看不出來是什麼,因為點太稀疏了,視覺其實用一個長焦鏡頭,遠也可以看很遠⋯
@@okldr無論視覺跟激光雷達或毫米波雷達融合都是最早期的技術⋯早期視覺深度訊息不準或無法取得,都是用這兩者融合補足深度訊息的
@@user-Ivan_Chan 不只是极端 可能只是一点点rgb 以径不行了
up,建议对比一下极端天气条件下,视觉与雷达的区别。
端到端指的是输入是原始数据,输出是最后的结果。在整个学习过程中,不进行人为的子问题划分,完全交给深度学习模型直接学习从原始输入到期望输出的映射。
而非端到端呢,就是输入不是直接的原始数据,而是在原始数据中提取的特征(如feature),这一点在图像问题上尤为突出。因为图像像素数太多,数据维度高,会产生维度灾难,所以原来一个思路是手工提取图像的一些关键特征。
可以解释一下传统的cv跟控制系统分离的架构。这个历史讲清楚了就比较好理解了
這個視頻很適合丟給還不太懂AI有強大的人看,感謝分享
其實模塊化有個淺顯易懂的例子,要是你開車的時候是閉上眼睛聽副駕告訴你前方有什麼東西來進行決策的話,我看你還能多好的開這趟車,不車禍也難。
想像用 fsf v11 开车多可怕
所以v11不適合無人 必須人類全時用眼睛雙手隨時介入
@@waffenss1234567 v12 系統有 bug,需要專注前方路況,免得反應不及。
12:50这里老司机的举例感觉不太恰当,再有经验的司机也有少数没遇见的情况,比如上个月的夜间高速坍塌,死亡几十人。你就是开了一百年的车,该看不见还是看不见,而激光雷达就是为了应对这种极端场景。
后续拿雷达比喻成新司机,更是不妥。
在现阶段自动驾驶还不成熟阶段,鼓吹纯视觉方案,有种特斯拉精神股东即视感。
你的意思是激光雷达能预测高速坍塌🤔 ?
@@kevinlai4542 激光雷达,低照度环境下几十米外的深坑还是看得见的。
不知道你怎么理解成预测高速坍塌。
任何理解基本物理的人都知道,无论是视觉的摄像头,还是激光雷达或者毫米波雷达,都会有自身优势和缺陷。这些都是自动驾驶的眼睛。
而AI算法和算力是自动驾驶的大脑。
眼睛不好,大脑再强也有极限。同样高水平的大脑,眼睛强比眼睛弱好,在特别情况下更是如此。举个例子,小雨天对面开了远光灯,对摄像头是致命的。大暴雨沙尘暴对激光雷达和摄像头都要命,但是4D毫米波雷达就还好。
所以为特斯拉辩护的人,我想说,你可能只是入教了,迷信了。
相信特斯拉单视觉比雷达+视觉更强的人你就别跟他解释和聊天了,因为他们连基础的物理学都不懂。
咋可能啊,激光雷达又不是神仙 ,也有分辨率的,也要有训练场景的。
视觉>雷达,但是视觉<视觉+雷达
自動駕駛需要的是預判不是精準,預判的安全是遠超精準的,預判提前減速就可以避免事故發生,而不是去考驗激光雷達的精準配合硬體的煞車性能來避免事故。
讲得太好了,自动驾驶是神经网络ai的一个应用,因此也明白了为什么英伟达股票大涨
神经网络和雷达不矛盾。雷达可以补充视觉方案看不到的信息,神经网络的一切优势都可以在雷达信息上应用。特斯拉不用雷达我认为就是为了省钱,马斯克在这个点上有些偏执了。但考虑到做出这个决策时激光雷达确实又大又贵,也可以理解。
那為啥不再多裝一組camera就好😂
360 lidar必要性已經被tesla證明在自駕認為中可以捨棄了
lidar只剩可以寫死的corner case有點用
但那種也不需要lidar了浪費錢
一般雷達就好
喔對了lidar和雷達是不同東西
雷达是整个实时路况地图的输入参数,因为成本不用激光雷达,现在特斯拉是有4d毫米波雷达
其實路上道路坍塌、天坑,需要人們提出需求讓科技廠商研發預警科技,這時候這種設備也是會出現在市場上,是汽車選配可以自己加錢裝。道路上出現坍塌、天坑的問題這是相關管理單位的責任,端對端的純視覺自駕對標真人自駕,真人躲不掉路面的缺陷,特斯拉自駕也一樣躲不掉,若真需要裝雷達,雷達版特斯拉會是一個選配吧😅
真的,純視覺最多也是做到人類程度的失誤率,但一般人對自動駕駛的要求必定更高,所以在大雷雨 濃霧 地形崎嶇 黑暗視線不佳 的狀況下,視覺不足以駕駛時,用雷達或甚至用3D雷達搭配影像辨識,大概才是大眾的期待,但這樣開發時間更長,特斯拉股價會沉浮更久😂😂
@@allenclue意見很專業!是從事科技業的人嗎?
精彩!唯一一个看了2遍的视频。
4D毫米波雷達 遇上 大雨/大雪/大霧 行駛 都能完美偵測
純視覺 "做不到"! !
遇到障礙物 自動煞停 只要大撞一次 一次就好
你足夠買4D激光雷達了或4D毫米波 或 4D激光雷達的意義在這
再過10年 旗艦車機晶片+變態算力強大NPU 搭配數千萬台麻豆車輛 即時大數據反饋
能輕鬆應對路上各種狀況
純視覺才真的可靠起來
把全品牌 通聰車聯網 共享視野 共享車況 及時連上即時數據
台灣路給台灣車主用
日本路給日本車主使用
這樣才是LEVEL5 全自動駕駛 的極致
感谢您的分享,我在大学学到神经网路的就是这个原理,但是您可以从工程师的角度分享这背后实现的细则,我会推给任何想要了解fsd的人
如果遇到大雾的天气,纯视觉方案都看不清了,怎么保证自动驾驶呢?雷达方案能够精准测距,反而能够提前识别到风险,所以是不是 纯视觉
有一个点不同意,不管是激光雷达还是毫米波雷达甚至以后的麦克风捕捉的声音都可以送到端到端系统训练,阻塞因素在于成本和可靠性,而不是架构上不需要。
兄弟说得都没错, 理论上更正确,但我今天在过一个有故障的路口时,有警察在指挥,车很多,我也不是第一辆车,在让我这个方向的车流开始移动时,并且我前面的车和我都是要直行通过路口,但我的车却停下了,应该是把警察当成行人了😅
不管是v11还是v12,我从来不觉得特斯拉在技术层面和实际效果上做到比人类司机开得好会有问题,但是问题在于端到端模型的不可解释性如何说服法律和监管机构😂
非常清晰易懂!持续关注。
路政的那个例子讲的非常好
感谢大佬
抓到野生大佬
今天fsd 12.3.6在我车上犯了三个很傻的错误 一次是在停车场corner高速前进丝毫没有看到转角并且减速转弯的意思 另一次是在空无一人的停车场转角停了十秒不知道该往哪里走,第三个是map data明明说要出停车场左拐但是试了三次他都偏偏右拐。这让我感觉fsd v12根本没有推理能力 完全是靠模仿人类驾驶 也就是elon说的reason by analogy而不是fist principle,一旦遇到没遇到的情况他就不会了,而不是通过以往的训练数据去推理,这么简单的没有人的停车场都可以卡住🤣稍微有点推理能力就该知道往哪走啊
V12还是reasoning by analogy,他是总结规律而不是真正的从first principle去理解为什么要这么开,fsd必须要融入LLM来补充逻辑推理这一块短板
整个视频里提到,摄像头的输入信息细节是最多,也是非常好,完全从源头,说出了传感器融合方案的缺点,看似做加法,其实是巨量的信息丢失
路政这个例子真的很好,就像现在国内疯狂推的萝卜快跑,交警在旁边指挥都完全没用只会傻傻的停在原地等待后台远程操控,要是AI的强大学习能力就没有这种问题了
雷达存在的意义不仅仅是为了测距精确,更重要的是在摄像头无法正常工作的时候起到双保险的作用。比如强逆光,进出隧道,能见度低等情况。实际场景中硬件是不会始终处于完美工况下的。
我觉得目前的人工智能还没有真的达到智能,而还是捕捉输入信息,分析信息特征,寻找这个特征对应的操作,其实本质上还是模块。引入AI不过是在最后一个模块中不再人工产生对于动作,而是用机器学习。
感謝Jackson, 長知識了
我看到這些Model X影片,就知道是Jackson的頻道了
現在的華為ADS 2.0其實是什麼架構? 將來的ADS 3.0又是什麼架構呢?
纯视觉目前就是不如sensor,因为现在的摄像头用的也才几百万像素。想要实现人眼这么清晰,需要达到5.76亿像素才行。不然现阶段就还是先用sensor配合摄像头比较好
讲的很好,就像我以前学车一样,跟公司的老司机出去,我就学那些老司机怎么开车,有什么特点,自己学,后来学车时候都是一把过
驾考是死的,正常人还得按照驾校教的那套来。不然老司机来了也有可能过不了,何况是实际上手几十小时的新人
我已经跟我闺女说好了,等她过几年学了驾照,开始开车上学的时候,我就给她买个FSD的车,再怎么样也肯定比她开车靠谱的多😂
😅人才
講得太棒了,清楚易懂👍
你视频里说毫米波雷达没法穿墙是不客观的,信噪比会下降但的确是可以穿的。毫米波雷达经常能看到前方排着队的很多辆车。即使是在完全遮挡的情况下,在鬼探头的情况,行人作为一个运动物体,雷达其实是能够更早的捕捉到这个运动。毫米波雷达其实是一个很好的信息补充,特别是在极端天气下。
你的理解是錯誤的。
第一,對於橫越馬路的行人這個運動物體雷達是無法辨識的,因為橫向運動無法產生多普勒效應,無法偵測物體是在運動狀態。
第二,毫米波雷達的解像力很差,尤其是在穿越車車輛空隙所產生漫射與干擾,根本無法正確的辨識一個完整的人。更何況要早期辨識出行人的一隻腳及局部,那幾乎是不可能的任務。這樣的情形就算是解像力高出一截的激光雷達大概率也辨識不出來。
@@brianforest 这取决于雷达的安装角,不是所有雷达都是面对正前安装的,只要有非切向速度就可以被检测到。
你说的“解像力”也就是径向分辨率和角分辨率,径向分辨率是取决于设定的雷达最大距离,取样率,以及带宽,角分辨率取决于天线的数量和间隔。雷达可以做得很大,甚至级联芯片来做到很高分辨率,但就是和成本的取舍。不能说雷达就是比不上,抛开成本说效率肯定不客观,技术进步了雷达也是很有希望的。
@@zhehuang7130光達LiDAR 不單是LiDAR 單元的成本考量而已,
還有後端電腦的算力要更多、消耗電量也增加
光是解算極高分辨率的雷達回波又要匹配電腦要足夠的運算力,
還要處理雷達回波和Camara影像的融合感知的時間同步,
這是融合感知棘手的問題與成本
又要消耗運算力
@@jamescooper777 光雷达和毫米波雷达是两种不同传感器。我们讨论毫米波雷达的话,一般来说雷达系统里面会有一个处理器,专门用来处理电平信号,然后给PC端的就已经是点云的数据了。要说算力对比的话用HD Camera一样每帧也要处理很多像素,其实运算上没你想象那么大的差距。然后帧对齐的话以前都是用时间戳有时还得插帧,现在帧率都上来了以后直接统一trigger就好。
错的地方多了去了。即使感知模块跟决策模块分开,决策模块也是可以使用传感器融合后的数据进行训练的。这个博主说的好像不搞图像到控制的端到端,就不能使用神经网络似的。
讲的太好太明白了。牛
谢谢分享,听完了觉得v12好危险,你必须相信那个端到端的大脑。不了解它的学习过程,我是不敢开,也不敢做的。不想做机器学习的小白鼠,用自己的生命去给机器训练corner case。
他这个视频只要不能证明视觉>视觉+雷达就是白扯,如果要考虑成本,不用自动驾驶成本更低。不出事故的老司机可能一年没开几次车,或者路况一直很好等等,仅此而已。其实说再多都是扯,美国现在开启自动驾驶的人有多少,比例多大?事故率怎么样?扯技术有啥用?
英文很難我知道 但是都有chatgpt了丟進去翻譯沒很難😂😂
讲的好,通俗易懂
其實真正開車還有開車經驗以外的經驗和技術,就是AI學所有老司機以外的一些開車的各種情況,舉個例子:有時候,開車的時候,再某些情況為了要解決一些問題不得不做出常理以外的操作,就像AI會因為路上有人搶劫或為了要幫忙什麼事情把車在安全範圍內擋住某個路面的地方?AI會因為路上有些騎電動車的不文明行為突然對他警示甚至不讓?有些地區路面路況差甚至有尖銳的不易察覺的邊緣,正常行駛會對車不好,令可繞路,有的地方地下污水橫流,那,,,“味道”簡直無法形容,快速經過怎麼洗車洗的乾淨?人類就可以聞到,而下雨時,AI能判斷是路面雨水橫流?還有,有時候路上一些不文明司機,怎麼去應付?怎麼判斷對方不是故意還是看手機或者真的不是故意的?能通過時,從側窗看一下裡面司機表情和乘客知道大致原因嗎?突然刮風是否不必要經過一些地方
還有太多太多了,不便敘述,這些都和開車技術和經驗無關
還有一個,神經網絡Ai系統會注意到車內部什麼的情況,並非車身故障系統可以檢查出來的問題而停車查看?比如說貌似車後備箱或底盤有什麼東西卡住發出聲音,車再不小心沾了什麼在晃動等等,細鐵絲,,,
積水雖然不深但是有一攤,但是前面有個高點的減速帶,旁邊公交站有人,趕時間開快了就直接把水濺到人
看到某些特殊車輛是否要繞過:能識別豪車?能識別前面園區保安臨時指揮?還有路過一些農村鄉下,即使兩邊有人站著因為某種風俗,最好也不完經過,要倒車先從別的地方走等等
simple and powerful explanation :)
视觉是否包括雷达?雷达是否会补充视觉?特斯拉不用雷达是为什么?特斯拉以后会用雷达吗?
大神讲讲神经网络的架构和训练吧!谢谢
很多关键的地方说的就过于理想化了。你说的这些庞杂的路况情况,神经网络也不一定能搞定,马斯克又不懂自动驾驶。而且工程师还没有办法进行具体优化,只能继续大力看看有没有奇迹。
可以补充一点端到端相比模块化的不足吧,我理解模块化的过度也是需要的吧,而且端到端深度学习是黑盒训练,也会存在一些自动驾驶层面的其他风险吗?
某鹏据说也放弃了雷达,该用神经网络,那他又没有超级计算机,他要如何实现这个学习的过程?谢谢
坐等老马开源
@@blazetank 他没有超级计算机 开源也没用啊
感謝分享, 解說得很好!
天生视频UP主,天赋!
自動駕駛肯定要使用A I發展的途徑很多,不要自以為是。
很惊讶这个视频会有 100+评论 座位一个 有2000+ 订阅的博主 我给这条视频几点 负反馈
1. 视频提到 摄像头可以做到所有信息, 信息不浪费 喂给AI 学习 。 这简直是在胡扯, 特斯拉的8个摄像头 捕捉的视频内容 本身就需要缝合拼接,摄像头镜头本身就是鱼眼 图像是畸形的。 所以 抓取回来的视频肯定是有信息丢失的。 其次你说AI 通过学习视频 看什么车窗反光镜 提前预判鬼探头刹车, 这更是胡扯, 当前摄像头的画质清晰程度根本就达不到, 就算达到了, 图像在做本地端上AI 推理计算的时候必然会压缩,而且更具这个就觉得 会是一个关键的像素标记点 真的对图标标注很业余。
2. 视频提到自动驾驶的终极路线是视觉。 这个目前只能说目前视觉方案稍微领先, 相比对于激光雷达而言,雷达带来的数据 不但有精准的大小数据 还有距离 和 时间, 而且是三维一体的。 如果全部通过摄像头来做 也不是不可以, 那就回到1,你有没有能力 通过纯摄像头 同时拿到 物体大小, 距离, 时间, 特斯拉 通过 BEV 娘看模式+transfer似乎准确率在不断提高, 但还是那个观点, 姚明能灌篮,不等你你能灌篮。 汽车的安全只有 0 和 100% , 无限接近的99.99999999%没有意义
3. 把1亿个司机的开车视频给他看,他就会了?????如果选出这1亿个司机室标准的好 且 守法的司机。 先让AI 看10一亿个好司机 标注了 然后回来喂?
4. 人确实是靠眼睛来开车,但是不能成为 纯视觉就是自动驾驶解决方案的充要条件。 按你这个逻辑, 早期的飞机 都靠人眼,那战斗机为啥后面还要上雷达?
不要一味迷信马斯克, 作为一个大V 博主, 可以有自己的观点, 但劝你 善良。
123 说的都不对,第四更是离谱,这个世界上最离谱的比喻就是飞机了,请问车需要在几马赫的速度行驶的同时发现几公里外的目标吗?能举出这个例子来你其他的问题我连理都不想理你了,完全没脑子。告诉你如果飞机在 120 公里以下飞行并且周围全是遮挡只需要看三百米之内,他也不会用雷达
首先魚眼鏡頭校正根本不是給AI的任務
再來calibration 根本是做爛的問題
而且你很怕拼接不好的話你會增加各鏡頭感知範圍再去除邊角料後再去處理
圖像壓縮?你是買不到卡只能用1050跑嗎?
後面這機率說明簡直民科都不如
高中畢業沒?
0和100%, 这么可笑的说法,大概是幼儿园学算术的水平
继续按照这个模式加油💪
是我见过的最容易懂而且相对比较精确的科普了。但是还是有几个问题想探讨下。
第一个是关于用两个或者多个网络算不算端到端的问题 这个我个人认为其实是要细分的,最简单的分法是看梯度能不能在两个网络之间传递。如果可以的话我认为本质上还是一个端到端的系统 是具有基于训练数据持续学习的能力的。
第二个问题是关于激光雷达对训练是不是必要的。我承认开车不需要精确的距离。但是激光雷达提供了一个距离值的ground truth 我认为这对神经网络训练是有帮助的。直观上讲 神经网络不需要学习如何从像素推断大致距离了 这降低了学习任务的难度 进一步有可能降低训练的成本 原本需100M次迭代才能达到的效果加入雷达之后可能50M就达到了。因此从这个角度我认为激光雷达不一定对端到端训练没有帮助。 考虑到目前激光雷达成本已经比之前低了不少 加入激光雷达点云数据做训练我认为也是一种可以考虑的方案。
第三个是视频里一直强调的的一个观点:端到端的训练过程是让网络学会特定的像素分布与特定操作间的映射关系。 这个观点本身我也是认同的。但是在这个过程中网络是有可能学习到错误的映射关系的 而且这种可能性还不容忽视 距离来说 近期有一些人发现穿着印有特定花纹的衣服可以拦停一些自动驾驶的车辆 就是典型的网络学习到错误映射关系的案例。 尽管理论上可以通过增加训练数据去让网络逐渐学会正确的映射关系 但是conner case的稀缺性和训练成本也是一个很大的问题 Elon Musk 也在抱怨说现在真正对特斯拉训练有价值的数据越来越少了。 虽然这条技术路线要比之前模块化的解决方案走的要快要远 并且能够达到可以商用并产生价值的要求 但是我对这套方案能够实现L5级别的自动驾驶还是怀疑态度。
博主不懂就硬吹特斯拉。激光雷达加摄像头的方案会先做传感器融合,送入下一层的数据是融合后的带有色彩的3D模型。然后决策网络可以使用融合后的数据进行训练,融合后包含的信息比纯视觉信息只多不少,需要的神经网络的规模也会降低。特斯拉只保留摄像头是在赌纯视觉可以实现lv3或者lv4。因为特斯拉首先是要把车卖出去,能不能实现自动驾驶是次要问题。而对于waymo这样的企业它们只考虑实现自动驾驶,所以可以容忍在传感器上花费更多的成本。
不管内部几个模型细分,我认为只要人为控制不了中间结果就是端到端。否则不是
你也说了送到下一层是融合后的,融合这个过程细节已经损失了
@@JacksonSHR 摄像头加其他传感器融合后的信息一定比单纯摄像头的信息丰富。博主不懂就别胡说八道误导观众了。
@@Guavaava 丰富有 P 用你利用不起来,全是浪费,现在光一个视觉都没玩明白还在搞白名单,就谈你以后多丰富,这不逗呢吗?你加一百个激光雷达最丰富为啥不加满?车上有空余位置,不加是因为没良心吗?
纯视觉方案只是车企的最优方案,而不是消费者端的最优方案。车企在成本和辅助驾驶方面做出妥协后最优方案是纯视觉。不论AI训练多发达,纯视觉方案的天花板远远低于激光雷达方案,这是先天决定。
博主应该提高一下字幕的美感,像是剪映做出来的。😂
那要如何避免端到端的神经网络在海量的视频中自动学习到不好的驾驶习惯呢?
这型视觉AI技术演算 为何只用在FSD ? 我国家几百年都不可能开放, FSD对我来说是垃圾, 但这个技术可否用在 主动介入避险功能呢? 比方说后面一辆车杀不急 要撞我屁股了, AI 这时候主动介入 帮我闪去旁边 避免了屁股被撞?
我觉得也要搞个雷达或者红外线热成像吧或者夜视仪,万一那天黄沙漫天,乌漆麻黑异象丛生直接眼瞎了
作者其实并没有具体了解过最新的激光雷达路线的实现。现在主流车企的激光雷达主要是对纯视觉识别困难的情况的一个补充,而不是单纯靠激光雷达进行测距。
你其实没看明白我的内容,我的意思是视觉不需要补充
那請你把21:17的影片長度在看一次,這時間是讓你聆聽解說,不是讓你吃爆米花的
激光的補充就是測距 激光的資料量很少 無法辨識形體
他無法補充距離以外的資料
因為其他部分視覺都明顯更好
@@waffenss1234567激光雷达是可以给出周围空间的物体的形状的,跟摄像头数据融合后相当于给了摄像头每个像素在空间中相对于车的位置,当然你要说只是测距也算说得过去。
如果路面上的桩桶或者指示牌和市政设定的比例不一致的话,FSD会出现距离误判的对吗,比如市政桩桶高度是1米,有个熊孩子离老远放了一个2米高的充气桩桶,视觉信息上是相当的,其他环境元素也都按比例缩放,那FSD就傻了对吗
14:00 关于这个路政人员挥手的问题,我再想,如果前车追尾导致事故,挥手的不是路政人员,视觉系统能不能判断呢。如果能,那会不会随便一个人挥手都可以影响自动驾驶?如果不能,那对于某些特殊服装路政人员的情况是不是不能识别呢?
你好,请问是不是可以理解为传统自动驾驶用的是if else(把所有情况遍历过),但是特斯拉的是使用无监督学习但是遇到情况足够多了自动增加label
感谢 Jackson 的分享,受益匪浅!我有一个问题,是关于验证的。假设当前版本在某一个特定的路况下会产生接管,我理解 Tesla 应该会拿这些接管的视频去做训练,对于端到端来说,该怎么在训练后去验证,确保 FSD 下一次遇到这种情况能做出正确的决策呢?
一龙最近说端到端现在最大的问题就是,就是有些接管需要很多miles/时间 以后才出现,这种极低密度的样本,其训练的效果是有限的,而且不同的端到端版本之间,很难说是哪个好。
可以设置仿真场景验证,还有去道路测试找相同场景,以及推送给内部用户收集数据?
为什么视觉(特斯拉FSD)>视觉+雷达(华为ADS3.0)?
就喜欢这种用最通俗的讲解让普通人一下子明白了最新科技的技术含金量,这种视频更大的意义我认为是让大陆的普通人再也不会被国产新能源企业虚假宣传忽悠了。
transfomer 神经网络有一个最大的问题,基于注意力的方式那就不会追寻最正确的答案。不信你会发现现有的大模型参加的考试,都不会有考满分的情况。人类开车时或许有一些问题时,可以通过常识或者本能来处理,但是大模型一旦出现问题,可能会很可怕。
包进一个黑盒就万事大吉了吗😂
如果你可以證明出白菜一定比青菜好,我就相信視覺比雷達好。
很好奇
優良駕駛要怎麼篩選出來呢
或是糟糕駕駛要怎麼去除呢
以Tesla而言,它車上有充足的Log記錄各種操作行為和車體移動的動態,有前視Camera不斷錄影,車內有看著駕駛行為的Camera,
從Log中和行車錄影就能先篩出一批中性的安全駕駛老司機
至於怎麼知道怎樣的Log和哪些錄影值得採用? 這在機器學習實務領域從2014年至今也已經有「自動標註auto labeling」的軟體技術和工具,大量協助標注員和訓練師挑選訓練材料
人驾车都会有一些违规行为,那AI能判断出来吗?还是会把这种行为也学起来
目前的FSD 12.3就已經會變通,在紐約曼哈頓時代廣場這種狹窄道路,腳踏車、人力三輪車、4人協力車、貨車公車都有,Tesla FSD V12也是沒在看車道線的,要擠大家一起擠,不會擠輸人,不會傻在那邊😂
例如雙線道路邊有車臨停,只剩半個車道寬,它看對方沒有來車,就會不減速自己直接跨線繞過去
我猜沒有人會遇到違規停車不是這樣繞過去吧?
FSD搞定印度搞定中国可得天下。
特斯拉人类驾驶员的驾驶会被评分,90分以上的优秀驾驶员可能才是给AI学习的
说得非常
如博主这么说,这个AI司机就永远毕业不了,会永远在学习过程中,且永远没有毕业的那一天,也就是只能试用,却不能得到应用😂
????就算开了10年的老司机敢说自己毕业了吗???
学习了 感谢
原来看你的视频觉得特斯拉的fsd12.3版没问题,结果自己试玩发现没有红绿灯的路口,或者有红绿灯但车多,明显发现驾驶有问题,而且突然减速问题我都碰见好几次了
这类视频要直播才有说服力,因为视频可以选择对自己有利的发出来,就算一镜到底的视频也可能只是发挥好的视频,那种剪辑过的视频更加不能信。
你可能没有用过FSD,我有一辆特斯拉,特斯拉今年给所有北美用户一个月的试用。我试用之后得出的结论就是,自动驾驶时代的确已经到来。不要怀疑。
纯视觉最后的尬吹。 特斯拉自己的HW4.0都已经预留了雷达的位置。 FSD命名也明显分成了Unsupervised and supervised, 很明显将来L2也就是高阶辅助驾驶是纯视觉方案, 而L3及以上的使用雷达甚至更先进的传感设备是必然的选择。
感谢分享硬核知识,一个小问题,就是已现有的HW3的摄像头分辨率来说,能否真正实现对前方施工人员手势的判断,或者旁边线道车内人手势的判断呢?因为HW4 的摄像头分辨率是有大幅提高的,HW3分辨率连no turn on red的标识都未必看的清楚,如果是个很大的路口的话。 HW3也能实现最终的自动驾驶吗?
复杂场景只要算力够即可,距离远近有关,所以不要买hw3.0 车子
HW3应该可以实现自动驾驶,因为运行模型并不需要太高的清晰度。就如同很多近视的人一样可以开车无事故。
纯属瞎扯 我觉得要能够真正实现自动驾驶 要让机器能够理解我们真实的物理世界 物理规律 那个时候 也到了AGI 时代。所有现在离自动驾驶还很远的路
首先应该承认机器学习从影像中提取知识的能力已经超过了人类,所以端到端训练会强于人工编程出来的系统。但是,神经网络模型的可解释性也很重要,它能够大幅增强人类对AI自学模型的信心。而且我不认为让FSD学会解释自己理解的世界是很难的事情,毕竟LLM在这方面很成功了。所以xAI对FSD很重要,而FSD也有助于xAI理解世界。
LLM 也没理解,你觉得他理解了,实际是简单的映射,你输入文字映射到回答的文字上,没有理解过程,条件反射
GPT 才是 Generative Pre-trained Transformer
LLM是语言基础模型映射到文字,还需要merchine and deep learning ,完全学会理解人类物理世界不是这样容易,端到端学习不是车机上ai 芯片算力做得到。
@@JacksonSHR LLM看上去是简单的映射,因为他是基于前半段句子内容来预测下一个单词。但仔细想想,LLM的映射的基础是嵌入,而嵌入本身就需要对训练数据集的理解和抽象(香港大学马毅教授所谓的“压缩”)。特别是多模态LLM,有助于实现对世界规律的理解,建立真正世界模型。
至于推理预测的模式,无论是当前这种基于上下文的预测还是所谓的白盒模型算法,都不重要。因为这些只是对于世界模型中所存储的信息的提取和解释方法。
仔细想一想我们人类的智能思维模式。我们也是先通过观察来理解这个世界,并在脑海中建立起抽象信息(如好的、邪恶的、可靠的等感觉),然后通过将这些概念同特殊的语言词语连接来交流。各种语言有不同的语法顺序,但并不影响我们解释自己的世界观和预测。同样,LLM AI的核心在于其基石模型在多模态时代已经越来越具有世界模型的潜力,虽然其推理方法还很原始(基于前几个tokens来预测下一个token),但有效就行。人类可以通过肢体比划来交流,LLM总不会比这更差。
@@horngbill6010 你说的没错,GPT是AI的核心,但是LLM提供了人类同GPT进行交流的接口。仅仅靠道路视频显然无法理解人类世界,这就好像二维世界的蚂蚁(都是瞎子)无法理解三维世界,人类无法理解看不到的红外光、超声波所展现的世界形态,我们所感知的都是局部世界。同样FSD理解的道路世界也是一种局部世界,FSD AI能够将这种局部世界的信息进行压缩并形成抽象的概念和规律(这个局部世界的NATURAL LAW),这同人类对可观测世界的理解方式并无不同。当然,处于更高维度的人类如何理解FSD的世界观是个挑战。
另外,我并没有说每辆汽车可以自己训练AI。但他们都可以推理和通过LLM来解释当前AI对当前路况的理解。
希望看更深入讲解
能不能出一期晚上开车光线不好的视频,全是白天的
特斯拉的训练结果会成为自动驾驶的ChatGPT, 其他厂商买其服务即可!
你是说蝙蝠的雷达不行?
看完了,完全不懂,根本提不出问题,只能持续学习。 可能是我想的太简单,也可能是我想的太复杂
很棒的
为什么不是视觉+雷达 >视觉呢?
因为1+1>1是一定的,双系统的优势不容置疑。只不过tesla坚信视觉可以胜过雷达。
讲了半天细节浪费 是一点没有听进去
兄弟,请问怎么评价23款S/X谜一般的前视雷达存在的目的和作用,或者曾经/未来的作用?
配合主动安全监控 FSD 行为
长尾问题如何解决
看明白了,就是發展到了V12,才發現V11還是有原則性的問題,總結是自動駕駛一直在路上…
能不能先把电池的问题解决一下
請問您提的電池問題發生什麼事?謝謝
我只说两点
1、视觉 不强于 雷达
2、中国普遍采用的是 视觉+激光雷达+毫米波雷达
多从生意的角度考虑,少从技术的角度考虑,你就想通了
华为智驾是V11那种?
上述明顯告訴所有人你是測試自動駕駛的白老鼠,但沒有盡頭。
等等,請問已經確認特斯拉的FSD是感知到決策一進一出的完全端到端了嗎?
聽大劉科普是說只有決策是端到端🤔
确认,大刘的理解有误
@@JacksonSHR 感謝解惑👍
定义上不同,不能说对错
@@horngbill6010 求解釋,目前理解是下面這樣,怎麼個定義不同法?
端到端:視頻->模型->執行
非完全端到端:視頻->感知模型->感知結果>決策模型->執行
端到端是属生成式.AI 一种,使用超级电脑进行大数据资料训练基础模型(Foundation Models),以少量的数据进行基础模型的微调,车上专用神经网络芯片执行此需求,由输入端到输出端的驾驶指令稱端到端。
就看特斯拉什么时候能看懂对向女司机开打雨刮器是什么意思了,那个时候就有些神奇了
專業
雷达的上限很低,视觉的上限很高。
It's like LLM, pixels are like tokens...
牛逼🎉
AI对信息的感知和解释能力非常低,需要大量数据训练才能勉强接近人类,端到端将v11的输入和输出进行了系统的连续化,在相同训练资源下v12的输出并不更准确而是更全面,v12相对v11没有本质提升,而且需要更多数据
有没有可能分两个神经网络 第一个神经网络可以把没有意义的干扰信息去掉 第二个神经网络只去学习有特征的信息 这样既准确又节省了算力?
第一个神经网络如何判断在任何情况下什么是有意义的什么是无意义的?如果他永远的能判断正确,那还需要第二个神经网络干嘛用?
@@JacksonSHR 为什么要只给神经网络喂视觉数据呢,人开车的时候只有有限角度的视觉,还有听觉辅助。所以同时给神经网络喂视觉,雷达数据应该也可以,模型训练速度可能会加快
@@andychen2261 人需要听觉是因为人不能在看着前方的时候再看着左右后
@@JacksonSHR 特斯拉的问题是它没有视觉与雷达融合的数据吧,所以就只训练视觉数据
@@andychen2261 加入雷达会增加模型复杂性,当车减速的时候权重对应到雷达还是摄像头需要 double 训练投入,但是其实并没有得到额外收益,因为雷达能看到的摄像头一定早就拍到了,所以意义不大
明显是错误的。一切都是因为美国没有雷达的产业链。
就问一个最简单的问题:纯视觉方案好还是多模态方案好?
你不用问,你过五年看看是不是全变成纯视觉就行了,搁置争议等着你自己就会看到的
鬼扯视觉大于雷达 说的好像雷达不会建模似的 雷达只是更清晰 视觉是平面的雷达是立体的
视觉挡住了就无法解析 雷达挡住了也可以解析 所以雷达更安全
雷达的基础是视觉 视觉都做不好 谈论雷达纯粹是外行
厉害厉害,追加特斯拉感谢博主