大模型火了,智能汽車也火了,兩火相加,會不會更旺?
當然會更旺,從OPEN AI火了之后,已經有多家車企宣布要把大模型上車。
理想汽車的Mind GPT,華為的盤古汽車大模型,百度的文心大模型,廣汽的AI大模型平臺,小鵬汽車聯合阿里打造的自動駕駛AI智駕中心“扶搖”……
光是今年上半年,就有近十個大模型宣布上車。
不同于ChatGPT這種語言類大模型,現階段在智能駕駛領域應用的主要還是判別類大模型,例如BEV和Transformer。
那么大模型上車,難點是什么?未來又有那些發展可能?這些問題,還是要業內人士才能回答。
在近期的多個論壇上,來自車企和多家自動駕駛研發企業的負責人,就對上述問題進行了討論。
01
數據、數據還是數據
打造大模型離不開三個核心關鍵點,數據、算力和算法。
大模型的訓練需要大量數據,數據,高質量數據才是核心。
科大訊飛股份有限公司的智能汽車副總經理李衛兵看來,目前判別式大模型的決策規劃無論是基于場景還是基于規劃,都是基于人類的先驗知識,很難具有類人的自主進化,或者說自主性比較差。尤其智能駕駛應用到城區以后,挑戰非常大。這里面或許需要新的方法把判別式模型和生成式模型結合起來。
在李衛兵看來,目前智能駕駛使用的判別式大模型,最讓人頭疼的是長尾問題,也就是高質量的數據還是不夠。
也就是說,算力并不是大模型上車的最大難點,反而是被人關注最少得的數據才是關鍵。
李衛兵坦言,未來競爭在數據,在算力。算力還好搞,就是貴一點,高質量的數據是核心競爭力。
毫末智行科技有限公司數據智能科學家賀翔同樣認為數據是核心競爭力,同時他更加詳細的對數據競爭進行了分析。
他認為按照目前的技術手段,想要收集到高精度可用數據是比較難,其原因主要有兩個方面:
一是,實際情況與理論預研有區別。
賀翔認為,自動駕駛所需數據來自兩個方面,一個是采集車,還有一個是量產車回傳的數據。按照設計原理,量產車回傳數據邏輯,主要目的不是為了讓我們的模型學會怎么開車,而是用來收集BadCase的。
所謂BadCase,就是客戶認為汽車智駕系統開的不好情況,一旦用戶覺得智駕系統對特情處理有誤,客戶就踩一下剎車,打一下方向盤,這個時候就應該上傳數據用于分析。
但隨著智駕系統的實際落地,就能發現傳回來的數據對我們訓練大模型而言肯定是有幫助的,但還是不夠,而這又是為什么?
原因是智駕訓練系統所需要的,是一個老司機的駕駛動作,更確切的說是老司機的預判,只有老司機的預判才是有價值的。但不是所有的BadCase都是老司機處理,也可能是新手司機導致的BadCase,這就導致所采集的數據和設計目標不一致。
這就是目前數據采集端的問題,很難保證所采集到的數據質量。但大模型上車的重要前提,就是有足多,足夠可靠的高質量數據。
從賀翔的分析不難看出,大模型上車對于高質量數據的需求,遠勝高算力需求。目前算力遠沒有進入到瓶頸期,只要肯花錢,可以較為容易得獲得高算力,但高質量數據并不是一蹴而就,需要時間與測試數據的積累,是一個相對慢的過程。
第二是數據多樣性問題。
在賀翔看來,現在國內沒有哪家企業數據是足夠的,尤其是長尾數據更少。數據多樣性、分布不夠的時候,模型訓練的時候,你想讓它在模型中學到社會常識,比如這個車往這邊靠的時候是為了加塞,你要學這些東西就要有大量的數據,你會發現有的數據不夠,怎么辦?
賀翔認為,一方面可以借助外部大模型,通過接入外部的大語言模型,或者是多模態大模型,通過一些外部的海量知識,因為這種知識在大量互聯網領域里面就已經存在了。通過借用外部大模型幫助智駕駛系了解人類社會的潛在常識,基于這些常識以及智駕駛系的特點,來做更好的預測,有了預測之后才能做到沒有地圖能夠像人一樣開車,只需要視覺就能夠把車開得很好。
另一方面還是要不斷積累數據,尤其是高質量的數據。
在專家眼中,現階段的核心問題還是數據量不夠。
02
數據共享難度大
就數據方面來說,單純依靠車企采集的數據是遠遠不夠的。業內想到最直接方法就是建立數據聯盟。
但是在李衛兵看來,理想很豐滿,現實很骨感。企業未來競爭在數據,高質量的數據是企業的核心競爭力。讓企業拿出這些數據難度其實很大。
賀翔想到的問題更為現實,技術上的難度。在賀翔看來,現實問題是數據通用程度不高。雖然每家車企對都在對車輛駕駛進行數據收集,但不同車型的數據通用程度不太高。賀翔拿長城自己的情況舉例,長城有那種內部有那種特別小的車歐拉,也有特別大的坦克500/800,他們之間的數據都很難通用,即使內部格式是一樣的。
賀翔認為,其他車企的情況應該類似,車型之間、車企之間,不同數據的規格,不同傳感器的規格,不同傳感器的配置,數據即使湊到一起,如何統一接口,統一規范,統一標準等,這些都是要命的技術問題。統一后,拿到一份標準數據之后,我們能不能把這些數據有效的用起來,也是一個很要命的問題。
事實上,業內由企業在做這樣的事情,例如中汽創智。中汽創智作為一家背靠中國一汽、東風、長安、國資委和汽車工程協會的企業,正在推動數據聯盟的方式,來為數據建立統一的標準,實現這個聯采、聯標。
中汽創智智能駕駛CTO張振林表示,他們正在盡可能統一標注、采集的標準,包括統一采集車的配置,包括采集設備和傳感器的選擇,“我們已經內部實現了部分的數據的這個共享和交易?!?/span>
張振林也認為統一數據這件事難度非常大。因為這里面每一家的這個算法,每一家的傳感器的這些配置,每一家的這個研發的階段不一樣,它可能會有存量數據的,還有接下來的這些量產數據都有不相同,這是一件非常非常難的事情,不過正因為難,才有意義。
03
開源有償和虛擬數據或是新路徑
北京汽車研究總院有限公司智能網聯中心副主任陳新也提出一個新的思路—開源有償。
陳新認為,目前現在大家還處于百花爭艷時期,還沒到一枝獨秀的階段,還需要很長時間讓大家研究自己的標準。
而且每家車企都是一個競爭的關系,不可能把自己高質量的數據,都是花錢得來的,采了數據還得制作,還得做成數據集,尤其是高質量的是很難的。
陳新認為可行的方式是,車企可以做自己的一些模型,可以做一些開源的但是有償的,找國內頂尖專家做有用數據的篩選,可以做一些比賽,包括做一些高質量數據的獲取,同時做一些模型的研究。
吉利汽車研究院技術規劃中心主任陳勇則提出,可以嘗試用虛擬數據。在陳勇看來,不是所有的語言大模型都是人工標注,或是人工生成的,很多虛擬數據。自動駕駛其實也可以。
陳勇認為,單靠一個車企或車型去采集還是蠻難的。周邊的環境,包括道路也在不斷的更新,我們的數據庫在不斷更新,十年前采的數據,現在大部分是沒什么用的,再過5年,我們今天采的數據還有沒有用,不一定。模型也好,整個算法也好,環境也好,都在發生變化,這些數據如何能夠?;畋ur。
陳勇提出,通過虛擬場景,比如虛擬仿真、元宇宙建模,用數字孿生去做這個事情,模擬各種交通流,各種事故,各種天氣。一方面,靠真實道路去采集,另一些,通過虛擬場景做一些生成,用大模型做一些風格遷移,這種場景相對可行,而且能保證數據量大的問題,做虛擬環境生成的數據量,生成效率還是蠻高的。建一個千公里一萬公里,目前3D虛擬資產做好的話,幾個小時就能夠生成,這可能是一條路徑。如果變成虛擬數據之后,就可以考慮哪些可以做共享。
在陳勇看來,數據目前是限制學術發展的關鍵因素之一,為了做學術,為了做更前瞻的研究,企業之間可以做一些嘗試,做更前瞻的技術研究,做一些共享。
未來真的能夠上車至少要做到4B以下。陳勇認為,如果解決某個其中一個小的問題,可能連1B模型都不需要,模型參數量的大小還是要看我們在車里面解決什么問題,場景決定了參數量的大小,而不是一味的將大模型搬上車,因為大模型成本也非常高,對用戶來講也不是最經濟的。
陳勇還提出,未來對于汽車行業,智能網聯汽車來講,車云一體或者車云協同應該是大的發展方向。
雖然生成式AI的出現,對智能網聯汽車的發展帶來了新的機遇。但通過上述專家的討論可以看出,大模型真正用在車上,需要跨越的障礙還有很多,語言類的大模型要完整地搬上車顯然不現實,其算力消耗太過驚人,成本難以負擔。在智能駕駛領域想要通過大模型進行優化,難度也很大。
因此,大模型對智能網聯汽車領域的優化,也面臨數據難題。大模型上車任重道遠。
來源:第一電動網
作者:NE時代
本文地址:http://www.viertlgarage.com/kol/212150
文中圖片源自互聯網,如有侵權請聯系admin#d1ev.com(#替換成@)刪除。