AI大模型重要的是基礎能力,一開始就把訓練中文能力作為目標的意義不大。
很多人在體驗ChatGPT時都遺憾它似乎對中文世界的知識沒有那么熟悉,不太會背古詩,對中國名人張冠李戴,甚至對很多中國人廣為人知的歷史、名著強行胡說八道,而相應地對歐美世界的歷史、社會常識就好得多。所以,大家都在呼吁中文版ChatGPT在哪里。我自然也有這種期盼,但我個人認為,只有做出一個英文能力超過ChatGPT的模型才可能同時更好地實現中文能力。因為模型的基礎能力強,才能吊打一切,而語種只是上層表達。如果英文不能超越或持平ChatGPT,單單提升中文能力是遠遠不夠的。
有證據表明,大模型學習到的基礎能力是超越語言跨越語種的“高級知識”,很多研究論文都有闡述,我這里僅說一些我的直觀感受:
1、RLHF論文中的訓練數據英文占比99%+,西、法、德語還占了剩下的大部分,中文估計就是0.0x%這個級別,效果大家都體驗到了。中文和其他小語種能力的提升同樣也非常顯著,這很強有力地證明了這種訓練方法是讓模型學到了跨越語種的隱含信息;
2、ChatGPT為對話模型做了很多防止有害信息、承認自己不知道、盡量公正客觀等限制。其中一個方法是預先的prompt提示語。我認為,且也有一些蛛絲馬跡表明這個prompt提示語只是用英語寫的,但很明顯它對所有語種都有效了。
3、很多人都發現ChatGPT中文回復時偶爾有翻譯腔的情況,這固然可能是訓練中翻譯數據的直接結果,但從宏觀上也能看作是“高級知識”跨語種適配的體現。
再回到開始的“中文能力”。其實熟背古詩、對中國歷史文化倒背如流只能算是“中文能力”的細枝末節,技術上也不特別困難,國內很多中文訓練足夠的模型都能做到。但是大家想一想,這次ChatGPT火爆的原因可不是能熟背知識,而是能理解提問者意圖,然后流暢地生成新的相關文字內容、雖然內容可能是錯的,但很少自身矛盾。這對于之前的NLP模型來說可太難了。
舉個例子,我曾用ChatGPT改寫顧城的現代詩為古詩,雖然它生成的古詩并不怎么樣,但是卻能牢牢地扣住原詩內容,絕不跑題。我還可以明確地告訴它“第三句太現代化,再增加些古風,請重寫”。這種交互對于以往所有的計算機程序都是不可想象的。所以,真正的中文能力是指:對語言的理解和應用,而不僅是熟知中文知識。
中文的語言數據集需要艱苦卓絕的整理工作
垃圾信息問題。很多人不知道自動生成文本信息的技術在中文互聯網早就泛濫成災,但大多只管生成數量完全不在乎質量。比如SEO搜索垃圾生成、水軍機器人、電商評論機器人、各文庫/知道自動改寫、論文防查重“技術”等等。你只需用中文搜索稍不常見的詞就能體會到垃圾信息的體量和威力。這些中文垃圾信息是完全不能出現在訓練數據中的。很不幸,我在測試一些國產大模型時都或多或少發現了互聯網垃圾體的影子。英文互聯網當然也有垃圾問題,但僅從搜索信息來看似乎要好很多。
移動互聯網發達的意外之害。中國移動互聯網的繁榮成功不可否認,但現在意外地發現這對于中文信息的開放共享是個災難。各位是不是對“下載App繼續閱讀”深有體會?還有微信王國中各種海量的號。從十幾年前開始,各個領域優質用戶產生的優質中文數據只有通過移動渠道/登錄賬號才能訪問,還會把原有開放互聯網上的信息刪除或者加上層層限制。我甚至懷疑目前在互聯網上能公開扒取到的語言數據已經不能完整反映中文世界的客觀信息,并且對于微信、百度、知乎、小紅書、各電商、教育平臺等各相對優質數據的所有者,它們能聯合起來共享么?
中文標注數據集匱乏。相信很多NLP的長期從業者深有體會。海量數據的自監督訓練階段結束后,那些之前積累的各種人工標注語言數據的監督訓練才是畫龍點睛那一筆。ChatGPT除了自己請人標注,也用了已有的共享數據集??上У氖?,中文里這種數據集太少了。標注工作枯燥乏味而且很難出亮眼成績,不過是為他人做嫁衣。我們經常羨慕別人重大突破時天才的靈光一閃,但是勤勤懇懇做基礎整理工作的老黃牛們同樣重要,我們也很缺。
訓練中文版ChatGPT的可能正確方式
訓練仍然要以英文為主。不得不承認,作為世界語言以及相對開放的互聯網環境,英文信息尤其是高質量信息處于統治地位。2022年,某項統計顯示,互聯網上開放信息的中文占比僅1.3%,而英文占比63%,其中高質量部分優勢更大,比如論文,包括中國人在內的各非英語國家,一旦做出較大科研成果幾乎肯定先發英文論文,后續也未必有中文翻譯,維基百科、StackOverflow、Reddit等資源也是中文只能羨慕的存在,而我們獲取英文數據可能還更加容易。另外,英文本身是和代碼及大多外語是同源,而象形單音節的中文略顯孤獨,這可能也是個問題??傊?,既然已經證明了英文為主的道路暢通,最理智的做法是先走著。
其次以程序代碼為輔。英語為主漢語為輔?不,不,第二重要的應該是程序代碼。有一些研究者認為,ChatGPT展現出了初級推理能力要歸功于其使用代碼作為語言數據訓練,進化出的初級邏輯思維鏈在中文上也有體現,說實話,我并不確信這個推論,但很值得想象。即使此結論不正確,大模型擁有寫代碼的能力也極其重要,比如使用外部工具,為無限能力擴展提供了接口。 代碼數據的重要性對我們不是個好消息,ChatGPT應該用了github匯聚的全世界代碼庫,包括私有庫,我們如何獲取高質量的代碼數據是個大問題。
頂住誘惑激進清洗數據。中文數據貴精不貴多,GPT3收集訓練數據45TB,清洗后為570GB,僅保留了1.2%。中文數據清洗保留比例可能還要少個數量級,很考驗數據工程師的心理承受能力。辛辛苦苦收集的數據,你只讓用0.0x%?我拍腦袋認為,訓練集中有3~5%的中文數據就足以改進ChatGPT缺乏中文知識的情況了,甚至在上述推論下,中文也沒必要追求體量上超過西班牙語、法語、德語。后續監督、對齊、聯網階段還可以針對中文做優化。
最后聲明,我不能算是NLP的實際從業者,因此以上是不負責任沒有顧忌的紙上談兵。
(李闖系中國金融認證中心(CFCA)技術專家、中國電子銀行網專欄專家。)
文章僅為個人投稿,不代表所在公司的觀點和立場。
責任編輯:王超
免責聲明:
中國電子銀行網發布的專欄、投稿以及征文相關文章,其文字、圖片、視頻均來源于作者投稿或轉載自相關作品方;如涉及未經許可使用作品的問題,請您優先聯系我們(聯系郵箱:cebnet@cfca.com.cn,電話:400-880-9888),我們會第一時間核實,謝謝配合。