<listing id="lnlbz"></listing>

<address id="lnlbz"></address>

<form id="lnlbz"><th id="lnlbz"><listing id="lnlbz"></listing></th></form>

<form id="lnlbz"></form>

<progress id="lnlbz"><nobr id="lnlbz"></nobr></progress>

<address id="lnlbz"><sub id="lnlbz"><menuitem id="lnlbz"></menuitem></sub></address>

<listing id="lnlbz"><font id="lnlbz"><cite id="lnlbz"></cite></font></listing><thead id="lnlbz"></thead><rp id="lnlbz"></rp>

移動端

訪問手機端

官微

訪問官微

數字金融 DeepSeek 隱私計算數字人民幣網絡支付金融AI 區塊鏈金融云物聯網金融安全銀行業數字金融創新成果展 Bank幫全部

- 搜銀行
- 數字金融
- DeepSeek
- 隱私計算
- 數字人民幣
- 網絡支付
- 金融AI
- 區塊鏈
- 金融云
- 物聯網
- 金融安全
- 快訊
- 招聘
- 會議
- 江湖
- 理財
- 福利匯
- 金視點
- 專題
- 專欄
- 宣傳年
- BANK幫
- AI播報
- 銀行業數字金融創新成果展
- 全部

取消

熱搜詞

“中文版ChatGPT”之我見

李闖來源：中國電子銀行網 2023-02-16 10:27:33 ChatGPT 李闖

李闖來源：中國電子銀行網 2023-02-16 10:27:33

ChatGPT

李闖

核心提示AI大模型重要的是基礎能力，一開始就把訓練中文能力作為目標的意義不大。

AI大模型重要的是基礎能力，一開始就把訓練中文能力作為目標的意義不大。

很多人在體驗ChatGPT時都遺憾它似乎對中文世界的知識沒有那么熟悉，不太會背古詩，對中國名人張冠李戴，甚至對很多中國人廣為人知的歷史、名著強行胡說八道，而相應地對歐美世界的歷史、社會常識就好得多。所以，大家都在呼吁中文版ChatGPT在哪里。我自然也有這種期盼，但我個人認為，只有做出一個英文能力超過ChatGPT的模型才可能同時更好地實現中文能力。因為模型的基礎能力強，才能吊打一切，而語種只是上層表達。如果英文不能超越或持平ChatGPT，單單提升中文能力是遠遠不夠的。

有證據表明，大模型學習到的基礎能力是超越語言跨越語種的“高級知識”，很多研究論文都有闡述，我這里僅說一些我的直觀感受：

1、RLHF論文中的訓練數據英文占比99%+，西、法、德語還占了剩下的大部分，中文估計就是0.0x%這個級別，效果大家都體驗到了。中文和其他小語種能力的提升同樣也非常顯著，這很強有力地證明了這種訓練方法是讓模型學到了跨越語種的隱含信息；

2、ChatGPT為對話模型做了很多防止有害信息、承認自己不知道、盡量公正客觀等限制。其中一個方法是預先的prompt提示語。我認為，且也有一些蛛絲馬跡表明這個prompt提示語只是用英語寫的，但很明顯它對所有語種都有效了。

3、很多人都發現ChatGPT中文回復時偶爾有翻譯腔的情況，這固然可能是訓練中翻譯數據的直接結果，但從宏觀上也能看作是“高級知識”跨語種適配的體現。

再回到開始的“中文能力”。其實熟背古詩、對中國歷史文化倒背如流只能算是“中文能力”的細枝末節，技術上也不特別困難，國內很多中文訓練足夠的模型都能做到。但是大家想一想，這次ChatGPT火爆的原因可不是能熟背知識，而是能理解提問者意圖，然后流暢地生成新的相關文字內容、雖然內容可能是錯的，但很少自身矛盾。這對于之前的NLP模型來說可太難了。

舉個例子，我曾用ChatGPT改寫顧城的現代詩為古詩，雖然它生成的古詩并不怎么樣，但是卻能牢牢地扣住原詩內容，絕不跑題。我還可以明確地告訴它“第三句太現代化，再增加些古風，請重寫”。這種交互對于以往所有的計算機程序都是不可想象的。所以，真正的中文能力是指：對語言的理解和應用，而不僅是熟知中文知識。

中文的語言數據集需要艱苦卓絕的整理工作

垃圾信息問題。很多人不知道自動生成文本信息的技術在中文互聯網早就泛濫成災，但大多只管生成數量完全不在乎質量。比如SEO搜索垃圾生成、水軍機器人、電商評論機器人、各文庫/知道自動改寫、論文防查重“技術”等等。你只需用中文搜索稍不常見的詞就能體會到垃圾信息的體量和威力。這些中文垃圾信息是完全不能出現在訓練數據中的。很不幸，我在測試一些國產大模型時都或多或少發現了互聯網垃圾體的影子。英文互聯網當然也有垃圾問題，但僅從搜索信息來看似乎要好很多。

移動互聯網發達的意外之害。中國移動互聯網的繁榮成功不可否認，但現在意外地發現這對于中文信息的開放共享是個災難。各位是不是對“下載App繼續閱讀”深有體會？還有微信王國中各種海量的號。從十幾年前開始，各個領域優質用戶產生的優質中文數據只有通過移動渠道/登錄賬號才能訪問，還會把原有開放互聯網上的信息刪除或者加上層層限制。我甚至懷疑目前在互聯網上能公開扒取到的語言數據已經不能完整反映中文世界的客觀信息，并且對于微信、百度、知乎、小紅書、各電商、教育平臺等各相對優質數據的所有者，它們能聯合起來共享么？

中文標注數據集匱乏。相信很多NLP的長期從業者深有體會。海量數據的自監督訓練階段結束后，那些之前積累的各種人工標注語言數據的監督訓練才是畫龍點睛那一筆。ChatGPT除了自己請人標注，也用了已有的共享數據集?？上У氖?，中文里這種數據集太少了。標注工作枯燥乏味而且很難出亮眼成績，不過是為他人做嫁衣。我們經常羨慕別人重大突破時天才的靈光一閃，但是勤勤懇懇做基礎整理工作的老黃牛們同樣重要，我們也很缺。

訓練中文版ChatGPT的可能正確方式

訓練仍然要以英文為主。不得不承認，作為世界語言以及相對開放的互聯網環境，英文信息尤其是高質量信息處于統治地位。2022年，某項統計顯示，互聯網上開放信息的中文占比僅1.3%，而英文占比63%，其中高質量部分優勢更大，比如論文，包括中國人在內的各非英語國家，一旦做出較大科研成果幾乎肯定先發英文論文，后續也未必有中文翻譯，維基百科、StackOverflow、Reddit等資源也是中文只能羨慕的存在，而我們獲取英文數據可能還更加容易。另外，英文本身是和代碼及大多外語是同源，而象形單音節的中文略顯孤獨，這可能也是個問題?？傊?，既然已經證明了英文為主的道路暢通，最理智的做法是先走著。

其次以程序代碼為輔。英語為主漢語為輔？不，不，第二重要的應該是程序代碼。有一些研究者認為，ChatGPT展現出了初級推理能力要歸功于其使用代碼作為語言數據訓練，進化出的初級邏輯思維鏈在中文上也有體現，說實話，我并不確信這個推論，但很值得想象。即使此結論不正確，大模型擁有寫代碼的能力也極其重要，比如使用外部工具，為無限能力擴展提供了接口。代碼數據的重要性對我們不是個好消息，ChatGPT應該用了github匯聚的全世界代碼庫，包括私有庫，我們如何獲取高質量的代碼數據是個大問題。

頂住誘惑激進清洗數據。中文數據貴精不貴多，GPT3收集訓練數據45TB，清洗后為570GB，僅保留了1.2%。中文數據清洗保留比例可能還要少個數量級，很考驗數據工程師的心理承受能力。辛辛苦苦收集的數據，你只讓用0.0x%？我拍腦袋認為，訓練集中有3~5%的中文數據就足以改進ChatGPT缺乏中文知識的情況了，甚至在上述推論下，中文也沒必要追求體量上超過西班牙語、法語、德語。后續監督、對齊、聯網階段還可以針對中文做優化。

最后聲明，我不能算是NLP的實際從業者，因此以上是不負責任沒有顧忌的紙上談兵。

（李闖系中國金融認證中心（CFCA）技術專家、中國電子銀行網專欄專家。）

文章僅為個人投稿，不代表所在公司的觀點和立場。

責任編輯：王超

免責聲明：

中國電子銀行網發布的專欄、投稿以及征文相關文章，其文字、圖片、視頻均來源于作者投稿或轉載自相關作品方；如涉及未經許可使用作品的問題，請您優先聯系我們（聯系郵箱：cebnet@cfca.com.cn，電話：400-880-9888），我們會第一時間核實，謝謝配合。

快訊

NEWS FLASH 更多

金融監管總局副局長付萬軍：正研究制定金融消保領域框架性文件

10:20

5月15日，金融監管總局副局長付萬軍在2025年“5·15全國投資者保護宣傳日”活動上表示，金融監管總局正在研究制定金融消保領域的框架性文件，加快修訂投訴處理管理辦法。同時，不斷完善金融消費者權益保護監管評價機制，引導機構充分認識消費者保護與自身經營發展的共生邏輯，將消保理念有機嵌入產品研發、業務流程、營銷宣傳、內部考核等環節。
樂山市商業銀行行長李映軍任職資格獲批

10:02

13日，四川金融監管局披露批復顯示，四川金融監管局核準李映軍樂山市商業銀行行長的任職資格。
重慶發文推動銀行與有關機構合作提供跨境人民幣收付服務

16:03

近日，重慶市印發《重慶市加快培育從訂購到交貨的國際物流全鏈條服務體系實施方案（2025—2029年）》。

中國與東盟推動跨境支付互聯互通

15:58

目前，人民幣跨境支付與清算網絡正在持續完善。東盟地區約有100家銀行已直接或間接接入人民幣跨境支付系統（CIPS），通過該系統使用人民幣進行結算，有效促進人民幣在東盟的使用。近期，銀聯國際與越南國家支付股份公司（NAPAS）簽署了關于推進中越之間二維碼跨境支付服務的合作備忘錄。
廣發銀行發布關于選舉董事長的公告。

11:12

4月29日，廣發銀行發布關于選舉董事長的公告。廣發銀行第十屆董事會第十六次會議選舉蔡希良為董事長。蔡希良現任中國人壽集團黨委書記、董事長。這延續了近年中國人壽集團董事長兼任該行董事長的一貫安排，顯示中國人壽集團對廣發銀行的重視與支持。
螞蟻消金2024年資產總額超3100億，持續穩健發展

09:14

4月21日，重慶螞蟻消費金融有限公司2024年經營數據被披露。數據顯示，2024年螞蟻消金資產總額3137.51億元，營業收入152.13億元，全年公司實現凈利潤30.51億元。

金視點

Peak Point 更多

央行科技司司長李偉：中小銀行要堅定數字化轉型，穩妥推進人工智能應用

11:32

對于人工智能大模型在金融領域的應用，中國人民銀行科技司司長李偉指出，要鼓勵創新和規范發展并舉，依托科學合理的治理機制設計，讓大模型金融應用走得動、走得通、走得正，讓監管看得到、認得清、穿得透，讓風險防得住、防得準、管得住、解得了。
交通銀行錢斌：以人為本智能向善描繪數字金融新圖景

10:33

在 2024世界人工智能大會上，交通銀行副行長、首席信息官錢斌出席并作主旨演講，他表示當前，AI技術正成為推動世界之變、時代之變的重要驅動力。從金融實踐來看，AI已經在金融數字化轉型過程中培育形成新質生產力，塑造出數字金融新生態。但與此同時，AI進一步發展也面臨許多問題挑戰，包括價值對齊、科技倫理、數據保護等等。
交通銀行任德奇：有效提升普惠金融的覆蓋率和質量，關鍵是用好數字化技術

10:30

陸家嘴論壇上，交通銀行董事長任德奇表示，扎實做好普惠金融大文章，是金融機構貫徹落實黨中央決策部署的一項重大工作任務，需要久久為功，持續加力。未來有效提升普惠金融的覆蓋率和質量，關鍵是用好數字化技術，交通銀行重點通過四個“加強”持續發力，一是通過加強數據賦能和提高融資可得性；二是通過加強線上與線下的融合，即“雙線融合”，提高融資便捷性；三是加強產品供給，提高居民收入，滿足人民群眾多樣化金融需求；四是加強重點領域小微企業服務。

今日排行

RANKING TODAY

“穩定幣”首個IPO ——Circle上市，監管合規與創新發展成必然趨勢

熱詞理財支付銀聯白皮書中國銀行征信 CFCA 網上銀行投顧區塊鏈手機銀行 5G消息理財子公司綠色金融廣發銀行上市銀行農商行隱私計算數字人民幣

研究

RESEARCH

合集｜中國數字金融調查報告(2017-2024)

重點關注電子銀行、金融科技領域，通過企業拜訪、資深從業者訪談，電話調查等專業手段獲取前沿信息，力求出品最具前瞻性和參考價值的內容。因為專業，所以領先！[詳細]

會議

MEETING

招聘

RECRUIT

收藏成功

確定

1024你懂的国产日韩欧美_亚洲欧美色一区二区三区_久久五月丁香合缴情网_99爱之精品网站

<listing id="lnlbz"></listing>

<address id="lnlbz"></address>

<form id="lnlbz"><th id="lnlbz"><listing id="lnlbz"></listing></th></form>

<form id="lnlbz"></form>

<progress id="lnlbz"><nobr id="lnlbz"></nobr></progress>

<address id="lnlbz"><sub id="lnlbz"><menuitem id="lnlbz"></menuitem></sub></address>

<listing id="lnlbz"><font id="lnlbz"><cite id="lnlbz"></cite></font></listing><thead id="lnlbz"></thead><rp id="lnlbz"></rp>