<listing id="lnlbz"></listing>

      <address id="lnlbz"></address>
      <form id="lnlbz"><th id="lnlbz"><listing id="lnlbz"></listing></th></form>

          <form id="lnlbz"></form>

          <progress id="lnlbz"><nobr id="lnlbz"></nobr></progress>

          <address id="lnlbz"><sub id="lnlbz"><menuitem id="lnlbz"></menuitem></sub></address><listing id="lnlbz"><font id="lnlbz"><cite id="lnlbz"></cite></font></listing><thead id="lnlbz"></thead><rp id="lnlbz"></rp>

          1. 移動端
            訪問手機端
            官微
            訪問官微

            搜索
            取消
            溫馨提示:
            敬愛的用戶,您的瀏覽器版本過低,會導致頁面瀏覽異常,建議您升級瀏覽器版本或更換其他瀏覽器打開。

            AI訓練數據荒下,合成數據成為“開源”新解法?

            馮戀閣 來源:21世紀經濟報道 2024-05-30 09:07:56 AI 數據 金融AI
            馮戀閣     來源:21世紀經濟報道     2024-05-30 09:07:56
            金融AI

            核心提示生成式人工智能技術不斷發展,訓練數據來源成為人們最關注的問題之一。

            生成式人工智能技術不斷發展,訓練數據來源成為人們最關注的問題之一。

            去年11月,國家數據局等17部門聯合印發的《“數據要素×”三年行動計劃(2024—2026年)》提到,要提升數據供給水平、建設高質量語料庫和基礎科學數據庫。

            近日, 第七屆數字中國建設峰會首發研究成果新聞發布會在福州舉行。會議現場發布了多份由數字中國研究院(福建)、同濟大學、阿里、高德等單位聯合編制的多本數據要素行業白皮書。其中,《大模型訓練數據白皮書》(以下簡稱“《白皮書》”)分析了當前大模型研發面臨的標準制定、質量評估、總量不足等問題,并嘗試提出建議。

            “我們期望通過推動數據要素市場建設解決大模型研發面臨的數據瓶頸,繼而發揮大模型對于數據的處理和分析能力,創造更大的生產力?!睌底种袊芯吭海ǜ=ǎ└痹洪L鄔群勇在發布會現場指出。

            高質量數據難題待解

            在生成式人工智能時代,大模型表現與訓練數據質量息息相關。高質量數據模型訓練和應用過程中有著不可替代的重要性。

            高質量數據并非用之不竭的資源。一項來自EpochAlResearch團隊的研究就表明,高質量的語言數據存量將在2026年耗盡。

            要解困,首先需要明白什么是高質量數據。

            由于技術更迭節奏、產業發展速度都很快,人們對大模型表現和功能的預期也在不斷變化?!栋灼分赋?,當前數據質量高低的判定標準主要取決于模型的應用目的,數據類型會根據模型的發展階段“因時而動”、根據技術人員的理解判斷“因人而異”、根據模型的訓練效果“因效而定”。

            因此,對質量的比較只能在同類型語料中展開?!栋灼分赋?,這類比較往往需要從質量、規模、多樣性三個維度出發。

            質量方面,被視為“高質量”通常是因為其信息已經通過了有用性或質量篩選。比如新聞、論文數據等會經由專業標準篩選,社交媒體上的內容則可能由用戶互動積極性篩選。如果不確定來源,則可以通過少量樣本人工評價判斷其可讀性、幫助性、安全性等指標的質量。

            數據規模算是比較老生常談的問題。在Scaling laws(規模法則,也稱標度律)還相當有說服力的當下,當模型的參數或計算量按比例擴大時,模型性能也與之成比例提升?!安粏渭兪钦Z料規模越大越好,而是高信息密度的語料規模越大越好?!薄栋灼分羞M一步提示。

            同類型語料中的多樣性也是值得關注的問題?!栋灼氛J為,保證多樣性將有效減小模型可能表現出的偏見或系統性不平等。

            判斷標準確定,“數據從哪來”是下一步要面對的問題。

            “首先是數據開放程度有待進一步加強。雖然數據開放共享的理念得到推廣,但實際可用的開放數據與市場需求仍然存在較大缺口?!编w群勇在接受21世紀經濟報道記者采訪時指出,雖然一些公共平臺開放了數據獲取的API,但其數據服務伴隨嚴格的限制,比如限制訪問量,附加收費等。

            此外,受限于價值評估、質量判斷等配套規則、標準并未完善,數據價值被確認,進而走向流通利用之路也面臨一定挑戰。

            針對高質量數據供給難題,現行方案側重于進一步構建行之有效的數據開放機制,鼓勵行業數據、公共數據等充分流轉應用。

            合成數據或成新路徑

            事實上,建立數據開放機制,在訓練過程中引入合成數據或許也是一條“開源”的路徑。

            合成數據是通過算法和數學模型創建的數據。通過建模真實數據的分布,然后在該分布上進行采樣,創建出新數據集,能夠讓合成數據模擬出真實數據中的統計模式和關系。在大模型訓練中,合成數據能夠發揮補充或替代真實數據的作用。

            據媒體報道,OpenAI、Anthropic、DeepMind等公司都曾表態將探索在訓練中引入合成數據的可能性?!栋灼芬蔡岬?,OpenAI的Sora就用到了大量由游戲引擎合成的視頻數據作為訓練集。

            《白皮書》認為,合成數據解決了部分類型的真實世界數據難以觀測的問題,拓展了訓練數據的多樣性。比如,一些“邊緣情況”(如極端天氣、罕見?。┗蛘哒鎸嵤澜缰械摹皾撛陔[患”(如金融詐騙等安全風險)數據的生成可以彌補因樣本分布不均衡導致的客觀限制。

            鄔群勇認為,合成數據可以提高模型訓練的效率。一方面,合成數據可以根據特定的需求進行設計,比真實數據集更廣泛,可確保滿足特定的數據質量標準。另一方面,這類數據可以快速生成,幾乎不需要人類標注,且不需要進行繁瑣的數據清洗和預處理工作,可提高數據獲取效率。

            合成數據生成過程可能存在偏差或噪聲,有觀點認為數據的質量和真實性無法完全模擬客觀世界。但在鄔群勇看來,部分噪聲數據對模型訓練來說是必需的,有助于提高模型的魯棒性。

            對于飽受質疑的隱私安全顧慮,《白皮書》提到,合成數據可以替代個人特征數據,有助于用戶隱私保護,解決數據獲取合規性的問題。當前,類似 “猜你喜歡”功能的實現往往需要大量用戶數據的參與。大模型理解力逐漸提高的當下,一方面,可以用合成數據替代用戶數據訓練模型;另一方面,用戶的需求也可以通過與模型的自然語言交流被系統理解?!罢麄€過程在提升推薦匹配度的同時,還可以降低推薦模型對個人特征數據的依賴?!薄栋灼分赋?。

            在可及的未來,合成數據將有望在幾大場景發揮作用。

            首先,合成數據可應用于多模態數據的生成。利用模擬器生成的多模態場景數據還廣泛應用于具身智能機器人、自動駕駛、AIforScience等場景的訓練。

            其次是高價值領域知識的生成。合成數據能通過對現有數據的深加工,將之前不能被用于訓練的數據轉化為可用。例如工業制造領域,利用合成數據,可以把生產、制造等工藝流程相關的原始數據,結合行業知識圖譜,轉化為可供大模型學習的工業語料,以緩解行業語料短缺的問題。

            據咨詢公司Gartner預測,到2030年,合成數據將徹底取代真實數據,成為AI模型所使用的數據的主要來源。美國AI研究機構Cognilytica數據顯示,2021年合成數據市場規模大概在1.1億美元,到2027年將達到11.5億美元。

            責任編輯:王超

            免責聲明:

            中國電子銀行網發布的專欄、投稿以及征文相關文章,其文字、圖片、視頻均來源于作者投稿或轉載自相關作品方;如涉及未經許可使用作品的問題,請您優先聯系我們(聯系郵箱:cebnet@cfca.com.cn,電話:400-880-9888),我們會第一時間核實,謝謝配合。

            為你推薦

            猜你喜歡

            收藏成功

            確定
            1024你懂的国产日韩欧美_亚洲欧美色一区二区三区_久久五月丁香合缴情网_99爱之精品网站

            <listing id="lnlbz"></listing>

                <address id="lnlbz"></address>
                <form id="lnlbz"><th id="lnlbz"><listing id="lnlbz"></listing></th></form>

                    <form id="lnlbz"></form>

                    <progress id="lnlbz"><nobr id="lnlbz"></nobr></progress>

                    <address id="lnlbz"><sub id="lnlbz"><menuitem id="lnlbz"></menuitem></sub></address><listing id="lnlbz"><font id="lnlbz"><cite id="lnlbz"></cite></font></listing><thead id="lnlbz"></thead><rp id="lnlbz"></rp>