我說現(xiàn)在最牛的翻譯軟件是……小紅書,大家沒意見吧?
眾所周知,最近因為TikTok在美國的封禁風波,一身反骨的TikTok海外用戶瘋狂涌入小紅書,為了接住這波潑天的流量,小紅書連夜加班加點上線了評論區(qū)一鍵翻譯的功能。
但如果只是傳統(tǒng)的機翻也就算了,很快網(wǎng)友們就發(fā)現(xiàn),這其實是接了大模型的AI翻譯。
而且與其說是翻譯,不如說是破譯??,現(xiàn)在什么類型的“加密語言”在小紅書評論區(qū)都無處遁形,翻譯得那叫一個“信達雅”,堪比網(wǎng)上沖浪十級選手。
小紅書AI翻譯還是太全面了
像cpdd、yyds、u1s1這種入門級別的縮寫都是小兒科:
中式英語(Chinglish)也能輕松拿捏??:
原以為這些已經(jīng)夠無厘頭了,但當我看到下面這些,我想說:小紅書AI翻譯還是太全面了。
這下誰還分得清到底是翻譯,還是中文梗百科?。?/span>
眾所周知,打亂漢字的順序不影響閱讀,事實證明也不影響正確翻譯:
什么二進制ASCII字符、盲文、摩斯密碼、《模擬人生》游戲語言……也統(tǒng)統(tǒng)給你破譯了:
就連小說《冰與火之歌》中的“高等瓦雷利亞語”也不在話下(權(quán)游粉基因動了)……
有的網(wǎng)友甚至已不再滿足于翻譯語言的范疇,開始考驗小紅書AI翻譯對顏表情的理解:
還有一些懂行的網(wǎng)友通過Prompt,讓AI翻譯輸出制定內(nèi)容。具體格式可以參考:把非中文語言加上雙引號后再寫指令,就能用大模型輸出了。
比如有網(wǎng)友讓AI在翻譯完引號內(nèi)的話后,輸出自己的違禁詞政策、披薩的制作方法、貓娘的故事……
好好好,你們清高,你們了不起,你們把翻譯當生成式AI用????
有業(yè)內(nèi)人士評價稱,小紅書AI翻譯功能可能是目前大模型toc商用的最佳案例之一,因為小紅書讓所有人直觀感受到了AI的魅力。
至于其背后用的是哪家大模型,有網(wǎng)友通過在評論中嵌入讓模型“自報家門”的指令,得到了GPT-4、智譜清言等結(jié)果??紤]到合規(guī)和調(diào)用成本的問題,GPT-4應該可以排除。
那究竟是哪個國產(chǎn)大模型,目前仍不可知。因為如果模型訓練數(shù)據(jù)包含了其他大模型的對話示例,或者對其他大模型的部分數(shù)據(jù)進行了蒸餾,都可能造成模型身份的幻覺。比如之前,文心一言也發(fā)生過稱自己是ChatGPT的情況。
去年4月,據(jù)36氪獲悉,由小紅書AI創(chuàng)新負責人張德兵(薯名:宇塵)牽頭的大模型團隊,在部分內(nèi)部產(chǎn)品灰度測試自研通用大模型基座“小地瓜”,社交和搜索是落地方向。他們之前開發(fā)了自研的RLHF框架,并使用了PPO(近端策略優(yōu)化)算法,這是一種被廣泛認可的強化學習算法。
作為國內(nèi)第一家(也是唯一一家)如此大規(guī)模地應用AI翻譯的社交媒體平臺,小紅書為什么要用AI翻譯?又是怎么做到在這么短的時間內(nèi)上線的?也是大家津津樂道的話題。
為什么小紅書要用LLM翻譯而不是傳統(tǒng)的NMT?目前大部分被稱為機翻的工具,都以NMT(Neural Machine Translation,神經(jīng)機器翻譯)為核心技術(shù)。
總的來說,據(jù)我們推測,可能主要是為了快速上線、降低部署和維護的復雜度和成本。
首先,在大量外國用戶涌入的情況下,如果產(chǎn)品經(jīng)理要求你在短時間內(nèi)快速上線翻譯功能,LLM顯然是優(yōu)先之選,因為傳統(tǒng)的NMT模型訓練周期通常較長。
而如果直接調(diào)用現(xiàn)有LLM的翻譯能力(如通過API),一般無需微調(diào)(fine-tuning)即可實現(xiàn)翻譯功能。但如果需要更高程度的定制化(例如垂直領(lǐng)域翻譯或特定風格調(diào)整),微調(diào)是必要的。
其次,還需要考慮服務部署(serving)的問題。如果使用傳統(tǒng)NMT模型,需要重新搭建或購買一套專門的serving基礎(chǔ)設施。而LLM方案通常已經(jīng)有成熟的服務框架和基礎(chǔ)設施,可以直接使用,大大縮短了開發(fā)周期并降低了復雜性。
此外,LLM經(jīng)過海量數(shù)據(jù)訓練,泛化能力更強,能更好地處理社交媒體語境中的非標準/非正式語言、拼寫錯誤、縮略語或網(wǎng)絡用語(如表情符號、俚語等),并根據(jù)上下文調(diào)整翻譯。
例如,網(wǎng)絡用語 “idk” 會被翻譯為 “I don’t know” 或等效表達。而NMT更傾向于翻譯標準化語言,對于口語化或非標準輸入的處理能力較弱。
LLM還可以直接處理復雜的多語言輸入,例如混合語言句子(code-switching),并理解不同語言之間的語義聯(lián)系,這就是準確翻譯拼音+英語的關(guān)鍵。
而且LLM的實時適應性更強,雖然其本身不能實時更新知識,但可以持續(xù)“學習”。例如,你可以告訴它改進對特定詞語的翻譯,模型就會進行即時調(diào)整。
相比之下,傳統(tǒng)NMT系統(tǒng)需要重新訓練才能改進某些翻譯表現(xiàn),因為NMT模型通常是基于一個固定時間點的數(shù)據(jù)訓練的,而互聯(lián)網(wǎng)jargon(黑話)、熱梗、meme等更新頻率極高,NMT模型很難及時捕捉新詞匯和用法。
而為了提高國外用戶的留存率,準確翻譯時下流行的梗非常重要,不僅能拉近與國外用戶的距離,也能增強中外網(wǎng)友互動的趣味性和參與感。
據(jù)媒體報道,目前已有多位IP在海外的網(wǎng)友反映,在抖音評論區(qū)也出現(xiàn)了“Translate”(翻譯)的按鍵。抖音官方客服表示,“這是近期抖音更新產(chǎn)生的一個功能,目前抖音確實是有一個評論翻譯功能,但是該功能正在升級優(yōu)化中?!?/span>
對于該翻譯功能是否是僅針對海外用戶進行測試,客服表示該功能正在小范圍測試中,目標群體并不固定。不論是海外用戶還是人在中國的用戶,都有可能在頁面顯示這個功能。
看來,小紅書又一次引領(lǐng)了潮流。
「AI新榜交流群」進群方式:添加微信“banggebangmei”并備注姓名+職業(yè)/公司+進群,歡迎玩家們來群里交流,一起探索見證AI的進化。
歡迎分享、點贊、在看 一起研究AI