OpenAI 突然推送推送高級語音模式「Her」,又搶了谷歌風頭

9 月 25 日早,Google 發布兩款新模型 Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002。
在谷歌的系列模型中,Gemini Pro 屬于中號模型,付費用戶可以使用。而 Gemini Flash 則由 Gemini Pro 蒸餾而來,在今年 5 月的 Google I/O 上第一次亮相,目前用戶可以免費在 Gemini 中使用,開發者也有一定免費的 api 使用配額。
模型升級的重點主要為 1.5 Pro 價格降低 >50%、1.5 Flash 的速率限制提高了 2 倍,1.5 Pro 的速率限制提高了約 3 倍、輸出速度提高 2 倍,延遲降低 3 倍;過濾器切換為選擇加入。
不過,似乎 Google 今天的宣傳節點再一次被 OpenAI 提前知曉。OpenAI 同日宣布,OpenAI 的高級語音模式,將今日起開始對 Plus 和 Team 用戶推出。
5 月,Google 發布 Gemini 模型的大更新前,OpenAI 就曾提前搶開發布會,宣布很快會帶來高級語音模式,登上媒體頭條「個人助理 Her 就要來了嗎?」
接下來半年,高級語音模式的發布一再推遲,直至今日 Google 更新模型,OpenAI 立刻表示,本周內將推出語音模型。
除了之前已經劇透過的語音模式與人類在對話中的反應時間相近,會變換語調之外,還增加了個性化指令功能——可以直接指令模型說話說慢點,或者用一個特定的口音,同時可以記住你的名字和提前提供的信息給出更個性化的回復。
X 上有用戶不禁感嘆,OpenAI 已經養成了一個新愛好。等著 Google 發布一個更新,幾個小時后馬上發布一個更新。
01.Google Gemini Pro 價格下降一半
從 Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002 的名字也可以看出,此次 Google Gemini 的更新,不是一個大版本的更新,更多的是一次整體模型的升級。
降低價格是一個重要的更新重點。
Gemini 1.5 Pro 的輸入 token 價格降低 64%,輸出 token 價格降低 52%,增量緩存 token 價格降低 64%,適用于小于 128K token 的提示語,自 2024 年 10 月 1 日起生效。再加上上下文緩存,這將繼續降低使用 Gemini 構建應用的成本。
此外,1.5 Flash 的速率限制從 1000 RPM 提高到 2000 RPM,1.5 Pro 的速率限制從 360 RPM 提高到 1000 RPM。在接下來的幾周內生效。
Google 1.5 Flash 得到了 2 倍輸出速度和 3 倍更低延遲。
同時,Google 表示,發布的 Gemini 模型,默認不會應用過濾器,開發者可以根據其用例自行決定最佳的配置。Gemini 將繼續提供一系列安全過濾器,開發者可以根據需要為 Google 的模型應用這些過濾器。
Google 還表示,此次模型在數學、長上下文窗口和視覺方面取得了一定的進步。
在更具挑戰性的 MMLU-Pro 基準測試中,看到大約 7% 的性能提升。而在數學和 HiddenMath(一個內部保留的數學競賽問題集)基準測試中,兩個模型都取得了約 20% 的顯著進步。對于視覺和代碼使用場景,兩個模型在評估視覺理解和 Python 代碼生成的測試中表現也更好,提升范圍在約 2-7% 之間。
8 月份發布的 Gemini-1.5-Flash-8B 實驗模型也得到了新的更新。
Gemini 模型本身的亮點包括長上下文和多模態功能。由于 Gemini Flash 對開發者有部分免費額度,新更新可能對于開發某些應用有著很好的效果。
X 上的 AshutoshSrivastava 就表示,他使用 Google Flash 構建了一個應用,能夠在 1 分鐘內轉寫 13 分鐘的長音頻,且準確度很高(且免費)。在另一個應用中,他表示目標探測功能的表現也很不錯。
02.OpenAI 高級語音功能今日起推出
轉頭看 OpenAI 這邊。
凌晨兩點,OpenAI 宣布高級語音模式今日起開始向訂閱用戶推出,周內會全量進行推送。
根據 OpenAI 的宣傳片,與標準語音模式進行區分(黑色旋轉球),高級語音將以藍色旋轉球表示,并增加 5 個新語音。
此次發布的一個重要亮點是,OpenAI 表示,高級語音模式可以提供個性化定義。
在視頻中,OpenAI的研究員表示,用戶可以自定義指令,以讓模型以某種口音發音、記住事件以及用戶想要如何被稱呼等。
「你可以讓模型用特定的語速說話,也許是非常清晰地發音,慢慢地說話,用你的名字或你喜歡的稱呼來稱呼你。」研究員表示。
另一位研究員提供了一個例子,對模型輸入名字和所在城市,在向模型尋求周末的計劃時,模型會根據所在城市,進行更個性化的規劃。
高級語音對話目前僅適用于 ChatGPT Plus 和 Team 帳戶的用戶。免費用戶仍然可以訪問標準語音模式。
不過,Plus 和 Team 用戶每天仍然有高級語音的使用限制,并且每日限制可能會發生變化。當一天的高級語音還剩 15 分鐘時,OpenAI 會向用戶發出通知。
同時,使用高級語音模式無法使用 GPTs,即用戶設計的 OpenAI 的智能體。
高級語音模式因為對語音反應時間更敏感,在某些嘈雜的場景下,也更容易被打斷。
最后,OpenAI 還用高級語音模式搞了一個活,表示 ChatGPT 目前可以用五十多種語言表示「對不起,我遲到了,我不是故意讓你等這么久的。」
一個很有趣的點是,此次 Gemini 的發布,是由 Google 的 Logan Kilpatrick 主要負責對外溝通交流。
而 Logan Kilpatrick,正是 OpenAI 前開發者關系負責人。2024 年跳槽 Google。
而轉頭,此次 Google 發布新模型,OpenAI 就卡點發布高級語音模式。
OpenAI 此次宣布的時間點或許還有另外一個意義——此前外媒報道稱,Meta 公司本周將在 Meta AI 中推出名人語調的音頻對話功能。
在硅谷,AI 的戰爭還在熱火朝天的繼續。
本文鏈接:http://www.albanygandhi.com/news-23-1894.htmlOpenAI 突然推送推送高級語音模式「Her」,又搶了谷歌風頭
聲明:本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
全球首個!遺傳性耳聾基因療法獲重要突破
【公示】關于對2023年通州區創新型中小企業名單(第十二批)進行公示的通知
【解讀】執行2024年關稅調整方案等政策有關事宜公告的解讀
委員圍繞農文旅融合、數字鄉村發展等話題建言獻策 人才科技“雙翼”助力鄉村振興
我國新能源汽車保有量突破2000萬輛
@中小微企業 政策速遞一圖讀懂(熱點政策)
《北京國際科技創新中心建設條例》
《北京國際科技創新中心建設條例》
科技部 財政部關于印發《國家重點研發計劃管理暫行辦法》的通知
關于拓展跨境電商出口推進海外倉建設的意見(商貿發[2024]125號)
技術:微信怎么把分付的錢套出來,分付如何快速提現
乘風破浪:支付寶花唄怎么提現出來(手把手教你三個方法)
重磅消息 印度NATCO易瑞沙不出國在哪買 有對于人生仿制藥2025年代購最低價格多少錢
篤學好古:享花卡怎么套出來提現
2025公示:印度多吉美多少錢一盒?當今購買印度多吉美正規價格(約1200元)2025全新代購指南揭曉
大吉大利:東莞萬江代還信用卡取現,口碑商戶便捷商家
發奮圖強:拼多多先用后付秒套出 拼多多先用后付秒套變現到賬
指導!白條靠譜商家怎么找(三個方法成功刷出來)
分享:蘋果id貸審核流程—正規蘋果貸+下款就是快(親測有效)
白條加油購額度商家怎么找《京東最簡單的操作模式》