天天襙-天天草天天草-天天草天天操-天天艹天天艹-天天艹日日干-天天艹逼

Gemini 1.5 實驗版 (Pro, Flash, 8B):新款 Gemini 擊敗 Claude? 且價格低廉(全面測試)

谷歌今天在其網站上發布了一些新的實驗模型,我們將對它們進行嘗試,

有一個新的 Gemini 1.5 Pro 實驗模型,據說它是?Gemini 的更好版本,改進了編碼和復雜參數的訓練,

它是在他們幾天前發布的前一個實驗版本上進行的訓練,此外他們還添加了一個新的實驗?Gemini 1.5 Flash模型,

最后他們還有一個非常小的實驗性 Gemini 1.5 Flash,只有 80 億個參數,所以總的來說有三個新模型:

Gemini 1.5 實驗版 (Pro, Flash, 8B):新款 Gemini 擊敗 Claude? 且價格低廉(全面測試)插圖

如果我們看看 LMMS Arena 得分,就知道Gemini flash 已經有了巨大的飛躍,從第?23 位攀升至第 6 位,這真的很酷,甚至排名高于 Claude 3.5 Sonet,但我不認為它會像 Sonet 一樣好。

Gemini 1.5 實驗版 (Pro, Flash, 8B):新款 Gemini 擊敗 Claude? 且價格低廉(全面測試)插圖1

除了 Gemini 1.5 Pro 在編碼和數學方面比以前的版本有顯著的進步,在排行榜上排名第二之外,較小的 Gemini 1.5 flash 8B 優于 Gemini 29b,與 llama 3 70 B 水平相當,這也非常酷。

您還可以在編碼基準中看到 LMMS 在這里分享的編碼基準,正如您所見,它們看起來也相當不錯,

Gemini 1.5 實驗版 (Pro, Flash, 8B):新款 Gemini 擊敗 Claude? 且價格低廉(全面測試)插圖2

這些新模型可以在?Google 的 AI 工作室免費試用(https://aistudio.google.com/),所以讓我們嘗試一下,看看是否它們確實像宣傳的那樣有效。

我將針對這 13 個問題測試這三種型號?所以讓我們開始吧

第一個問題是哪個國家的首都以 Leah 結尾, 我指的是國家名稱 ,答案應該是堪培拉或任何與 Leah 押韻的國家首都。左邊的是 pro ,中間的是 Flash ,右邊是較小的 flash 8B 。

這是答案:pro 型號正確回答了這個問題, 而另一個 flash 和 flash 8B模型不會。

Gemini 1.5 實驗版 (Pro, Flash, 8B):新款 Gemini 擊敗 Claude? 且價格低廉(全面測試)插圖3

下一個問題是,與我們用來描述高大植物的單詞押韻的數字是什么,答案應該是三,讓我們發送它并檢查這是答案,所有模型在這個問題上都是正確的,所以讓我們給它們一個通過,

Gemini 1.5 實驗版 (Pro, Flash, 8B):新款 Gemini 擊敗 Claude? 且價格低廉(全面測試)插圖4

下一個問題是約翰約翰有三盒鉛筆,每盒有 12 支鉛筆,約翰總共有多少支鉛筆,答案應該是 36,讓我們發送它并查看這是答案,所有三個模型都給出了正確答案,所以讓我們給他們所有人一個通過現在

Gemini 1.5 實驗版 (Pro, Flash, 8B):新款 Gemini 擊敗 Claude? 且價格低廉(全面測試)插圖5

下一個問題是露西的糖果數量是邁克的兩倍如果邁克有七顆糖果露西有多少顆糖果答案應該是14,讓我們發送并檢查這是答案并且它們都是正確的所以這三個也是通過的。

Gemini 1.5 實驗版 (Pro, Flash, 8B):新款 Gemini 擊敗 Claude? 且價格低廉(全面測試)插圖6

下一個問題是3307是質數嗎?答案應該是肯定的。

專業版和Flash型號沒有正確回答這個問題,而Flash 8B型號回答正確,所以這個通過 。更大的模型則不行,這真的很有趣。

Gemini 1.5 實驗版 (Pro, Flash, 8B):新款 Gemini 擊敗 Claude? 且價格低廉(全面測試)插圖7

下一個問題是,我有兩個蘋果,然后我又買了兩個,我用兩個蘋果烤了一個餡餅,吃了一半餡餅之后,我還剩下多少個蘋果,答案應該是兩個,讓我們把它發送出去,這里是答案,所有的模型都回答正確,所以他們都可以通過了,

Gemini 1.5 實驗版 (Pro, Flash, 8B):新款 Gemini 擊敗 Claude? 且價格低廉(全面測試)插圖8

下一個問題是莎莉是個女孩,她有三個兄弟,她的每個兄弟都有相同的兩個姐妹,莎莉有多少個姐妹,答案應該是一個,讓我們把它發送出去

這是答案,而且它們全都正確,所以現在讓我們標記一下,

Gemini 1.5 實驗版 (Pro, Flash, 8B):新款 Gemini 擊敗 Claude? 且價格低廉(全面測試)插圖9

下一個問題是,如果一個正六邊形的短對角線是 64,那么它的長對角線是多少,答案應該是 73.9,讓我們發送它并檢查結果,這是答案,他們全都回答錯誤,所以這道題全部不及格,

Gemini 1.5 實驗版 (Pro, Flash, 8B):新款 Gemini 擊敗 Claude? 且價格低廉(全面測試)插圖10

接下來的問題是編碼問題,第一個問題是創建一個 HTML 頁面,其中有一個按鈕,當你單擊它時會爆炸五彩紙屑,你也可以使用 CSS 和 JS。

我們先預覽一下專業版,看起來還不錯,所以這個通過了,現在我們來預覽一下 Flash 版本,好吧,它根本不起作用,所以這個失敗了,現在我們來看看 8B 版本,它也運行得不好,所以這個也失敗了,

Gemini 1.5 實驗版 (Pro, Flash, 8B):新款 Gemini 擊敗 Claude? 且價格低廉(全面測試)插圖11

現在下一個問題是生成蝴蝶的 SVG 代碼,讓我們看看他們是否可以做到這一點,

讓我們逐一預覽一下,這個來自 Flash 8B,看起來不像蝴蝶,所以這個失敗了,這是 Flash 的預覽,看起來有點像蝴蝶,所以這個通過了,下一個這里有一個來自 Pro 的,看起來很不錯,所以這個通過了,

Gemini 1.5 實驗版 (Pro, Flash, 8B):新款 Gemini 擊敗 Claude? 且價格低廉(全面測試)插圖12

下一個問題是為一家 AI 公司創建一個登陸頁面,登陸頁面應該有四個部分,標題橫幅功能,并聯系我們,確保登陸頁面看起來時尚而現代,您可以使用?HTML CSS 和 JS,

讓我們先預覽專業模型生成,所以它看起來真的很好,所以這個通過了,這是來自 Flash 的預覽,看起來也很不錯,所以這個通過了,?這是 flash 8B 的預覽,看起來也很不錯,所以這個也通過了。

Gemini 1.5 實驗版 (Pro, Flash, 8B):新款 Gemini 擊敗 Claude? 且價格低廉(全面測試)插圖13

下一個問題是用 Python 編寫一個可以在終端中運行的生命游戲,讓我們發送它并檢查答案。

看看這是專業模型的生成,它運行得很好,現在讓我們看看 flash 模型的生成,它不能正常工作,所以這個失敗了,現在讓我們看看 8B 模型的生成,這個看起來也很不錯。

Gemini 1.5 實驗版 (Pro, Flash, 8B):新款 Gemini 擊敗 Claude? 且價格低廉(全面測試)插圖14

所以現在讓我們標記一下,這是最終的圖表,

Gemini 1.5 實驗版 (Pro, Flash, 8B):新款 Gemini 擊敗 Claude? 且價格低廉(全面測試)插圖15

你可以看到Pro模型看起來很不錯,而Flash?模型也有了很好的升級,而Flash 8 B 也與?Flash?模型相當,我認為 8B 模型是 AE 或專家模型的混合,具有 8B 的活動參數,這很好,而且效果很好。

我很想看看它比已經便宜很多的Flash模型便宜多少,我認為所有這些模型都很酷,總的來說它們很好。

??希望這篇文章對你有幫助,感謝閱讀!如果你喜歡這系列文章請以?點贊 / 分享 / 在看?的方式告訴我,以便我用來評估創作方向。

THE END
主站蜘蛛池模板: 免费在线视频网站 | free性丰满hd性欧美人体 | 青青精品 | 骚虎tv| 香蕉精品视频 | 国内精品久久久久久久久 | 肉车各种play文r | 亚洲26uuuu最新地址 | 成人免费影院 | 久久综合视频网站 | 色综合久久中文字幕网 | 国产三级精品三级男人的天堂 | 国内精品久久久久影院男同志 | 波多野结衣教师未删减版 | 免费看国产一级特黄aa大片 | www.四色| 四虎播放器| 亚洲天堂视频在线观看免费 | 男生的j桶女人屁免费视频 男生操男生 | 日本邪恶动态 | 日韩精品一区二区三区免费视频 | 日韩精品视频在线观看免费 | 亚洲第一男人天堂 | 青青草人人 | 日本一区二区三区久久精品 | 午夜香蕉成视频人网站高清版 | 亚洲国产货青视觉盛宴 | 视频一区二区国产 | 高清国产精品久久 | 亚洲男人的天堂成人 | 亚洲精品视频专区 | 99久精品 | 欧美一区二区三区精品 | 色悠久久久久综合网小说 | 91国内精品久久久久怡红院 | 青青草原国产在线 | 国产精品一区二区在线观看完整版 | 国产精品青青青高清在线密亚 | 国产综合亚洲欧美日韩一区二区 | 2022日韩理论片在线观看 | 亚洲成人一区 |