Claude 3 API Opus Testing - 歡迎進一步了解我的新LLM!?
By All About AI · 2024-03-22
今天我們將會進行一些測試,使用Claw Tre Opus API。第一個測試將是一些自定義的邏輯測試,我認為這將會很有趣。
一個獨特的邏輯測試
- 今天我們將會進行一些測試,使用Claw Tre Opus API。第一個測試將是一些自定義的邏輯測試,我認為這將會很有趣。第二個測試將是在Hast堆疊測試中尋找針,我們將輸入大約100,000個單詞,並且在中間放入一個事實,然後嘗試找到該事實。第三個測試將涉及編碼,我會輸入一個半長的程式碼示例,然後嘗試編寫一個函數。我們將建立一個比特幣終端價格,為24個動畫,這種玩意有點酷,然後我們將對我的HTML網站構建器進行一些測試。第四個測試將是我創建的一種較為高級的系統指令,以查看我們是否能夠遵循所有指示。最後,我們將放入一些圖像,然後嘗試創建2024年比特幣預測報告,獲取一些酷炫的圖表和動畫,並將其轉換為PDF文件。讓我們開始吧,首先從第一個測試開始,即我創建的自定義邏輯測試。第一個是...(請看上方原文)
一個獨特的邏輯測試
謎一般的蘋果故事與紐約河流之謎解析
- 我有一個蘋果的價格是0.5個金幣,我有多少個蘋果,以及河流在哪裡。我的想法是混淆模型,因為這裡有很多奇怪的事情,如果要找到答案,你確實需要耐心。讓我複製這段文字,去CLA Tre查看。在這裡,我們可以看到我們有點像在操場上,所以我們選擇Opus這個模型。讓我粘貼我們的內容在這裡,然後運行看看我們得到什麼樣的答案。好的,看起來不錯,讓我們仔細看看。如果我們稍微放大一點,我們從給定開始,我們有10個蘋果、三個金幣,我們失去了四個蘋果,接著每個人都掉了六個蘋果,這樣一步步地進行是很好的,答案是36個蘋果。至於河流的位置,問題提到河流靠近一個大城市,這與你可以用金幣花費的事物有關,由於你用金幣買蘋果,這個城市很可能是以大蘋果聞名的紐約市。因此,最終你有36個蘋果,而河流很可能就在紐約市。下一個測試我也自己創建了這樣的情節:我住在紐約市中心,一天早上去車庫拿了一個小籃球和一個底部有比籃球更大的孔洞的袋子,然後把籃球和袋子帶到辦公室,坐下前我放入
謎一般的蘋果故事與紐約河流之謎解析
尋找遺失的球在哪裡?
- 我把球放進袋子裡,走到書桌旁將袋子放 進箱子,封好箱子準備寄給在倫敦的朋友。幾週後,箱子到了倫敦的朋友手中。如何逐步回答問題:球現在在哪裡?我以前用gp4做過這個,通常可以解決問題,所以我們現在就試試這個例子,讓gp4來解決這個問題。讓我們運行一下這個邏輯,看看結果。這看起來很好,這是唯一一個解決過這個問題的模型,是gp4。讓我們來看看,嗯,你把球和袋子拿進了辦公室,在坐下前,你把球放進了袋子裡。此時,球在袋子裡,但由於袋子底部的洞比球還大,球會從袋子中掉出來。通過這樣的推理,球很可能就在你在紐約的辦公室裡,因為它在你將袋子放進箱子之前已從袋子中掉出來。讓我把這個邏輯謎題快速通過gp4運算,檢查結果。這是從蘋果問題得到的結果,解出了36個蘋果。但它並沒有提到任何城市,所以我要把這個問題交給CLA tree,因為這裡並沒有提到紐約市,所以沒有做出這個聯繫。值得一提的是,如果看另一個謎題,它的答案就是球必定被遺落了。
尋找遺失的球在哪裡?
機器智能測試與解析
- 在我們的辦公室裡,或者已經從袋子裡掉出來了,總之這至少是完美的。接下來要進行的是長篇的上下文測試,基本上像是在干草堆中找針。讓我展示一下我準備的例子。我收集了一本完整的書籍,將所有內容粘貼到一個文本文件中。如果我們看一下,你可以看到這是我們將要尋找的那根針。我把它放在中間的第5600行,這是在2024年3月5日,當AGI首次被發現時,系統展示了超越一切的智能。所以基本上這就是我們要尋找的針。我創建了一個簡單的腳本來運行這個測試。我們只需要這裡的entropy lm函數,你可以看到我們選擇了Opus模型,然後我們將這本書籍輸入到這個變量中。我們將打開文本文件,然後要求用戶輸入AGI是什麼時候被發現的,然後運行並嘗試打印結果。讓我啟動這個腳本。讓我們運行這個腳本,但在開始之前讓我計時,這樣我們可以看到花了多長時間。好,我將讓它運行,然後在獲得答案後停止,希望一切順利。那花了3分35秒,答案是錯的,看來在你問題的前提中似乎出現了錯誤。我將嘗試重新表達並再次運行。我將問AGI是在何時被發現的根據文本。讓我們運行這個測試,看看能不能得到更好的答案。我要重置這個,啟動它,好,讓我們運行。
機器智能測試與解析
AGI發現及編碼基
- 再次回來了,好,這樣很完美。根據文本,AGI於2024年3月5日首次被發現,這很不錯。但第一次花了1分鐘30秒,很糟糕,答案也是錯誤的。不過,我必須承認,它找到了答案令人震驚,但花費了很多時間而且第一次答錯,而且它的價格昂貴。不過最終我還是得到了答案,我只是想向你展示一下這是95,747字。現在我們知道了這一點,讓我們繼續進行第三個測試,這將是三種不同類型的編碼,首先要做的是編寫一個代碼範例,嘗試構建一個比特幣終端價格動畫和進行 一些網站構建。讓我們來寫代碼,我們要測試的代碼庫是moondream,他們剛推出了moon dream true的最新版本,我剛複製了這個GitHub,將所有重要python文件集合到一個大文本文件中。所以,顯然這裡有所有的python文件,這就是Moon Dream 2的代碼庫。現在讓我們將所有這些複製並粘貼回到entropic,然後在末尾創建一個以圖像作為參數並使用Moon R 2 wish模型返回圖像的字符串描述的python代碼。基本上我們貼上了我認為重要的整個代碼庫,我們想要一個只使用我們需要的部分的函數或python代碼,讓我來運行這個,也許你看到了,我運行了。
AGI發現及編碼基
挑戰极限:開發者與限速問題的角力
- 在這裡出現了一個速率限制問題,因為你可以看到,當我運行Hast stack測試時,我使用了我每日的100萬令牌,所以我只剩下70個令牌要使用,所以我們無法運行這個較大的測試。但很幸運的是,我今天早上已經運行過了,我們可以看一下我得到的結果。這是我收到的代碼,我可以在這裡設置它以便我們可以測試,你可以看到我們在這裡使用了Moon dream 2,所以我直接從anthropic那裡拿到的,讓我們來測試一下,我放置了這個圖像,所以我們有這隻貓和狗,我們提示這張圖中有什麼動物,對,讓我們運行這個,這是Moon dream 2,這是開源的,很酷,去看看吧,我覺得它們很不錯,應該很快,因為我們正在使用Cuda對吧,這張圖中有一隻狗和一隻貓,狗是棕白色,貓是 灰白色,完美,就是這樣,直接從anthropic那裡出來,這處理得非常好,只需粘貼幾乎整個程式碼庫,所以對這結果非常滿意。我接著想嘗試編寫的下一個代碼是這個比特幣終端機實時動畫,所以我剛剛設定了這個系統提問,你是一名在Python方面具有豐富經驗的超級創意軟件開發者,然後我提示用WR輸入高級Python代碼,顯示比特幣價格圖表,從1月1日到今天以一個實時動畫在power set終端機中循環使用coindesk的API獲取價格,使用合適的顏色,你可以看到我們得到了這個代碼,但我並不是100%滿意,所以我說那很酷,但它必須是一個實時動畫。
挑戰极限:開發者與限速問題的角力
香港价格走势变迁
- 一月份的价格走势图显示,每个步骤的价格不断上涨和下沉,直到我们达到今天的价格。现在,让我们更新一下,对了,我们有一个新代码在这里,很好的。我将它复制粘贴在这里,让我展示一下结果。让我们运行一下,你可以看到这里,它在实时流动,虽然不是实时的,但当然是从API获取的,并将所有的价格点转化成这种动态效果,就像一个循环,直到我们达到今天的价格。你可以看到它随着时间的推移而演变,在左上角我们有最高价格点,你可以看到它在移动。我觉得效果相当不错,这是我以前没有尝试过的。结束时我们停在了大约67,000美元,但是我觉得效果相当不错。我想这是最后的编码挑战了,我想通过我的网 站构建器运行一下,这个构建器可以自动构建HTML网站,所以基本上我们只需要把我们的代码插入到这里。我创建了一个具象化版本的函数,所以我们只需要将这个插入到我的for循环里面,我们就可以生成一些HTML网站。我设置了一个Emoji主题,所让我们看看会有怎样的网站生成。让我们运行一下,基本上这是使用模型来编写HTML代码,然后使用Moon Dream Vision模型来截取屏幕截图,发送
香港价格走势变迁
進階系統指示的實驗
- 資料回饋並嘗試改進網站以創建一個更完善的版本,我們現在就讓它運行,看看會生成怎樣的網站。雖然這不是令人驚嘆的成果,但至少它運作了。如果你問我,這些網站有點無聊。我有更好的成果,但這只是第一次實現。讓我們繼續吧,下一個測試將是這個進階系統指示。讓我展示你這是怎麼進展的。在這裡,你可以看到我所創建的進階系統提示。我不會逐字閱讀這裡的每個詞,只會試著解釋其中的內容。你是一位熟練的計劃者,能夠使用語言執行複雜任務。如果使用者指示你以特定詞結束一個句子,請一律遵循此要求。我只是給了一個例子,讓你看看這句子如何結束。所以,每個句子都必須以相同的詞結束。我們將創建十個句子,我想要做的是每個句子中包含一個詞,當與其他句子的詞結合時,形成一則隱藏訊息。這個隱藏訊息必須在語法上正確、連貫並傳達與每個句子末尾詞相關的訊息。基本上,我 們希望的是如果取出一個詞,
進階系統指示的實驗
暗藏信息的秘密消息
- 每句話中,勇士們等待喜樂,就像我們獲得的一樣,如果我們從每句話中取一個字,我們可以獲得一個隱藏的信息,所以我給了一堆例子,我們需要一段Python代碼來解讀這個信息。我給了示例,最後我給了一些指示,我們希望這樣進行。始終以一步一步的方式完成此任務,所以我只寫了:你好,寫10句以「程式設計」結尾的句子。好的,你可以看到我們最終有10句句子,我檢查了每一句都以「程式設計」結尾,這是一個很好的開始。有些模型可能會有困難,但這個做得相當不錯。這些句子中關於最後一個字「程式設計」的隱藏信息是:經過無數個晚上,他相信他/她會通過經驗解決它。哇,這裡有一段Python代碼可以從這些句子中提取隱藏的信息。讓我複製這段代碼,這段代碼將打印隱藏的信息,讓我們看看。複製這個,插入這裡,好,讓我們看看這是否有效。Python解碼器忘記了逗號,啊,我看到了。清除這個,經過晚上和科技相信她已經決定解決了,所以這沒有成功,但是我想這是一次不錯的嘗試。也許我本可以更多地工作在系統提示,但除此之外,我對這個很滿意。它並沒有完美地完成,但至少每句話都以「程式設計」結尾。最終測試到此
暗藏信息的秘密消息
比特幣價格預測
- 今天我將上傳一些圖片,嘗試從中獲得一些信息,我打算通過上傳幾幅圖片來預測比特幣的價格,看看結果如何。由於我已經用盡了速率限制,無法即時運行系統,但基本上我把系統設置為您,一位專業的數據分析專家和比特幣專家,您的任務是給出您對比特幣價格在六個月後的最佳預測。在這裡,您可以看到我上傳了三幅與比特幣相關的圖片,利用您的所有歷史信息,並給出您最好的預測,比特幣在3個月後可能會走向何方。我們上傳了這張彩虹圖表圖像,展示了比特幣隨時間的價格走勢,還有我們上傳了比特幣的下次分叉時間,即43天後,以及今天的比特幣價格和今年價格的圖表。好的,我們概括了所有關鍵因素,比特幣彩虹對數回歸和比特幣分叉週期指示下一次將在13個月後的4月份記錄下來,您可以看到價格大約為67,500美元,明顯突破了先前約為65,000美元的歷史最高價,從2021年4月我想應該是更接近69,000美元的歷史數據等等,我試圖使用更多數據驅動的方法來更好地瞄準價格估計,您提到了採取更多基於數據的方法來精煉6個月後的預測,我認為這樣做會更好一些,它進一步探討了一些內容。
比特幣價格預測
比特幣價格預測報告2024
- 根據圖表顯示,每經過約210,000個區塊,大約採礦了8,000個區塊,這意味著已經完成了大約75%的進度。然後嘗試將一些斐波那契擴展水平應用到2021年7月的低點。最終得出了最有可能的價格估計為112,000美元,進行了非常專業的技術分析。我問到您對112,000美元價格幾何信心有多少,您需要量化自己的信心水平,例如50%的信心在這個範圍內、25%在另一個範圍內、15%在另一個範圍內,以及10%在低於88,000美元的範圍內,這是非常樂觀的。我已經創建了一份精美結構的比特幣預測報告,將其製作成PDF並添加圖片。這是我們得到的報告,您可以看到我們的預測圖表,這是我們最後得到的Python代碼,結果是這個圖表。我覺得這相當不錯,可以看到未來六個月比特幣價格預測,這是從API獲取的價格和預測,我認為這有點樂觀,幾乎是一條幾乎直直向上的直線。讓我向您展示我們最終得到的PDF報告,您可以看到比特幣價格預測報告2024,其中包括關鍵驅動因素:比特幣挖礦週期、對數回歸及彩虹。
比特幣價格預測報告2024
加密貨幣價格預測與未來展望
- 這是一份關於加密貨幣價格預測與未來展望的報告。報告中提到了圖表採用、機構興趣以及一些良好的鏈上指標。在報告中,對價格的預測基本情況有一定的信心水平,預測價格為112,000美元。報告涵蓋了多種情況:看漲情況、中立情況、看跌情況 以及風險與不確定因素,如定期打壓、宏觀經濟衝擊或主要貨幣政策的重大變化等。報告還提到了可能出現的黑天鵝事件、技術故障、優越的競爭對手崛起、非理性市場情緒或炒作驅動的泡沫等。總結來說,截至9月24日,預計價格將達到112,000美元。作者對這份報告印象深刻,認為內容十分具有說服力,並表示將在未來的API項目中採用這個模型。
加密貨幣價格預測與未來展望
Conclusion:
這次的測試確實充滿了挑戰和創意,讓我對新的LLM有了更深的了解。