又大又粗又猛免费视频久久_国产理论在线播放_久久男人av资源网站免费软件_99国产精品无码

自媒體人必備:文心一言、Kimi等4款AI大模型測評對比及推薦

現(xiàn)在,國內(nèi)已經(jīng)有海量大模型誕生,那么,哪款大模型的表現(xiàn)會更好?這篇文章里,作者站在自媒體人的角度,對四款大模型做了評估和對比,一起來看一下。

自媒體人必備:文心一言、Kimi等4款AI大模型測評對比及推薦

說到AI,很多人會想到ChatGPT,而我們現(xiàn)在也有許多好用的國產(chǎn)AI大模型。

在2023年的中國,8個月內(nèi)誕生了238個大模型,阿里、華為、騰訊、京東、字節(jié)、360、科大訊飛等一眾大廠紛紛下場,還有復旦、清華等高校機構加速研究,以及智譜AI、月之暗面等黑馬出現(xiàn)。

這些海量AI大模型里,子木挑選了4款市面上反響比較好的、也是我常用的AI大模型進行評估對比,幫助你選擇適合自己的國產(chǎn)AI大模型。

本文評估的4個AI大模型

文心一言4.0、通義千問、kimiAI、天工AI。

一、大語言模型的5個評估維度

對于AI大模型的評估,目前還沒有權威、統(tǒng)一的評估維度,我根據(jù)文案創(chuàng)作的需求、使用習慣,建立了自己的AI大模型內(nèi)容創(chuàng)作評估維度:

自媒體人必備:文心一言、Kimi等4款AI大模型測評對比及推薦

1. 語言質(zhì)量與創(chuàng)意性

這是用AI創(chuàng)作中最關注的部分,體現(xiàn)AI寫出來的內(nèi)容質(zhì)量。

它包括:

文本流暢度,用來評估AI生成的文案是否自然流暢,語法正確,符合人類日常交流習慣,我會用主題文章、簡歷撰寫這兩個題目來進行測試評估;

個性化內(nèi)容,用來評估AI是否可以根據(jù)我們輸入的個性化要求,比如語氣、風格等等來定制文案,滿足不同的創(chuàng)作需求,我會用不同人物介紹同一個事物的2個問題來進行測試評估。

2. 領域適應性

用來評估AI模型是否具備特定行業(yè)或領域的專業(yè)知識,能否生成相關性強、準確無誤的文案內(nèi)容,我比較關注的是新媒體、教育培訓行業(yè),所以我一般會用這兩個行業(yè)的代表性問題來進行測試評估,這一塊每個行業(yè)的問題不一樣,大家可以根據(jù)自己的行業(yè)來設計問題。如果有需要的話,也可以提問或聯(lián)系我交流。

3. 邏輯性

用來評估AI創(chuàng)作內(nèi)容的邏輯性,我會用公務員考試常用的邏輯推理題,和故事的續(xù)寫這兩個問題來測試評估,邏輯推理題是看它的推理過程,結果是否正確,而故事的續(xù)寫,看情節(jié)是否合理、人物的行為是否符合邏輯。

4. 時效性

時效性決定了AI生成內(nèi)容時是否能用到最新的案例或事件、我們在用AI尋找資訊時是否能給到最新的信息。我會用最新的熱點事件、1個月前、3個月前的3個不同問題,來評估測試AI的時效性。

5. 成本與易用性

AI作為一個輔助工具,是不是方便使用、使用成本如何,也是我們需要考慮的點。

二、4款國產(chǎn)大模型對比

1. 大模型簡介

  1. 文心一言4.0:是百度推出的知識增強大語言模型,可以輸出文本內(nèi)容,也可以生成圖片。
  2. 通義千問:是阿里云發(fā)布的千億級參數(shù)大模型,可以分析文檔,提煉文檔的關鍵信息。
  3. KimiAI:月之暗面開發(fā)的大模型,可以上傳PDF、word、ppt、圖片等多種格式的文檔,還可以分析網(wǎng)頁內(nèi)容,比較有意思的是,還能直接訪問小紅書的鏈接,抓取內(nèi)容進行總結。
  4. 天工AI昆侖萬維開發(fā)的雙千億級大語言模型,它的語言能力也很不錯。

2. 文本流暢度對比

我把4個大模型寫的“一花獨放不是春”命題作文內(nèi)容,給中學語文老師看了,滿分60分,可以打到40分以上的程度,整體表現(xiàn)都還不錯。

文心一言4.0的文筆流暢度更高,文彩也更好。對于主題的整體理解更加準確,沒有什么邏輯問題,可以算得上是一篇文采不錯的作文。

通義千問的流暢度也還不錯,但是行文手法不如文心一言老練,比較中規(guī)中矩,相對文心一言4.0弱一些。

kimiAI的語言流暢度跟通義千問類似,但對于主題的理解相對弱一些,文章的整體性相對最弱,有一些段落偏離了題目本身的意思。

天工AI的行文流暢、老練,只是有一兩個段落顯得有些生搬硬套,前后意思不一致,有意思的是,天工AI表現(xiàn)出了比較強的政治素養(yǎng),寫出來的內(nèi)容不像高考作文,而更像申論作文,做政務公文類的可以優(yōu)先考慮天工AI。

打分:

  • 文心一言4.0 ? ? ? ? ?
  • 通義千問 ? ? ? ?
  • kimi AI ? ? ?
  • 天工AI ? ? ?

3. 個性化內(nèi)容對比

四個AI大模型都能夠區(qū)分不同的口吻,同時,也能夠區(qū)分不同的身份角色對于同一件事情所關注的不同的方面。

從8歲女孩的角度來介紹一輛新能源車,4個大模型都會把重點放在了車子是用電的、很神奇的描述上,也都用到了小孩子能理解的語言,用打比方的、形象化的描述來講這個車子。其中,kimi AI對于角色年齡的把握比其他三個大模型稍微弱一點。

而從男企業(yè)家的角度來介紹新能源車,4個大模型都選擇了將新能源車定義為這個企業(yè)家自己的產(chǎn)品,從更宏觀的角度開始介紹這輛車,都表達了對于“未來出行”的創(chuàng)新和積極探索,側(cè)重從技術的角度來介紹。

所以在個性化內(nèi)容方面,4個大模型表現(xiàn)差不多,kimiAI要稍微弱一些。

打分:

  • 文心一言4.0 ? ? ? ? ?
  • 通義千問 ? ? ? ? ?
  • kimi AI ? ? ? ?
  • 天工AI ? ? ? ? ?

4. 邏輯性對比

AI思考邏輯測試,內(nèi)容是一道經(jīng)典的公務員考試的行測問題。

4個AI都在很短的時間內(nèi)給出正確答案,AI參加公務員考試,估計能秒殺99.9%的人。

在回答的內(nèi)容中,文心一言給到的思路最詳盡、看起來條理也相對最清晰,而天工AI給到的思路最簡略,沒有描述太多的思考過程,我認為這是相對欠缺的。

AI續(xù)寫邏輯測試,內(nèi)容一個故事的續(xù)寫。

我在故事里設計了3個人物,發(fā)現(xiàn)藏寶地圖的小明、他的好朋友小帥、妹妹小美,而故事也是圍繞著尋寶的冒險之旅展開,這樣,就能考察AI對于人物的設定,是否符合邏輯,以及故事線是否符合邏輯。

在這個測試中,文心一言的表現(xiàn)相對較好,發(fā)揮了較強的對于人物風格的把控能力,能夠在故事中寫人物對話,對話的風格也符合3個人物的性格設定,故事內(nèi)容更長,相對更細致。

通義千問則發(fā)揮了更多的創(chuàng)造力,賦予了人物更多不同的特點,不過內(nèi)容更概括簡短。

kimi的表現(xiàn)與通義千問相似,也是通過賦予人物不同特點來塑造人物,對故事的描述更加細節(jié)一些,內(nèi)容也稍長一點。

天工AI的內(nèi)容則更加簡短,沒有把控不同的人物風格、也沒有賦予人物不同的特點,表現(xiàn)相對是最弱的。

打分:

  • 文心一言4.0 ? ? ? ? ?
  • 通義千問 ? ? ? ?
  • kimi AI ? ? ? ?
  • 天工AI ? ? ?

5. 時效性對比

這是我非常非??粗氐姆矫?,在內(nèi)容的創(chuàng)作中,引用時下的熱點資訊,對于自媒體運營而言,是一種重要的能力,所以我們會需要時效性強的AI。我用最新、一個月前、三個月前的三個問題來進行測試。

在這一輪測試中,表現(xiàn)最弱的,反而是曾經(jīng)的搜索巨頭百度所開發(fā)的文心一言

對于2月29日前的最新熱點“董宇輝為什么清空微博”這件事情的解釋上,通義千問、kimi、天工三個大模型都給出了正確答案,只有文心一言給出的答案不正確。

對于一個月前哈爾濱的熱點、三個月前的雙十一銷售額,則4個大模型都給出了正確答案。

同時,文心一言、kimi AI都給出了答案所引用的參考資料,但文心一言給的參考資料,主要都來自百度系自己的內(nèi)容,主要是好看視頻、百家號,但這里存在一個bug:大語言模型不能解析視頻內(nèi)容,所以對于董宇輝為什么清空微博這件事情,文心一言雖然根據(jù)視頻的標題,找到了好看視頻中的參考資料,但是因為不能解析視頻內(nèi)容,找到參考資料也看不懂,就像找到一份天書,仍然只能根據(jù)自己的邏輯編造一個回答。

而同樣給出了參考資料的kimi AI,對于董宇輝清空微博的事件,則引用了更新的、也更全面的資訊。它引用了最近1天的內(nèi)容鏈接,引用來源包括騰訊網(wǎng)、知乎、澎湃媒體等,搜索來源比文心一言更廣。

我在使用kimi AI搜索AI相關的內(nèi)容時,它能給到的參考資料范圍也很廣、很精準,除了主要來源知乎之外,還會給到包括GitHub、人民數(shù)據(jù)、中國通信院,和一些可以公域訪問的數(shù)據(jù)報告的鏈接,搜索能力和時效性是比較強的。

另外2個AI大模型,通義千問和天工AI雖然沒有給到引用鏈接,但對3個問題的回答都是準確的。

所以在時效性上,kimiAI最強,它不僅能比較大范圍地搜索到相關資訊,并且能給出引用鏈接,讓我們能夠直接通過鏈接,去判斷這個內(nèi)容的有效性、是否正確,通義千問和天工AI相對較弱,因為不能給出引用鏈接,對我們判斷起來相對更困難一點,最弱的是文心一言。

打分:

  • 文心一言4.0 ? ? ?
  • 通義千問 ? ? ? ?
  • kimi AI ? ? ? ? ?
  • 天工AI ? ? ? ?

6. 成本易用性對比

目前,4個AI大模型都能直接通過網(wǎng)頁鏈接訪問到,kimiAI、文心一言、天工AI都能在微信小程序里使用,非常方便,通義千問雖然沒有官方的小程序入口,但是使用網(wǎng)頁端也是比較方便的。在成本上,除了文心一言4.0需要49.9元的月費,或588.8元的年費,其他3款都是暫時免費。

打分:

  • 文心一言4.0 ? ? ? ?
  • 通義千問 ? ? ? ? ?
  • kimi AI ? ? ? ? ?
  • 天工AI ? ? ? ? ?

三、總結

自媒體人必備:文心一言、Kimi等4款AI大模型測評對比及推薦

在實際使用中,我一般會選擇文心一言4.0加kimi AI的組合。

用kimiAI搜索資料、拓展內(nèi)容,它是我目前比較喜歡用的搜索方式,在向kimiAI提問時,我會先看它給的回答,然后看它給的參考資料,其中有哪些資料是權威、官方的,比如數(shù)據(jù)報告等,在這些資料中找一找是否有新的信息。這樣的搜索方式,比百度、小紅書、微信搜索更加精準快速。

文本創(chuàng)作時,我會傾向于用文心一言4.0,它生成的內(nèi)容更加流暢、符合邏輯,內(nèi)容質(zhì)量相對更高。

專欄作家

李子木說運營,公眾號:李子木說運營,人人都是產(chǎn)品經(jīng)理專欄作家。自媒體及IP孵化顧問,前互聯(lián)網(wǎng)大廠品牌項目負責人,致力于研究企業(yè)及個人品牌影響力與獲客。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自 Unsplash,基于 CC0 協(xié)議

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務。

相關新聞

聯(lián)系我們
聯(lián)系我們
在線咨詢
分享本頁
返回頂部