毛片网站在线观看-毛片网站在线-毛片网站有哪些-毛片网站视频-女生脱衣服app-女色综合

ABB
關(guān)注中國自動化產(chǎn)業(yè)發(fā)展的先行者!
CAIAC 2025
2025工業(yè)安全大會
OICT公益講堂
當(dāng)前位置:首頁 >> 資訊 >> 行業(yè)資訊

資訊頻道

邊側(cè)大模型基準(zhǔn)測試:政務(wù)大模型初探
  • 點(diǎn)擊數(shù):372     發(fā)布時間:2025-03-10 17:14:04
  • 分享到:
隨著大模型進(jìn)入應(yīng)用時代,針對個性化、合規(guī)、實(shí)時性需求,邊側(cè)大模型服務(wù)成為大趨勢。其中,政務(wù)大模型是最為典型的邊側(cè)大模型行業(yè)應(yīng)用之一。

中國科學(xué)院大學(xué) 陳孟卓

華為云 鄭子木

摘要:隨著大模型進(jìn)入應(yīng)用時代,針對個性化、合規(guī)、實(shí)時性需求,邊側(cè)大模型服務(wù)成為大趨勢。其中,政務(wù)大模型是最為典型的邊側(cè)大模型行業(yè)應(yīng)用之一。在各地政府,政務(wù)領(lǐng)域應(yīng)用該模型能推進(jìn)業(yè)務(wù)辦理智能化,幫助政府機(jī)構(gòu)提升處理效率和服務(wù)質(zhì)量。然而,現(xiàn)有大模型基準(zhǔn)測試大多集中于評估模型的通用能力或者特定學(xué)科任務(wù)的性能,而對于模型在特定行業(yè)中的應(yīng)用能力,例如處理政務(wù)的能力評測方面,卻缺乏相應(yīng)的評測數(shù)據(jù)集。為填補(bǔ)這一空白,本文提出了一種新的中文政務(wù)理解基準(zhǔn)測試(A Chinese Government Affairs Understanding Evaluation Benchmark,CGAUE)。本基準(zhǔn)是開放、社區(qū)驅(qū)動的,不僅包含對模型的客觀能力測試集,還提供對模型主觀能力的測試集。具體來說,本基準(zhǔn)旨在評估大模型在處理政務(wù)相關(guān)任務(wù)時的表現(xiàn),包括但不限于對外部知識的利用以及對實(shí)際市民問題的響應(yīng)能力,更真實(shí)地反映模型在實(shí)際政務(wù)場景中的應(yīng)用效果。此外,本文還提出了一種新的測試集參考格式。該格式在大模型領(lǐng)域具有通用性和兼容性,可促進(jìn)不同測試集的相互交換、集成和處理,以及不同模型之間的比較和評估,推動了大模型評測產(chǎn)業(yè)發(fā)展。總的來說,本工作通過構(gòu)建全新的中文政務(wù)理解評估基準(zhǔn)和評測數(shù)據(jù)集參考格式,推動了大模型在實(shí)際政務(wù)領(lǐng)域的應(yīng)用和評測。這不僅有助于提高模型在行業(yè)中的實(shí)用性,也為大模型的研究和開發(fā)提供了新的方向和挑戰(zhàn)。

關(guān)鍵詞:大模型;基準(zhǔn)測試;政務(wù)大模型

在線預(yù)覽:邊側(cè)大模型基準(zhǔn)測試:政務(wù)大模型初探.pdf

摘自《自動化博覽》2025年2月刊

熱點(diǎn)新聞

推薦產(chǎn)品

x
  • 在線反饋
1.我有以下需求:



2.詳細(xì)的需求:
姓名:
單位:
電話:
郵件: