職位描述
崗位職責:
1、負責大模型自動化評測體系的建設與迭代,涵蓋評測流程設計、指標體系制定、工具與平臺開發(fā),確保評測結(jié)果科學、穩(wěn)定、可復用;
2、基于Agent與Workflow等先進技術(shù),搭建自動化評測Pipeline,支持文本、多模態(tài)及AI應用的效果評估;
3、深入研究新型大模型評測方法與技術(shù),制定科學合理的評測策略,推動評測體系的智能化與標準化,為模型優(yōu)化提供有價值的反饋;
4、與研發(fā)團隊緊密協(xié)作,將自動化評測體系嵌入模型訓練與產(chǎn)品研發(fā)流程,形成評測與優(yōu)化的閉環(huán)支持。
任職要求:
1、本科及以上學歷,計算機科學、人工智能、計算語言學等相關(guān)專業(yè)優(yōu)先;
2、掌握Python等編程語言,具備PE撰寫調(diào)優(yōu)、Agent/Workflow搭建實踐經(jīng)驗優(yōu)先;
3、具備1年以上大模型評測或相關(guān)經(jīng)驗,熟悉常見評測指標和方法,了解自動化評測工具或平臺的開發(fā)與應用;
4、對大模型評測與優(yōu)化充滿熱情,關(guān)注前沿研究動態(tài),具備快速學習與持續(xù)探索能力;
5、思路清晰,邏輯性強,具備跨團隊協(xié)作與溝通能力,能夠在復雜項目環(huán)境中獨立推進工作優(yōu)先。