Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Các tác nhân AI đang bắt đầu thực hiện phân tích sinh học thực sự: kiểm tra các tập dữ liệu, chạy các quy trình tính toán và sản xuất các kết quả nghiên cứu có giá trị.
Khi AI cho khoa học tiến gần hơn đến việc sử dụng thực tế trong các phòng thí nghiệm, câu hỏi về cách đánh giá hiệu quả các tác nhân sinh học trở nên ngày càng quan trọng.
BixBench Verified 50 là một danh sách câu hỏi được chọn lọc để đánh giá các tác nhân sinh học trong nhiều lĩnh vực sinh tin học.
Chúng tôi đã thử nghiệm BIOS AI Scientist trên BixBench Verified 50 cùng với các tác nhân AI đa mục đích và chuyên ngành.
BIOS dẫn đầu với độ chính xác 90% cùng với K-Dense.
Theo sau là:
> Biomni Labs - 88.7%
> Edison Scientific - 78.0%
> Claude - 65.3% &
> OpenAI Agents SDK - 61.3%
Xem đầy đủ kết quả:
Một điểm rút ra quan trọng: việc đánh giá các tác nhân sinh học không chỉ là xem quy trình phân tích có chạy đúng hay không.
Trong một nhiệm vụ chuẩn, tác nhân đã tính toán các mối tương quan đúng, nhưng đã hiểu sai ý nghĩa sinh học của một cột dữ liệu.
Kết quả: phân tích đúng về mặt số học, nhưng kết luận lại bị đảo ngược về mặt sinh học.
Khi các tác nhân sinh học chuyển từ các chuẩn mực kiểm soát sang các môi trường khoa học thực tế, chúng ta cần đánh giá quy trình làm việc, giả định và lý luận, không chỉ là xem câu trả lời cuối cùng có đúng về mặt số học hay không.
Đọc thêm trong bài viết trên blog của chúng tôi:

Hàng đầu
Thứ hạng
Yêu thích
