Skip to content
-
Subscribe to our newsletter & never miss our best posts. Subscribe Now!
  • https://www.facebook.com/
  • https://twitter.com/
  • https://t.me/
  • https://www.instagram.com/
  • https://youtube.com/
綠野旅情
綠野旅情
  • 首頁
  • 生活
  • 一般
  • 國際
  • 即時
  • 健康
  • 社會
  • 工商
  • 財經
  • 首頁
  • 生活
  • 一般
  • 國際
  • 即時
  • 健康
  • 社會
  • 工商
  • 財經
Subscribe
Close

搜尋

即時工商科技

雲知聲Unisound U1-OCR大模型發布!首個工業級文件智慧基礎大模型,開啟OCR 3.0時代

By terry
2026 年 2 月 26 日 1 Min Read
Comments Off on 雲知聲Unisound U1-OCR大模型發布!首個工業級文件智慧基礎大模型,開啟OCR 3.0時代

北京2026年2月26日 /美通社/ — 就在剛剛,雲知聲正式推出「Unisound U1-OCR」 文件智慧基礎大模型。作為首個工業級文件智慧基座,該模型憑借 「效能 SOTA、可信可驗、開箱即用、高效部署、強適配」 五大核心優勢,打破傳統文件處理邊界,樹立起行業新標杆。

一、技術跨越:從 OCR 2.0 邁向 3.0

文件智慧(Document Intelligence)是指利用人工智慧技術自動閱讀和理解文件影像,並進行內容的讀取、理解、分類及關鍵資訊提取。傳統視覺方案(OCR 1.0,以 CRNN 為代表)僅能識別文字,新一代多模態方案(OCR 2.0,以VLM為代表 )具備初步版面理解能力。而 「Unisound U1-OCR」 則正式開啟 OCR 3.0 時代——在理解版面的基礎上,進一步洞察文件深層語義,實現自動分類與業務級資訊抽取,完成了從「字元感知」到「文件認知」的質的飛躍。

二、實力領跑:多項權威評測穩居全球第一梯隊

「Unisound U1-OCR」是一款達到國際頂尖水平(SOTA)的文件智慧理解模型,其核心優勢在於突破了傳統模型「只讀文字、不懂排版」的瓶頸,能夠像人類專家一樣「看懂」複雜文件。為適應 OCR 3.0 時代對於文件業務級結構化抽取的新要求,Unisound U1-OCR 採用 ViT + LLM 架構,其中視覺編碼器部分採用 NaViT 架構,實現文件解析度動態處理,模型引數規模 3B 量級,兼顧模型計算效率與文件深層語義資訊理解的能力要求。除此之外,模型還提出了多項創新舉措:

首先,它擁有「先懂結構,再讀內容」的智慧。傳統模型往往按順序死板閱讀,而「Unisound U1-OCR」首創了「語義驅動+動態聚焦」策略。如同人類閱讀習慣,先梳理文件目錄、標題的層級關系,再按需提取內容。模型能自動構建文件的「語義地圖」,精準識別標題、圖表與正文的從屬關系,即使面對排版混亂的極端場景,也能條理清晰地提取資訊。

其次,它具備敏銳的「空間感知力」。透過強化空間對齊模組,模型能充分利用文字在頁面上的位置資訊,主動理解元素間的空間佈局。結合動態解析度技術,無論是密集表格還是圖文混排,它都能精準還原文件結構,徹底解決了以往模型「張冠李戴」的空間盲區。

此外,模型採用Multi-Token Prediction(MTP)技術——在預測當前 Token時,同步考慮未來多個Token的機率分佈,大幅提升長文件邏輯連貫性。配合全任務強化學習策略,增強模型對版式結構的全域性預見性並在推理階段將模型生成效率提升了80%以上。在訓練階段,採用多工協同強化訓練方案,實現文件結構還原、文件分類與資訊抽取的深度對齊。強化訓練策略圍繞「語義+坐標」雙目標最佳化,針對坐標回溯的 IoU 精度進行專項強化,有效遏制定位幻覺,確保輸出結果的物理可信度。透過多檔位解析度擾動與Mask取樣策略,顯著提升了模型多場景文件影象的理解能力。

憑借這些創新,Unisound U1-OCR在多項權威測試中均獲業界SOTA表現,真正實現了從「識別文字」到「理解文件」的跨越。

1. OmniDocBench V1.5評測SOTA

在OmniDocBench V1.5評測中,Unisound U1-OCR以95.1分取得SOTA表現(如圖1),領先GLM-OCR,Deepseek-OCR2,Gemini-3-Pro,GPT-5.2等主流模型,實現了精度與泛化能力的雙重突破。

圖1Unisound U1-OCR在OmniDocBench V1.5的評測得分對比
圖1Unisound U1-OCR在OmniDocBench V1.5的評測得分對比

2. D4LA評測SOTA

在D4LA評測中, F1 分數達 90.8,大幅領先 DocLayout-YOLO(87.3)、PP-StructureV3(86.0)。無需微調即可高精度解析學術論文、財務報表等 11 類高複雜度文件。

3. DocLayNet評測SOTA

在DocLayNet評測中,F1 分數 95.9,超越 MinerU 2.5、PP-StructureV3 等模型。在表格識別、跨頁關聯、微小文字檢測等高難任務上優勢顯著,魯棒性極強。

4. 業務相關評測SOTA

在內部業務測試中,其資訊抽取與文書分類能力超越 Gemini-2.5-Flash、Qwen-235B-VL 等主流通用商業和開源模型。特別是在醫療入院記錄、出院小結等強業務場景中,領先優勢尤為明顯,Unisound U1-OCR 以 3B 規模的引數獲得比更大規模通用 VLM 更好的評測效能。與較小尺寸的文件解析任務模型相比,得益於模型多項創新舉措,在業務級資訊抽取等深層語義資訊理解的能力表現更好。

三、面向真實場景:4大核心能力助推U1-OCR從「讀懂」邁向「執行」

作為開  啟OCR 3.0時代的文件智慧基礎大模型,除了在通用評測中斬獲多項SOTA,Unisound U1-OCR更立足工業級場景需求,打造了四大核心能力,實現從『讀懂』到『執行』的業務落地。

1. 可信可查:精準溯源,結果可驗

模型獨創「坐標-文字-語義」融合架構,實現畫素級精準定位與完整證據鏈構建。在完成資訊抽取的同時,系統精準標示資訊在文件中的來源位置,使結果審核過程全透明、可追溯,從技術層面保障文件處理結果的可信度,徹底解決傳統文件處理「結果不可驗」的行業難題。

例如,在企業審核場景中,審核人員無需大海撈針般翻閱原文,點選抽取結果即可實時高亮定位原始位置。這種「人機協同」的閉環將審核耗時縮短至秒級,讓人工漏檢率降至最低,真正實現了「可信任的AI」。

2. 業務融合:開箱即用,Agent Ready

通用OCR工具在專業領域存在侷限——例如醫保結算單中「自付一」「自付二」與「個人自費」的邏輯關系,或合同中金額大小寫的校驗規則,都需要領域知識支撐。

Unisound U1-OCR在基礎模型之上,融入了雲知聲在醫療、金融等領域的行業知識積累,模型可基於業務邏輯進行多欄位關聯校驗。在內部業務測試中,面向50餘種常見業務文書的分類準確率超過99%。

3. 高效部署,安全可控

模型深度支援私有化與離線部署,可在無外網環境下穩定執行,完美匹配政務、醫療、金融等高安全等級行業的資料隱私保護需求。同時,透過版面級並行解碼與多Token預測架構等最佳化措施,一份十多頁的文件,整理處理可在數秒內完成,高效的文件處理能力,讓工業級文件智慧能力觸手可及。

4. 超強適配,攻克複雜場景

針對企業實際業務中遇到的非標準拍照、文件彎折模糊、複雜花式排版、多語言混排等各類極端複雜文件場景,Unisound U1-OCR仍能保持穩定、高精度的處理表現,徹底擺脫傳統技術對標準化文件的依賴,真正適配企業真實業務的全場景需求。

 

原始來源:智聞捷發新聞發佈平台

網址:https://www.111.net.tw

歡迎前往新聞發佈平台發佈新聞

Tags:

AIGDPROCRPIPL大模型數據合規數據處理歐盟AI法案隱私計算
作者

terry

Follow Me
Other Articles
Previous

IEI 於 2026 Embedded World 展示 Secure-by-Design 強韌邊緣基礎架構,賦能 AI 時代的工業營運韌性

Next

再鼎醫藥公佈2025年第四季度及全年財務業績和近期公司進展

搜尋

最新文章

  • 三十載光輝印記:美納里尼國際公平競技獎於佛羅倫斯五月音樂節劇院璀璨亮相 2026 年 7 月 4 日
  • 海信為歐洲家庭帶來更智能便捷的制冷體驗 拉動市場高速增長 2026 年 7 月 3 日
  • Intersolar 2026 高光集錦 | 安泰新能源發佈農光跟蹤系統解決方案,攜全場景光伏支架共築歐洲綠能未來 2026 年 7 月 3 日
  • 美納里尼國際公平競技獎:第30屆正式啟動 2026 年 7 月 2 日
  • DJI 發表全新雙主鏡頭口袋電影機Osmo Pocket 4P:靈眸成雙,遠見非凡 2026 年 7 月 1 日
  • 「健身創始之父」—-Les Mills Snr 1934 – 2026 2026 年 7 月 1 日
  • 卡西歐將推出EDIFICE自動機械腕表 光影變幻呈現多元質感 2026 年 7 月 1 日
  • 從「帶孩子度假」到「全家人的假期」 三亞艾迪遜酒店重新詮釋家庭旅行體驗 2026 年 7 月 1 日

分類

  • Homepage Ads
  • 一般
  • 人事資訊
  • 健康
  • 兩岸
  • 即時
  • 國際
  • 娛樂
  • 媒體發佈
  • 工商
  • 政治
  • 教育
  • 數位公關
  • 新聞稿發佈
  • 時尚
  • 智聞捷發
  • 生活
  • 社會
  • 科技
  • 言論
  • 財經
  • 軍事
Copyright 2026 — 綠野旅情. All rights reserved. Blogsy WordPress Theme

關於「綠野旅情」

「綠野旅情」為旅遊主題新聞網站,每日彙整國內外旅遊焦點與產業脈動,提供即時、深度的旅遊資訊。

本站由 智聞捷發新聞發佈平台 營運。

合作・提案・試發新聞

我們誠摯歡迎各行各業洽談合作與內容提案。無論品牌新聞、產品發表或產業觀點,皆可透過「智聞捷發新聞發佈平台」試發新聞稿,讓您的訊息觸及更廣大讀者。

立即洽談合作 ✉

聯絡我們

  • 營運單位智聞捷發 111.net.tw
  • 投稿合作ecoyah+36@gmail.com
  • 客服信箱ecoyah+36@gmail.com
© 2026 智聞捷發 111.net.tw・「綠野旅情」版權所有