最新的更新
更多的生成式人工智能覆蓋和框架整合,減少代碼更改。
- Mixtral和URLNet模型在Intel® Xeon®處理器上進行了性能優化。
- Stable Diffusion 1.5、ChatGLM3-6B和Qwen-7B模型在集成GPU的Intel® Core™ Ultra處理器上優化了推理速度。
- 支持Falcon-7B-Instruct,一款生成式人工智能大型語言模型(LLM),準備好用於聊天/指導模型,具備卓越的性能指標。
- 新增Jupyter筆記本:YOLO V9、YOLO V8定向邊界框檢測(OOB)、Keras中的Stable Diffusion、MobileCLIP、RMBG-v1.4背景移除、Magika、TripoSR、AnimateAnyone、LLaVA-Next和使用OpenVINO和LangChain的RAG系統。
更廣泛的LLM模型支持和更多的模型壓縮技術。
- 通過壓縮嵌入的額外優化,減少了LLM編譯時間。提高了在第4和第5代Intel® Xeon®處理器上具備Intel® 高級矩陣擴展(Intel® AMX)的LLM首個標記的性能。
- 更好的LLM壓縮和改進的性能,支持oneDNN、INT4和INT8在Intel® Arc™ GPU上的運行。
- 在集成GPU的Intel® Core™ Ultra處理器上,選定的小型生成式人工智能模型顯著減少了內存占用。
更多的可移植性和性能,以便在邊緣、雲端或本地運行AI。
- Intel® Core™ Ultra處理器的預覽NPU插件現在可在OpenVINO開源GitHub存儲庫中找到,此外還可以在PyPI上的OpenVINO包中找到。
- JavaScript API現在更容易通過npm存儲庫訪問,使JavaScript開發人員無縫訪問OpenVINO API。
- 默認情況下,ARM處理器上的卷積神經網絡(CNN)現在啟用了FP16推理。
OpenVINO™ 運行時 (Runtime)
通用
- Windows上現在支持Unicode文件路徑緩存模型。
- 填充預處理API,用常量擴展輸入張量邊緣。
- 已實施對某些圖像生成模型推理失敗的修復(轉換後的融合I/O端口名稱)。
- 編譯器的警告作為錯誤選項現在已啟用,提高了編碼標準和質量。新的OpenVINO代碼不允許出現構建警告,現有的警告已修復。
- 現在支持從ov::CompiledModel返回ov::enable_profiling值。
- 在第4和第5代Intel® Xeon®處理器上,具備Intel® 高級矩陣擴展(Intel® AMX)的LLM首個標記的性能已提升。
- 通過壓縮嵌入的額外優化,改進了LLM編譯時間和內存占用。
- 進一步改進了MoE(如Mixtral)、Gemma和GPT-J的性能。
- 在ARM設備上,許多模型的性能顯著提升。
- 現在,ARM設備上的所有類型模型默認使用FP16推理精度。
- 已實現CPU架構無關的構建,以實現不同ARM設備上的統一二進制分發。
- 在集成和獨立GPU平台上,LLM的首個標記延遲已改進。
- 在集成GPU平台上,ChatGLM3-6B模型的平均標記延遲已改進。
- 在Intel® Core™ Ultra處理器上,Stable Diffusion 1.5 FP16精度的性能已改進。
- NPU插件現在是OpenVINO GitHub存儲庫的一部分。所有最新的插件更改將立即在存儲庫中可用。請注意,NPU是Intel® Core™ Ultra處理器的一部分。
- 新增OpenVINO筆記本“Hello, NPU!”,介紹了在OpenVINO中使用NPU。
- 運行NPU推理需要Microsoft Windows® 11 64位版本22H2或更高版本。
- 現在使用GIL無鎖創建RemoteTensors - 持有GIL意味著該過程不適合多線程,移除GIL鎖將提高性能,這對Remote Tensors的概念至關重要。
- 在Python API級別添加了打包數據類型BF16,開創了支持numpy未處理數據類型的新方式。
- 為ov::preprocess::PrePostProcessorItem添加了‘pad’操作符支持。
- 提供了ov.PartialShape.dynamic(int)定義。
- 添加了兩個新的縮放和均值預處理API。
- 添加了新方法以使JavaScript API與CPP API對齊,例如CompiledModel.exportModel()、core.import_model()、Core設置/獲取屬性和Tensor.get_size()、Model.is_dynamic()。
- 擴展了文檔,以幫助開發人員開始將JavaScript應用程序與OpenVINO集成。
- 現在支持tf.keras.layers.TextVectorization分詞器。
- 改進了具有變量和HashTable (dictionary) 資源模型的轉換。
- 新增了8個操作(見此處,標記為NEW)。
- 10個操作已接收復雜張量支持。
- TF1模型的輸入張量名稱已調整為每個輸入只有一個名稱。
- 由於以下原因,Hugging Face模型支持覆蓋顯著增加:
- 修復了內存中模型的輸入簽名提取,
- 修復了內存中模型的變量值讀取。
- ModuleExtension,一種新的PyTorch模型擴展類型,現在支持(PR #23536)。
- 新增了22個操作。
- 新增了實驗性支持由torch.export(FX圖)生成的模型(PR #23815)。
- OpenVINO™運行時後端現在使用2024.1
- 支持具有字符串數據類型輸出的OpenVINO™模型。現在,OpenVINO™模型服務器可以支持具有字符串類型輸入和輸出的模型,因此開發人員可以利用內置於模型的標記化作為第一層。開發人員還可以依賴模型內嵌的任何後處理,僅返回文本。查看具有通用句子編碼器模型和字符串輸出模型的字符串輸入數據示例。
- MediaPipe Python計算器已更新以支持所有相關配置和Python代碼文件的相對路徑。現在,可以在任意路徑中部署完整的圖形配置文件夾,而無需進行任何代碼更改。
- KServe REST API支持已擴展,以正確處理JSON體中的字符串格式,就像與NVIDIA Triton™兼容的二進制格式一樣。
- 新增了展示完全委派給模型服務器的RAG算法的演示。
- 現在可以在INT8後訓練量化的忽略範圍中定義模型子圖,nncf.quantize(),這簡化了從量化中排除精度敏感層的過程。
- INT8後訓練量化現在部分支持批量大小大於1,加快了過程。請注意,不推薦用於基於變壓器的模型,因為它可能會影響精度。
- 現在可以在後訓練量化後對INT8模型進行微調,以提高模型精度,並使其更容易從後訓練過渡到訓練感知量化。
- TensorFlow支持已擴展 - TextVectorization層轉換:
- 使現有操作與TF操作對齊,並為其添加了一個轉換器。
- 添加了新的碎片張量操作和字符串操作。
- 支持一種類型的新分詞器,RWKV:
- 添加了碎片張量的Trie分詞器和Fuse操作。
- 獲取OV分詞器的新方式:從文件構建詞彙表。
- 分詞器緩存已重新設計,以便與OpenVINO™模型緩存機制一起工作。
Jupyter筆記本
OpenVINO™筆記本存儲庫的默認分支已從“main”更改為“latest”
>>> 其他更詳細訊息, 請造訪 OpenVINO Release Notes 2024.1 – April 2024
參考來源