廈大團隊：大模型概念、技術與應用實踐(林子雨) (Z-Library).docx

這是用戶在 2025-2-20 10:20 為 https://app.immersivetranslate.com/word/ 保存的雙語快照頁面，由沉浸式翻譯提供雙語支持。了解如何保存？

沉浸式翻譯

翻譯完成 ✅

關閉

翻譯服務：

目標語言：

譯文顯示：

翻譯服務：

目標語言：

譯文顯示：

DeepSeek

每個人都可以讀懂的大模型科普文章

大模型概念、技術與應用實踐

廈門大學

人生安然雲端科技教學團隊作品2025年2月9日

人生安然雲端科技教學團隊

國內高校大數據教學的重要貢獻者

團隊負責人：林子雨副教授

年輕力量：核心成員全部46周歲以下

結構合理：教學型、科研型、實驗工程師

專注專業：從2013年至今，11年專注於大數據教學

團隊特點：眼光前瞻、緊跟技術、創新實幹、執行力強影響力高：多項指標在國內高校大數據教學領域領先

教材數量

教材佔有率

MOOC課程學習人數

師資培養

教學研討會

教學網站訪問量

在線講座觀看人數

……

團隊負責人林子雨

廈門大學計算機科學與技術系副教授

以第一作者編著出版15本大數據系列教材被國內1000餘所高校採用榮獲“ 2022年福建省高等教育教學成果獎特等獎（個人排名第一） ”入選“2021年高校計算機專業優秀教師獎勵計劃”

2018年國家精品在線開放課程（獨立主講）

2020年國家級線上一流本科課程（獨立主講）

2021年國家級線上一流本科課程（獨立主講）

入選“ 2023年教育部國家智慧教育公共服務平台應用典型案例”個人主頁：https://dblab.xmu.edu.cn/post/linziyu/

本PPT節選自林子雨編著《數字素養通識教程》

林子雨編著《數字素養通識教程——大數據與人工智能時代的計算機通識教育》

人民郵電出版社，2025年1月

ISBN:978-7-115-65946-0定價：59.8元

面向大一新生的全校大學計算機公共課教材

教材官網： https://dblab.xmu.edu.cn/post/digital-literacy/

教材官網提供講義PPT、MOOC視頻、案例視頻、上機實驗、教學大綱、課程思政案例、開學第一課講座PPT等豐富的教學資源

掃一掃訪問教材官網

15年計算機教學生涯感悟昇華，15本計算機暢銷教材知識凝練

數字時代的大學計算機公共課教材，重構大學計算機公共課知識體系

深刻變革傳統大學計算機通識教育，培養學生計算思維、數據思維和AI思維

到B站觀看林子雨主講《數字素養通識教程》MOOC視頻（1359分鐘）視頻地址：https:// www.bilibili.com/video/BV1XPf8YZE6M/

引言

在數字化浪潮洶湧澎湃的當下，大模型如同一顆璀璨新星，強勢崛起並迅速成為科技領域的焦點。從最初的理論探索到如今在各個行業的廣泛應用，大模型正以驚人的速度重塑著我們的生活與工作模式。它不僅是人工智能技術發展的重大突破，更是推動經濟增長、提升社會治理效能、促進科技創新的關鍵力量。本報告《大模型概念、技術與應用實踐》將深入剖析大模型的核心概念、原理特點以及豐富多元的應用實踐案例，旨在讓大家全面了解大模型這一前沿技術，明晰其在當下及未來發展中的重要地位與深遠影響，共同探索如何借助大模型的力量推動社

會各項事業邁向新的高度。

人工智能發展簡史

人工智能思維

大模型：人工智能的前沿

AIGC應用與實踐

人工智能發展簡史

圖靈測試

人工智能的誕生

人工智能的發展階段

未來人工智能發展的五個階段

1.1圖靈測試

1950年，“計算機之父”和“人工智能之父”艾倫·圖靈（ Alan M . Turing ）發表了論文《計算機器與智能》，這篇論文被譽為人工智能科學的開山之作。在論文的開篇，圖靈提出了一個引人深思的問題：“機器能思考嗎？”。這個問題激發了人們無盡的想像，同時也奠定了人工智能的基本概念和雛形

在這篇論文中，圖靈提出了鑑別機器是否具有智能的方法，這就是人工智能領域著名的“圖靈測試”。如圖所示，其基本思想是測試者在與被測試者（一個人和一台機器）隔離的情況下，通過一些裝置（如鍵盤）向被測試者隨意提問。進行多次測試後，如果被測試者機器讓平均每個測試者做出超過30%的誤判，那麼這台機器就通過了測試，並被認為具有人類智能

人工智能的誕生可以追溯到20世紀50年代。當時，計算機科學剛剛起步，人們開始嘗試通過計算機程序來模擬人類的思維和行為。在這個背景下，一些傑出的科學家和工程師們開始研究如何使計算機具備更高級的功能

1956年8月，在美國達特茅斯學院舉辦的人工智能夏季研討會，是人工智能領域具有里程碑意義的一次重要會議。這次會議匯聚了眾多傑出的科學家和工程師，他們共同探討和研究人工智能的發展和應用前景

這次會議的主題圍繞著人工智能的定義、研究方法和應用場景展開。與會者們深入探討了人工智能的基本概念、算法和技術，以及其在各個領域的應用潛力。他們共同認識到，人工智能的研究和發展將為人類帶來巨大的變革和進步

在這次會議上，“人工智能”這個詞彙被約翰.麥卡錫（ John McCarthy ）首次提出。與會者們不僅對人工智能的研究和應用前景進行了深入探討，還提出了許多重要的觀點和思路，為人工智能的發展奠定了基礎。這次會議的召開標誌著人工智能作為一個獨立學科的正式誕生，因此，達特茅斯會議被稱為“人工智能的開端”， 1956年也被稱為“人工智能元年” 。這次會議不僅為人工智能的研究和發展奠定了基礎，還為人類帶來了巨大的變革和進步

1.3人工智能的發展階段

從1956年人工智能元年至今，人工智能的發展歷程經歷了漫長的歲月，大致可以劃分為以下6個階段

1.4
未來人工智能發展5
個階段

人工智能思維

2 . 人工智能思維

每個人都應了解人工智能

的基礎運行模式

具備區分人的能力

和機器的能力

擁有和人工智能協作的能力，

懂得如何運用人工智能

大模型：人工智能的前沿

大模型的概念

大模型的發展歷程

人工智能與大模型的關係

大模型產品

大模型原理

大模型特點

大模型分類

大模型應用領域（在各個行業的應用）

大模型對工作和生活的影響

本地部署大模型

基於大模型的智能體

大模型通常指的是大規模的人工智能模型，是一種基於深度學習技術，具有海量參數、強大的學習能力和泛化能力，能夠處理和生成多種類型數據的人工智能模型

通常說的大模型的“大”的特點體現在：參數數量龐大、訓練數據量大、計算資源需求高

2020年，OpenAI公司推出了GPT-3
，模型參數規模達到了1750
億，2023年3
月發布的GPT-4
的參數規模是GPT-3的10倍以上，
達到1.8
萬億，2021年11月阿里推出的M6
模型的參數量達10
萬億

大模型的設計和訓練旨在提供更強大、更準確的模型性能，以應對更複雜、更龐大的數據集或任務。大模型通常能夠學習到更細微的模式和規律，具有更強的泛化能力和表達能力

上下文理解能力

大模型具有更強的上下文理解能力，能夠理解更複雜的語意和語境。這使得它們能夠產生更準確、更連貫的回答

語言生成能力

大模型可以生成更自然、更流利的語言，減少了生成輸出時呈現的錯誤或令人困惑的問題

學習能力強

大模型可以從大量的數據中學習，並利用學到的知識和模式來提供更精準的答案和預測。這使得它們在解決複雜問題和應對新的場景時表現更加出色

可遷移性高

學習到的知識和能力可以在不同的任務和領域中遷移和應用。這意味著一次訓練就可以將模型應用於多種任務，無需重新訓練

大模型發展歷經三個階段，分別是萌芽期、沉澱期和爆發期

萌芽期（ 1950- 2005 ）

這是一個以CNN （ Convolutional Neural Networks ，卷積神經網絡）為代表的傳統神經網絡模型階段

1956年，從計算機專家約翰·麥卡錫提出“人工智能”概念開始， AI

發展由最開始基於小規模專家知識逐步發展為基於機器學習

1980年，卷積神經網絡的雛形CNN誕生

1998年，現代卷積神經網絡的基本結構LeNet-5誕生，機器學習方法由早期基於淺層機器學習的模型，變為了基於深度學習的模型，為自然語言生成、計算機視覺等領域的深入研究奠定了基礎，對後續深度學習框架的迭代及大模型發展具有開創性的意義

沉澱期（ 2006- 2019 ）

這是一個以Transformer為代表的全新神經網絡模型階段

2013年，自然語言處理模型Word2Vec誕生，首次提出將單詞轉換為向量的“詞向量模型”，以便計算機更好地理解和處理文本數據。 2014年，被譽為21世紀最強大算法模型之一的GAN （ Generative Adversarial Networks ，對抗式生成網絡）誕生，標誌著深度學習進

入了生成模型研究的新階段

2017年， Google顛覆性地提出了基於自註意力機制的神經網絡結構—

—Transformer架構，奠定了大模型預訓練算法架構的基礎

2018年， OpenAI基於Transformer架構發布了GPT-1大模型，意味著預訓練大模型成為自然語言處理領域的主流，其中， GPT的英文全稱是Generative Pre-Trained Transformer ，是一種基於互聯網的、可用數據來訓練的、文本生成的深度學習模型

2019年， OpenAI發布了GPT- 2

爆發期（ 2020-至今）

這是一個以GPT為代表的預訓練大模型階段

2020年6月， Op enAI公司推出了GP T -3 ，模型參數規模達到了1750億，成為當時最大的語言模型，並且在零樣本學習任務上實現了巨大性能提升。隨後，更多策略如基於人類反饋的強化學習（ RLHF ， Reinforcemen t Learnin g fro m Huma n Feedback ）、代碼預訓練、指令微調等開始出現，被用於進一步提高推理能力和任務泛化

2022年1 1月，搭載了GPT3.5的ChatGPT （ Cha t Generativ e Pre-traine d T ransfo rmer ）橫空出世，憑藉逼真的自然語言交互與多場景內容生成能力，迅速引爆互聯網，在全球範圍內引起轟動，使得大模型的概念迅速進入普通大眾的視野。 ChatGP T是人工智能技術驅動的自然語言處理工具，它能夠通過理解和學習人類的語言來進行對話，還能根據聊天的上下文進行互動，真正像人類一樣來聊天交流，甚至能完成撰寫郵件、視頻腳本、文案、翻譯、代碼，寫論文等任務

爆發期（ 2020-至今）

OpenAI在2023年3月發布了GPT-4 ，它是一個多模態大模型（接受圖像和文本輸入，生成文本）。相比上一代的GPT-3 ， GPT-4可以更準確地解決難題，具有更廣泛的常識和解決問題的能力。 2023年12月，谷歌發布大模型Gemini ，它可以同時識別文本、圖像、音頻、視頻和代碼五種類型信息，還可以理解並生成主流編程語言（如Python 、 Java 、 C++ ）的高質量代碼，並擁有全面的安全性評估。 2024年12月， DeepSeek迅速崛起，震撼全球，使得人工智能進入“普惠”時代

人工智能與大模型的關係

人工智能包含了機器學習，機器學習包含了深度學習，深度學習可以採用不同的模型，其中一種模型是預訓練模型，預訓練模型包含了預訓練大模型（可以簡稱為“大模型”），預訓練大模型包含了預訓練大語言模型（可以簡稱為“大語言模型”），預訓練大語言模型的典型代表包括OpenAI的GPT和百度的文心ERNIE ， ChatGPT是基於GPT開發的大模型產品，文心一言是基於文心ERNIE開發的大模型產品

人工智慧

機器學習

深度學習

深度學習模型

預訓練模型

預訓練大模型深預度訓學練習

大語言模型

ChatGPT 文心一言

預訓練大語言模型

GPT

文心ERNIE

...

大模型產品

國外的大模型產品

國內的大模型產品

ChatGPT

ChatGPT是一種由OpenAI訓練的大語言模型。它是基於Transformer架構，經過大量文本數據訓練而成，能夠生成自然、流暢的語言，並具備回答問題、生成文本、語言翻譯等多種功能

ChatGPT的應用範圍廣泛，可以用於客服、問答系統、對話生成、文本生成等領域。它能夠理解人類語言，並能夠回答各種問題，提供相關的知識和信息。與其他聊天機器人相比， ChatGPT具備更強的語言理解和生成能力，能夠更自然地與人類交流，並且能夠更好地適應不同的領域和場景。 ChatGPT的訓練數據來自互聯網上的大量文本，因此，它能夠涵蓋多種語言風格和文化背景

Gemini

Gemini是谷歌發布的大模型，它能夠同時處理多種類型的數據和任務，覆蓋文本、圖像、音頻、視頻等多個領域。 Gemini

採用了全新的架構，將多模態編碼器和多模態解碼器兩個主要組件結合在一起，以提供最佳結果

Gemini包括三種不同規模的模型： Gemini Ultra 、 Gemini Pro和Gemini Nano ，適用於不同任務和設備。 2023年12月6日， Gemini的初始版本已在Bard中提供，開發人員版本可通過Google Cloud的API獲得。 Gemini可以應用於Bard和Pixel 8

Pro智能手機。 Gemini的應用範圍廣泛，包括問題回答、摘要生成、翻譯、字幕生成、情感分析等任務。然而，由於其複雜性和黑箱性質， Gemini的可解釋性仍然是一個挑戰

Sora

2024年2月16日， OpenAI再次震撼全球科技界，發布了名為Sora的文本生成視頻大模型，只需輸入文本就能自動生成視頻。這一技術的誕生，不僅標誌著人工智能在視頻生成領域的重大突破，更引發了關於人工智能發展對人類未來影響的深刻思考。隨著Sora的發布，人工智能似乎正

式踏入了通用人工智能（ AGI ： Artificial General Intelligence ）的時代。 AGI是指能夠像人類一樣進行各種智能活動的機器智能，包括理解語言、識別圖像、進行複雜推理等。 Sora大模型能夠直接輸出長達60秒的視頻，並且視頻中包含了高度細緻的背景、複雜的多角度鏡頭，以及富有情感

的多個角色。這種能力已經超越了簡單的圖像或文本生成，開始觸及到

視頻這一更加複雜和動態的媒介。這意味著人工智能不僅在處理靜態信息上越來越強大，而且在動態內容的創造上也展現出了驚人的潛力

Sora

右圖是Sora根據文本自動生成的視頻畫面，一位戴著墨鏡、穿著皮衣的時尚女子走在雨後夜晚的東京市區街道上，抹了鮮豔唇彩的唇角微微翹起，即便帶著墨鏡也能看到她的微笑，地面的積水映出了她的身影和燈紅酒綠的霓虹燈，熱鬧非凡的唐人街正在進行舞龍表演，熙熙攘攘的人群目光都聚焦在躍動的彩龍身上，整個環境的喜慶氛圍彷彿令人身臨其境

OpenAI o3

2024年12月20日， OpenAI發布推理模型o3 ，無論在軟件工程、編寫代碼，還是競賽數學、掌握人類博士級別的自然科學知識能力方面， o3都達到了很高的水平

3.4.2國內的大模型產品

2025年1月國內大模型排行榜

大模型	圖示	指標排名
DeepSeek		能力測評第一
豆包		用戶數量第一
Kimi		文本處理第一
即夢AI		作圖能力第一
通義萬相		視頻生成第一
智譜清言		文檔歸納第一

3.4.2國內的大模型產品

DeepSeek （深度求索）

2024年12月26日，杭州一家名為“深度求索” （ DeepSeek ）的中國初創公司，發布了全新一代大模型DeepSeek-V3 。在多個基準測試中， DeepSeek-V3的性能均超越了其他開源模型，甚至與頂尖的閉源大模型GPT-4o不相上下，尤其在數學推理上， DeepSeek-V3更是遙遙領先。 DeepSeek-V3以多項開創性技術，大幅提升了模型的性能和訓練效率。 DeepSeek-V3在性能比肩GPT-

4o的同時，研發卻只花了558萬美元，訓練成本不到後者的二十分之一。因為表現太過優越， DeepSeek在矽谷被譽為“來自東方的神秘力量” 。

2025年1月20日， DeepSeek-R1正式發布，擁有卓越的性能，在數學、代碼和推理任務上可與OpenAI o1媲美。

DeepSeek創始人梁文峰

通義千問

通義千問是阿里雲推出的一個超大規模的語言模型，它具備多輪對話、文案創作、邏輯推理、多模態理解、多語言支持的能力。通義千問這個名字有“通義”和“千問”兩層含義，“通義”表示這個模型能夠理解各種語言的含義，“千問”則表示這個模型能夠回答各種問題。通義千問基於深度學習技術，通過對大量文本數據進行訓練，從而具備了強大的語言理解和生成能力。它能夠理解自然語言，並能夠生成自然語言文本

同時，通義千問還具備多模態理解能力，能夠處理圖像、音頻等多種類型的數據。通義千問的應用範圍非常廣泛，可以應用於智能客服、智能家居、移動應用等多個領域。它可以與用戶進行自然語言交互，幫助用戶解決各種問題，提供相關的知識和信息。同時，通義千問還可以與各種設備和應用進行集成，為用戶提供更加便捷的服務

字節跳動豆包

豆包是字節跳動基於雲雀模型開發的AI ，能理解你的需求並生成高質量回應。它知識儲備豐富，涵蓋歷史、科學、技術等眾多領域，無論是日常問題諮詢，還是深入學術探討，都能提供準確全面的信息。同時，具備出色的文本創作能力，能撰寫故事、詩歌、文案等各類體裁。並且擅長語言交互，交流自然流暢，就像身邊的知心夥伴，耐心傾聽並給予恰當反饋。

文心一言

文心一言是由百度研發的知識增強大模型，能夠與人對話互動、回答問題、協助創作，高效便捷地幫助人們獲取信息、知識和靈感

文心一言基於飛槳深度學習平台和文心知識增強大模型，持續從海量數據和大規模知識中融合學習，具備知識增強、檢索增強和對話增強的技術特色。文心一言具有廣泛的應用場景，例如智能客服、智能家居、移動應用等領域它可以與用戶進行自然語言交互，幫助用戶解決各種問題，提供相關的知識

和信息

大模型是基於T ransfor m er架構的，這種架構是一種專門用於自然語言處理的“編碼-解碼器”架構。在訓練過程中，大模型將輸入的單詞以向量的形式傳遞給神經網絡，然後通過網絡的編碼解碼以及自註意力機制，建立起每個單詞之間聯繫的權重。大模型的核心能力在於將輸入的每句話中的每個單詞與已經編碼在模型中的單詞進行相關性的計算，並把相關性又編碼疊加在每個單詞中。這樣，大模型能夠更好地理解和生成自然文本，同時還能夠表現出一定的邏輯思維和推理能力

大模型

基於深度學習利用

大量的數據和計算資源

具有大量參數的神經網絡模型

大模型的特點

巨大的規模

大模型通常包含數十億個參數，模型大小可以達到數百GB甚至更大。這種巨大的規模不僅提供了強大的表達能力和學習能力，還使得大模型在處理複雜任務時具有更高的效率和準確性

湧現能力

湧現能力是指模型在訓練過程中突然展現出之前小模型所沒有的、更深層次的複雜特性和能力。當模型的訓練數據突破一定規模時，模型能夠綜合分析和解決更深層次的問題，展現出類似人類的思維和智能。這種湧現能力是大模型最顯著的特點之一，也是其超越傳統模型的關鍵所在

更好的性能和泛化能力

大模型因其巨大的規模和復雜的結構，展現出更出色的性能和泛化能力。它們在各種任務上都能表現出色，超越了傳統的小模型。這主要歸功於大模型的參數規模和學習能力。大模型能夠更好地理解和模擬現實世界中的複雜現象，從而在各種任務中表現出更高的準確性和效率。它們能夠捕捉到數據中的微妙差異和復雜模式，使得在未見過的數據上也能表現優秀，即具有良好的泛化能力

多任務學習

大模型的多任務學習特點使其能夠同時處理多種不同的任務，並從中學習到更廣泛和泛化的語言理解能力。通過多任務學習，大模型可以在不同的NLP （ Natural Language Processing ）任務中進行訓練，例如機器翻譯、文本摘要、問答系統等。這種多任務學習的方式有助於大模型更好地理解和應用語言的規則和模式

大數據訓練

大模型需要大規模的數據來訓練，通常在TB級別甚至PB級別。這是因為大模型擁有數億甚至數十億的參數，需要大量的數據來提供足夠的信息供模型學習和優化。只有大規模的數據才能讓大模型的參數規模發揮優勢，提高模型的泛化能力和性能。同時，大數據訓練也是保證大模型能夠處理複雜任務的關鍵。通過使用大規模數據，大模型能夠更好地理解數據中的複雜模式和關係，從而更好地模擬現實世界中的各種現象

強大的計算資源

大模型需要強大的計算資源來訓練和運行。由於模型規模龐大，參數數量眾多，計算複雜度極高，因此需要高性能的硬件設備來支持。通常，訓練大模型需要使用GPU （ Graphics Processing Unit ，圖形處理器）或TPU （ Tensor Processing Unit ，張量處理器）等專用加速器來提高計算效率。這些加速器能夠並行處理大量的參數和數據，使得大模型的訓練和推斷速度更快。除了硬件設備，大模型的訓練還需要大量的時間。由於模型參數眾多，訓練過程中需要進行大量的迭代和優化，因此，訓練週期可能長達數週甚至數月

遷移學習和預訓練

通過在大規模數據上進行預訓練，大模型能夠學習到豐富的語言知識和模式，從而在各種任務上展現出卓越的性能。遷移學習和預訓練有助於大模型更好地適應特定任務

自監督學習

自監督學習利用大規模未標記數據進行訓練，通過從數據中挖掘內在的規律和模式，使模型能夠自動地理解和預測數據中的信息。在大規模的未標記數據中，大模型通過預測輸入數據的標籤或下一個時刻的狀態來進行訓練。這種訓練方式使得大模型能夠從大量的數據中自動地學習到語言的內在結構和模式，而不需要人工標註和乾預

領域知識融合

大模型通過領域知識融合，能夠將不同領域的數據和知識融合在一起，從而更好地模擬現實世界中的複雜現象領域知識融合使得大模型能夠從多個領域中學習到廣泛的知識和模式，並將這些知識和模式整合到統一的框架中

自動化和效率

大模型在應用中展現出高度的自動化和效率。由於大模型具有強大的表達能力和學習能力，它可以自動化許多複雜的任務，大大提高工作效率。大模型通過預訓練和微調過程，能夠自動地適應特定任務，而不需要過多的手工調整和乾預。這使得大模型能夠快速地應用於各種實際場景，並且自動地處理複雜的任務，如自動編程、自動翻譯、自動摘要等

大模型的分類

語言大模型視覺大模型多模態大模型

是指在自然語言處理（ N a t u r a l L a n g u a g e P r o ce ss i n g ， NLP ）領域中的一類大模型，通常用於處理文本數據和理解自然語言。這類大模型的主要特點是它們在大規模語料庫上進行了訓練，以學習自然語言的各種語法、語義和語境規則。代表性產品包括G PT系列（ O p e n A I ）、 B a r d

（Google）、DeepSeek、文心一言（百度）等

是指在計算機視覺（Computer Vision ，CV）領域中使用的大模型，通常用於圖像處理和分析。這類模型通過在大規模圖像數據上進行訓練，可以實現各種視覺任務，如圖像分類、目標檢測、圖像分割、姿態估計、人臉識別等。代表性產品包括VIT系列（Google）、文心UFO、華為盤古CV、INTERN（商湯）等

是指能夠處理多種不同類型數據的大模型，例如文本、圖像、音頻等多模態數據。這類模型結合了NLP和CV的能力，以實現對多模態信息的綜合理解和分析，從而能夠更全面地理解和處理複雜的數據。代表性產品包括DingoDB多模向量數據庫（九章云極DataCanvas）、DALL-E(OpenAI)、悟空畫畫（華為）、midjourney等

按照應用領域的不同，大模型主要可以分為L0 、 L1 、 L2三個層級

通用大模型L0

行業大模型L1

垂直大模型L2

是指可以在多個領域和任務上通用的大模型。它們利用大算力、使用海量的開放數據與具有巨量參數的深度學習算法，在大規模無標註數據上進行訓練，以尋找特徵並發現規律，進而形成可“舉一反三”的強大泛化能力，可在不進行微調或少量微調的情況下完成多場景任務，相當於AI完成了“通識教育”

是指那些針對特定行業或領域的大模型。它們通常使用行業相關的數據進行預訓練或微調，以提高在該領域的性能和準確度，相當於AI成為“行業專家”

是指那些針對特定任務或場景的大模型。它們通常使用任務相關的數據進行預訓練或微調，以提高在該任務上的性能和效果

大模型的應用領域

大模型的應用領域非常廣泛，涵蓋了自然語言處理、計算機視覺、語音識別、推薦系統、醫療健康、金融風控、工業製造、生物信息學、自動駕駛、氣候研究等多個領域

自然語言處理

大模型在自然語言處理領域具有重要的應用，可以用於文本生成

（如文章、小說、新聞等的創作）、翻譯系統（能夠實現高質量的跨語言翻譯）、問答系統（能夠回答用戶提出的問題）、情感分析

（用於判斷文本中的情感傾向）、語言生成（如聊天機器人）等

計算機視覺

大模型在計算機視覺領域也有廣泛應用，可以用於圖像分類（識別圖像中的物體和場景）、目標檢測（能夠定位並識別圖像中的特定物體）、圖像生成（如風格遷移、圖像超分辨率增強）、人臉識別（用於安全驗證和身份識別）、醫學影像分析（輔助醫生診斷疾病）等

語音識別

大模型在語音識別領域也有應用，如語音識別、語音合成等。通過學習大量的語音數據，大模型可以實現高質量的跨語言翻譯和語音識別以及生成自然語音

推薦系統

大模型可以用於個性化推薦、廣告推薦等任務。通過分析用戶的歷史行為和興趣偏好，大模型可以為用戶提供個性化的推薦服務，提高用戶滿意度和轉化率

大模型可以用於自動駕駛中的感知、決策等任務。通過學習大量的駕駛數據，大模型可以實現對車輛周圍環境的感知和識別，以及進行決策和控制，提高自動駕駛的安全性和效率

大模型可以用於醫療影像診斷、疾病預測等任務。通過學習大量的醫學影像數據，大模型可以輔助醫生進行疾病診斷和治療方案製定，提高醫療水平和效率

大模型可以用於信用評估、欺詐檢測等任務。通過分析大量的金融數據，大模型可以評估用戶的信用等級和風險水平，以及檢測欺詐行為，提高金融系統的安全性和穩定性

大模型可以用於質量控制、故障診斷等任務。通過學習大量的工業製造數據，大模型可以輔助工程師進行產品質量控制和故障診斷，提高生產效率和產品質量

在生物信息學領域，大模型可以用於基因序列分析（識別基因中的功能元件和變異位點）、蛋白質結構預測（推測蛋白質的二級和三級結構）、藥物研發（預測分子與靶點的相互作用）等

在氣候研究領域，大模型可以處理氣象數據，進行天氣預測和氣候模擬。它們能夠分析複雜的氣象現象，提供準確的氣象預報，幫助人們做出應對氣候變化的決策

大模型對人們工作和生活的影響

大模型對工作的影響

大模型對生活的影響

大模型對工作的影響

大模型在自然語言處理、機器

翻譯等領域的應用，使得人們能夠快速、準確地處理大量文本數據，提高工作效率。例如，在翻譯領域，大模型能夠自動翻譯多種語言，減少人工翻譯的時間和成本，提高翻譯效率

大模型能夠收集、整理和分析

大量的數據，通過數據挖掘和機器學習技術，幫助人們更準確地了解問題現狀，預測未來趨勢，從而做出更明智的決策

大模型的發展使得一些繁瑣、

重複的工作可以由機器來完成，從而減輕了人們的工作負擔。例如，在金融領域，大模型可以自動分析大量的金融數據，幫助人們做出更準確的決策

隨著大模型的普及和應用，將

創造出許多新的就業機會。例如，需要更多的人來開發和維護大模型，也需要更多的人來利用大模型進行各種應用開發

大模型對生活的影響

改善生活質量

大模型在智能家居、智能客服等領域的應用，使得人們的生活更加便利、舒適。例如，通過智能家居系統，人們可以通過語音指令控製家電，實現智能化生活

提高學習效率

大模型在教育領域的應用，可以幫助人們更高效地學習新知識。例如，通過大模型的智能推薦功能，人們可以根據自己的興趣和需求，獲取更加個性化的學習資源

增強娛樂體驗

大模型在娛樂領域的應用，可以提供更加豐富、多樣的娛樂體驗。例如，通過大模型的語音識別功能，人們可以通過語音指令控制遊戲，實現更加智能化的遊戲體驗

本地部署大模型

為什麼需要本地部署大模型

本地部署大模型方法

安裝Ollama

下載DeepSeek R1

運行DeepSeek R1

使用Open WebUI增強交互體驗

具體安裝過程請參考廈門大學數據庫實驗室博客https://dblab.xmu.edu.cn/blog/5816/

基於大模型的智能體

智能體（ AI Agent ），又稱“人工智能代理”，是一種模仿人類智能行為的智能化系統，它就像是擁有豐富經驗和知識的“智慧大腦”，能夠感知所處的環境，並依據感知結果，自主地進行規劃、決策，進而採取行動以達成特定目標。簡單來說，智能體能夠根據外部輸入做出決策，並通過與環境的互動，不斷優化自身行為。

智能體本身既不是單純的軟件也不是硬件，而是一個更為寬泛的概念，它們可以是軟件程序、機器人或其他形式的系統，具備一定的自主性和智能性。

基於大模型的智能體是指利用大語言模型（如GPT、 BERT等）作為核心組件，構建的能夠執行特定任務、與環境交互並做出決策的人工智能係統。這些智能體具有自主性、交互性、適應性等特點，能夠模擬人類的認知和決策過程，提供更加自然、高效和個性化的交互體驗。它們能夠處理海量數據，進行高效的學習與推理，並展現出跨領域的應用潛力。

2025年1月23日，O p e nAI發布了一個創新性的智能體—— O p e ra t or，它是一個能夠像人類一樣使用計算機的智能體。它基於O p e nAI最新研發的C U A （ Co m pu t e r -Usin g Ag e nt ）模型，C U A將GPT-4 o的視覺功能與通過強化學習獲得的高級推理相結合，經過訓練可以與圖形用戶界面（ GUI ，即人們在屏幕上看到的按鈕、菜單和文本字段）進行交互。 O p e ra t or通過觀察屏幕並使用虛擬鼠標和鍵盤來完成任務，而無需依賴專門的API接口。這種設計使其可以適配任何為人類設計的軟件界面，帶來極高的靈活性。

O p e ra t or好比一個博士水平的個人助理，你給他一個複雜的任務，它就會自動執行。 O p e ra t or的主要功能包括自主完成諸如採購雜貨、提交費用報表、訂票、買日用品、填寫表格等任務，旨在通過自動化操作提升日常生活和工作效率。它還可以一邊在S tub H ub搜索勇士隊比賽門票，一邊處理網球場預訂、尋找清潔服務和D oor D ash訂餐，實現多任務並行處理。

2025年2月3日，O p e nAI發布了一款新的智能體產品——Dee p R e s e a r ch 。 Dee p R e s e a r ch由O p e nA I o3模型的一個版本提供支持，該模型針對網頁瀏覽和數據分析進行了優化，它利用推理來搜索、解釋和分析互聯網上的大量文本、圖像和P D F ，並根據需要根據遇到的信息做出調整。 Dee p R e s e a r ch具有以下四大核心技術：

數據雷達。會自動24小時掃描全球知識庫。

知識拼圖。能把零散的信息拼成完整的戰略地圖。

邏輯推理。發現矛盾時，自動回溯、驗證，調整推理路徑。

學術裁縫。可以綜合各種知識，生成完美的報告，還附帶文獻引用。

Coze (釦子)

AIGC應用與實踐

AIGC概述

文本類AIGC應用實踐

圖片類AIGC應用實踐

語音類AIGC應用實踐

視頻類AIGC應用實踐

AIGC在輔助編程中的應用

AI搜索

AI智能辦公

4 . 1 AIGC概述

什麼是AIGC

AIGC與大模型的關係

常見的AIGC應用場景

AIGC技術對行業發展的影響

AIGC技術對職業發展的影響

常見的AIGC大模型工具

AIGC大模型的提示詞

什麼是AIGC

AIGC的全稱為“ Artificial Intelligence Generated Content ”，中文翻譯為“人工智能生成內容”。這是一種新的創作方式，利用人工智能技術來生成各種形式的內容，包括文字、音樂、圖像、視頻等

AIGC是人工智能進入全新發展時期的重要標誌，其核心技術包括生成對抗網絡（ GAN ， Generative Adversarial Networks ）、大型預訓練模型、多模態技術等

AIGC的核心思想是利用人工智能算法生成具有一定創意和質量的內容。通過訓練模型和大量數據的學習， AIGC可以根據輸入的條件或指導，生成與之相關的內容。例如，通過輸入關鍵詞、描述或樣本， AIGC可以生成與之相匹配的文章、圖像、音頻等

AIGC技術不僅可以提高內容生產的效率和質量，還可以為創作者提供更多的靈感和支持。在文學創作、藝術設計、遊戲開發等領域， AIGC可以自動創作出高質量的文本、圖像和音頻等內容。同時， AIGC也可以應用於媒體、教育、娛樂、營銷、科研等領域，為用戶提供高質量、高效率、高個性化的內容服務

AIGC與大模型的關係

大模型與AIGC之間的關係可以說是相輔相成、相互促進的。大模型為AIGC提供了強大的技術基礎和支撐，而AIGC則進一步推動了大模型的發展和應用，具體如下：

AIGC可以應用於各行各業，主要包括但不限於生成文字、圖像、音頻、視頻等，具體如下：

教育

批改試卷，試卷創建，搜題答題，課程設計，課程總結，虛擬講師

AIGC技術對行業發展的影響

AIGC技術對行業發展的影響深遠且廣泛，主要體現在以下幾個方面：

AIGC技術對職業發展的影響

AIGC技術對職業發展產生了深遠的影響，主要體現在以下幾個方面：

常見的AIGC大模型工具

常見的AIGC大模型工具包括：

這些工具基於大規模語言模型技術，具備文本生成、語言理解、知識問答、邏輯推理等多種能力，可廣泛應用於寫作輔助、內容創作、智能客服等多個領域。通過不斷迭代和優化，為用戶提供更加智能、高效的內容生成解決方案

AIGC大模型的提示詞

Ø AIGC大模型的提示詞（ Prompt ）是指用戶向大模型輸入的文本內容，用於觸發大模型的響應並指導其如何生成或回應

Ø這些提示詞可以是一個問題、一段描述、一個指令，甚至是一個帶有詳細參數的文字描述。它們為大模型提供了生成對應文本、圖片、音頻、視頻等內容的基礎信息和指導方向。

Ø提示詞的重要作用如下：

4.1.7 AIGC大模型的提示詞

使用提示詞需要注意一些技巧，這樣可以從大模型獲得更加符合我們預期要求的結果，主要技巧如下：

文本類AIGC應用實踐

案例1：與DeepSeek進行對話

案例2 ：與百度文心一言進行對話

案例3：使用訊飛智文生成PPT

案例1：與DeepSeek進行對話

快速體驗DeepSeek

訪問DeepSeek官網（https://chat.deepseek.com/），會出現如圖7-1所示對話界面，在提示詞輸入框的底部，有兩個按鈕，即“深度思考(R1)”和“聯網搜索”，可以用鼠標點擊來選中或取消，默認情況下，“深度思考(R1)”按鈕是處於選中狀態，“聯網搜索”則處於未選中狀態。兩個按鈕的功能如下：

深度思考(R 1)。表示觸發更複雜的多步推理能力，適合需要邏輯鏈分析的場景，典型使用場景包括數學題/物理題推導、文學作品的隱喻分析、編程問題的架構設計、需要分步驟解釋的操作指南等。

聯網搜索。表示實時獲取最新網絡信息，適合時效性強的查詢，典型使用場景包括查詢實時股價/匯率、驗證最新科研成果、獲取突發事件進展、檢索特定網頁內容等。

案例1：與DeepSeek進行對話

快速體驗DeepSeek

在提示詞輸入框中輸入“請模仿李白的《望廬山瀑布》做一首詩，題目是《看廈門鼓浪嶼》”，然後回車，或者用鼠標點擊提示詞輸入框右側的箭頭按鈕，向DeepSeek發起提問。 DeepSeek給出的回答如圖7-2所示，需要注意的是，大模型屬於概率模型，每次生成的回答內容可能不完全相同。

案例1：與DeepSeek進行對話

DeepSeek的基本用法

基本原則：簡單直接，自然表達。 ①無需複雜結構。直接描述需求即可，無需添加“角色扮演”（如“假設你是專家”）或複雜指令（如“用學術語言分三點回答”）。比如，你可以直接向Dee pS ee k提問“什麼是光合作用？”、“如何用Python寫一個計算器程序？”，而不建議使用提示詞“請以生物學教授的身份，用三個段落解釋光合作用，每段不超過100字”。 ②多輪對話優化結果。如果首次回答不完整，可通過追問補充細節，無需一次性給出完美提示。比如，第一輪提問“寫一首關於秋天的詩”，第二輪提問“加入一些悲傷的情緒”，第三輪提問“把'落葉'換成比喻句”。

不同場景的提問技巧（非必需，但可提升效率）。雖然簡單提問即可滿足大多數需求，但在復雜任務中，適當提供背景信息或明確需求會讓結果更精準，具體技巧包括：①知識類問題。比如，基礎提問是“量子力學的基本原理是什麼？”，優化後的提問是“用通俗易懂的語言解釋量子糾纏，適合高中生理解”，②創作類任務（寫作、編程等）。比如，基礎提問是“寫一個關於人工智能的科幻短篇故事”，優化後的提問是“寫一個反烏托邦主題的科幻故事，主角是女性工程師，結局有反轉”。 ③實用建議（學習、工作等）。比如，基礎提問是“如何提高英語聽力？”，優化後的提問是“我每天只有30分鐘學習時間，有哪些高效的英語聽力練習方法？”。 ④複雜任務（數據分析、代碼調試）。比如，基礎提問是“這段Python代碼報錯了，幫我看看問題”，優化後的提問是“我的代碼目標是爬取網頁數據，但遇到SSL證書錯誤。報錯信息如下：[粘貼代碼]”。

案例1：與DeepSeek進行對話

DeepSeek的基本用法

作為初學者，Dee pS ee k的一些“魔法”指令也很有用，比如，你可以輸入“/步驟如何⽤⼿機拍攝旅遊照⽚”， Dee pS ee k返回的回答結果就會按照步驟詳細給出拍攝旅遊照片的說明，再比如，你可以輸入“請解釋量⼦計算，然後/簡化”，它就會返回比較簡明扼要的回答。

表DeepSeek的“魔法”指令

指令	功能
/續寫	當回答中斷時⾃動繼續⽣成
/簡化	將復雜內容轉換成⼤⽩話
/⽰例	要求展⽰實際案例（特別是寫代碼時）
/步驟	讓AI分步驟指導操作流程
/檢查	幫你發現⽂檔中的錯誤

案例1：與DeepSeek進行對話

使用DeepSeek處理文檔

點擊Dee pS ee k界面中的「回形針」圖標上傳⽂件，支持的文件類型包括文本類（ P D F 、DO CX 、 T X T 、M ar k do w n ）、數據類（ CSV 、 XLSX ）和圖像類（ J P G 、 PNG ）。然後，就可以在對話框中輸入提示詞，比如，可以輸入“總結這份年報的三個核⼼要點”、“提取合同中的責任條款製成表格”、“對⽐⽂檔A和⽂檔B的市場策略差異”、“從實驗報告中整理所有溫度數據”、“請識別圖片中的文字”等。也可以使用一些指令來處理文檔，如表7-2所示。

表用於文檔處理的DeepSeek指令

功能	指令模板	應用場景
內容摘要	/總結[文件名] 生成500字摘要	快速把握長篇文檔核心內容
問答提取	/問答[文件名] 第三章提到的技術參數是？	精准定位特定信息
數據可視化	/可視化[文件名] 將銷售數據生成折線圖	轉化表格數據為圖形分析
跨文檔對比	/對比文件A vs文件B的政策差異	合同/論文查重對比

還可以要求DeepSeek對回答結果進行結構化輸出，比如，可以輸入如下提示詞：

/解析文件年度報告.docx輸出要求：

按"營收/利潤/成本"分類

用Markdown表格對比近三年數據

關鍵增長點用✅標註

案例2 ：與百度文心一言進行對話

告訴文心一言你要的風格

在輸入提示詞時，明確指定你希望生成的文本內容的風格。這樣，文心一言在理解並處理你的請求時，會更有針對性地調整其生成內容的風格，以滿足你的具體需求。比如，可以使用提示詞：

想要生成不同語氣風格的文字，可以在問題描述中加入你想要的語氣風格作為限定條件，提示文心一言按照你的要求去輸出。

比如，如果你需要正式語氣，可以在提示詞中加入“請採用正式的詞彙和語法結構，使內容顯得莊重、嚴肅和專業”；如果你需要抒情語氣，請在提示詞中加入“請使用富有感情和表達感情的詞彙，使內容產生共鳴和情緒共振”；如果你需要口語化語氣，請在提示詞中加入“請運用口語化的表達方式，例如俚語、俗語和口頭禪，使內容更加輕鬆和親切”。

案例2 ：與百度文心一言進行對話

告訴文心一言你要的結構

在構建提示詞時，應明確指定期望的輸出結構。比如，如果是要求生成一篇文章，可以在提示詞中明確指出“請按照引言-正文-結論的結構來撰寫”。這樣，文心一言在生成內容時，會遵循這一結構框架，使得輸出更加條理清晰、邏輯嚴密。再比如，如果要撰寫給上級領導的方案、報告、總結時，可以使用提示詞：

案例2 ：與百度文心一言進行對話

告訴文心一言你要的角色

在提示詞中可以設定具體的角色或視角。例如，在要求創作故事時，可以明確指定“以一位勇敢探險家的視角講述這段經歷”。這樣的提示能引導文心一言在生成內容時，從特定角色的角度出發，賦予文本獨特的情感色彩和敘事風格。此技巧有助於增強生成內容的代入感和故事性，使內容更加豐富和引人入勝。

下面是一段提示詞實例：

下面是另一段提示詞實例：

案例2 ：與百度文心一言進行對話

告訴文心一言你的內容要求

可以通過詳細具體的提示詞明確表達內容要求。無論是希望生成的文章主題、關鍵詞彙，還是期望涵蓋的信息點、情感傾向，都應在提示詞中清晰呈現。這樣做能讓文心一言更準確地理解用戶需求，生成更符合期望的內容。

比如，可以通過如下提示詞表達自己的內容要求：

案例2 ：與百度文心一言進行對話

告訴文心一言你的內容要求

如果對輸出的內容有比較多的要求或限制，不妨在輸入框中將這些內容要求一條一條明確告訴文心一言，比如，可以採用類似如下的提示詞：

4.2.2案例2 ：與百度文心一言進行對話

告訴文心一言你想寫的文體

明確指定文體，如散文、小說、詩歌、科技文等，讓大模型理解並模擬該文體的語言特點、結構安排和表達習慣，從而輸出更具針對性的文本。比如，可以採用提示詞“請寫一段[中秋賞月]的朋友圈文案，需要採用藏頭詩的形式”

4.2.2案例2 ：與百度文心一言進行對話

指導文心一言分步解決問題

將復雜問題拆解成多個簡單、具體的步驟，作為提示詞輸入給文心一言。這樣不僅能降低問題的處理難度，使文心一言更容易理解和響應，還能確保解決問題的過程更加系統、有條理。通過逐步引導，可以逐步逼近問題的解決方案，提高答案的準確性和實用性。

比如，如果想讓文心一言幫你制定一份旅行規劃，可以使用類似如下的提示詞：

請為我規劃一次為期一周的廈門自由行；

第1步：列出必去的景點，如廈門大學、鼓浪嶼、環島路、五緣灣、曾厝垵；

第2步：根據景點位置安排每日行程，確保交通便利；

第3步：推薦幾家當地的特色餐廳，包括早餐、午餐和晚餐；

第4步：提供一家性價比高的酒店住宿建議，並考慮其位置是否便於遊覽。

4.2.2案例2 ：與百度文心一言進行對話

告訴文心一言你要的示例

明確溝通意圖，通過具體示例引導大模型理解你的需求。這有助於文心一言更準確地捕捉你的思維框架和期望結果，減少誤解。比如，可以使用類似如下的提示詞：

4.2.2案例2 ：與百度文心一言進行對話

告訴文心一言你要的場景

在輸入提示詞時，應明確描述所需的上下文或環境背景，如“在科幻電影中描述一個未來城市的景象”或“請撰寫一封給朋友的生日祝福信，場景設定在海邊日落時”。這樣做有助於文心一言更好地理解你的需求，生成更符合場景氛圍和情境的內容，從而提升輸出內容的貼切性和情感共鳴。

4.2.3案例3：使用訊飛智文生成PPT

訊飛智文是科大訊飛公司旗下的AI一鍵生成PPT/WORD的網站平台，是基於科大訊飛星火認知大模型技術基礎上開發的一個具體應用，主要功能有文檔一鍵生成、 AI撰寫助手、多語種文檔生成、 AI自動配圖、模板圖示切換功能。這裡介紹如何使用訊飛智文快速生成PPT 。

請首先準備一個包含文本內容的PDF文件，比如，可以從網絡新聞報導中復制一段關於2024年7月19日微軟藍屏事件的內容保存到一個WORD文檔中，命名為“ 微軟藍屏. docx” ，然後，使用WPS軟件打開“ 微軟藍屏. docx” ，把該WORD文檔保存成PDF格式，生成“ 微軟藍

屏. pdf ” 。

4.2.3案例3：使用訊飛智文生成PPT

訪問訊飛智文官網（ https://zhiwen.xfyun.cn/ ），在首頁（如圖所示）中點擊“免費使用”，然後按照網頁提示完成註冊（推薦使用手機號註冊）。

圖7-2開始創作

圖7-3選擇AI PPT中的“文檔創建”

圖7-4上傳文件

圖7-5開始解析文檔

在出現的頁面中（如圖7 - 6所示），選擇你想要的模板配色，比如，這裡選擇“ 清逸天藍”，然後點擊頁面頂部的“ 下一步” 。經過一段時間以後，頁面就會顯示自動生成的PPT（如圖7 - 7所示），點擊頁面右上角的“ 導出” ，就可以把PPT保存到本地電腦中，然後，可以根據自己的需求，自己對PPT繼續進行修改和完善。在本地電腦中打開自動生成的PPT ，可以看出， AI制作PPT的水平非常專業，邏輯清晰，配圖精美，超過了很多PPT初級者的製作水平，可以大大提高普通用戶製作PPT的效率和水平。

圖7-6選擇模板配色

圖片類AIGC應用實踐

圖片類AIGC應用場景

圖片類AIGC案例實踐

圖片類AIGC應用實踐

圖片類AIGC是一種基於人工智能技術生成圖片的方法，它利用深度學習、生成對抗網絡（ GAN ）等先進算法，通過學習和模仿大量圖像數據，能夠自動創作出高度真實和藝術化的圖片。 AIGC在圖像生成、修復、風格轉換、藝

術創作等領域展現出強大能力，為數字藝術、設計、遊戲、電影等多個行業帶來創新解決方案。其優勢包括高效性、多樣性和自動化，能夠快速生成大量高質量的圖像內容，滿足各種複雜需求。

圖片類AIGC應用場景

圖片類AIGC的應用場景非常廣泛，主要包括圖像生成、圖像修復、圖像增強和圖像識別等方面：

圖片類AIGC案例實踐

Ø圖片類AIGC大模型主要包括Midjourney 、 Stable Diffusion SDXL 、百度文心一格等。這里以百度文心一格為例介紹圖片類AIGC的使用方法。

Ø文心一格是一款由百度公司研發的AI繪畫工具，為用戶提供了豐富的創意空間。使用文心一格進行AI繪畫的步驟包括註冊賬戶、選擇創作模式、輸入提示詞、設置畫麵類型、設置比例、設置數量以及生成圖片等，具體如下：

圖文心一格操作界面

文心一格提供了豐富的AI編輯功能，可以對圖片進行各種智能化處理，包括圖片擴展、圖片變高清、塗抹消除、智能摳圖、塗抹編輯、圖片疊加等

語音類AIGC應用實踐

語音類AIGC應用場景

語音類AIGC案例實踐

語音類AIGC應用實踐

語音類AIGC是一種利用人工智能技術（特別是語音識別、自然語言處理和語音合成技術），自動生成和處理語音內容的技術。它能夠模擬人類語音，實現語音到文本的轉換、文本到語音的合成，以及語音情感分析等功能，廣泛應用於智能語音助手、智能客服、語音翻譯等多個領域。

語音類AIGC應用場景

語音類AIGC的應用場景非常豐富，涵蓋了多個領域，從日常生活到專業應用，都展現出了其獨特的價值和潛力，以下是一些主要的語音類AIGC應用場景：

智能語音助手

智能客服

語音合成與轉換

虛擬人物與數字人

應用場景

語音翻譯

語音分析與情感識別

智能駕駛艙與車載語音助手

語音類AIGC案例實踐

豆包大模型的語音類功能用法

一般情況下，普通用戶在手機上使用語音類AIGC大模型的場景比較多，因此，這裡介紹手機版豆包的使用方法。

在智能手機上下載並安裝“ 豆包APP” 。啟動進入豆包APP ，會出現如圖所示的對話界面，按住“ 語音按鈕” （圖中箭頭指向的位置）不要鬆開，然後就可以對著手機說話，把自己的需求說出來，比如，可以說“ 請介紹一下廈門大學”，然後鬆開“ 語音按鈕” ，豆包就可以立即開始回答你提出的問題。豆包可以支持實時翻譯，你可以語音輸入“ 廈門大學的英文名稱是什麼”，豆包會馬上給出翻譯結果。

圖豆包的對話界面

豆包大模型的語音類功能用法

豆包不僅支持語音輸入，也可以支持文字輸入，只要在文字輸入框內輸入提示詞，豆包就會給出回答。豆包也支持AI繪圖功能，你可以用手指點擊界面上的“圖片生成”按鈕，然後輸入提示詞，比如通過文字或者語音輸入“請幫我繪製一張圖片，一個9歲的小女

孩在海邊沙灘上玩沙子”，然後，豆包就會自動繪製生成滿足你要求的圖片

4.4.2
語音類AIGC
案例實踐

豆包大模型的語音類功能用法

豆包還有一個很實用的功能，就是可以幫助你進行英語口語對話練習。

圖豆包的功能選擇界面圖豆包的英語口語聊天界面

4.4.2語音類AIGC案例實踐

訊飛智作大模型的語音類功能用法

4.4.2語音類AIGC案例實踐

訊飛智作大模型的語音類功能用法

圖4-13訊飛智作頁面

圖4-14訊飛配音頁面

4.4.2語音類AIGC案例實踐

訊飛智作大模型的語音類功能用法

圖4-15選擇主播

4.4.2
語音類AIGC
案例實踐

訊飛智作大模型的語音類功能用法

圖4-16作品命名頁面圖4-17訂單支付頁面

4.4.2語音類AIGC案例實踐

訊飛智作大模型的語音類功能用法

圖4-18下載頁面

圖4-19點擊下載按鈕

視頻類AIGC應用實踐

視頻類AIGC應用場景

代表性視頻類AIGC大模型

視頻類AIGC案例實踐

視頻類AIGC應用實踐

視頻類AIGC是指利用人工智能技術，特別是深度學習、機器學習等算法，自動創建或處理視頻內容的技術。它能根據給定的文本、圖像或其他數據，自動生成符合描述的視頻內容，涵蓋文生視頻、圖生視頻、視頻風格化、人物動態化等多個方向。這一技術在創意設計、影視製作等領域潛力巨大，極大地提升了視頻內容的生產效率和質量

視頻類AIGC應用場景

視頻類AIGC在多個領域擁有廣泛的應用場景，以下是一些主要的應用方向：

影視製作與後期製作

短視頻與直播廣告與營銷教育與培訓

其他領域新聞傳播與媒體融合

虛擬現實與增強現實

代表性視頻類AIGC大模型

Ø視頻類AIGC大模型發端於Sora 。 2024年2月，美國的Open AI發布了全球第一款文生視頻大模型Sora （這裡的“文生視頻”是指由輸入的文本內容生成相應的視頻），迅速引起了業界的廣泛關注和討論，因其能夠快速生成高質量的廣告宣傳視頻及商品演示視頻，從而大幅降低廣告相關內容的製作成本及時間。

Ø我國的視頻類AIGC大模型主要包括：

由於視頻類AIGC大模型在使用時，會消耗大量的算力資源，使用成本很高，所以，目前國內的視頻類AIGC大模型大多數沒有免費開放給大眾使用，即使是免費使用，也只能生成很短時間長度的視頻。

視頻類AIGC案例實踐

案例：使用騰訊智影生成數字人播報視頻（備註：本案例由夏小雲老師製作）

步驟1：登錄騰訊智影平台。在瀏覽器地址欄中輸入網址“ https://zenvideo.qq.com/”，進入“騰訊智影”平台，點擊“登錄”（如圖7-107所示），可以使用微信掃碼登錄、也可以手機號登錄或者QQ掃碼登錄，任選一種方式登錄即可。登錄成功後，點擊平台首頁“智能小工具”欄目中的“數字人播報”按鈕（如圖7-108所示）或者“智能小工具”上方的“數字人播報”按鈕，進入“數字人播報”功能界面。

圖7-107騰訊智影登錄界面圖7-108 “數字人播報”功能入口

4.5.3視頻類AIGC案例實踐

步驟2：上傳PPT。進入“數字人播報”功能界面後（如圖7-109所示），在左側工具欄，點擊“PPT模式”,平台會出現“上傳PPT或PDF”的界面，點擊“上傳”按鈕，上傳需要播報的PPT，這裡上傳“數字人播報PPT.ppt”文件（可以從林子雨編著《數字素養通識教程》教材官網下載）。

圖7-109 “PPT模式”上傳PPT入口

4.5.3視頻類AIGC案例實踐

步驟3：選擇數字人。 PPT上傳結束後，點擊左側工具欄“數字人”按鈕，會出現“數字人”設置界面，包括“預置形象”和“照片播報”兩大板塊（如圖7-110所示）。 “預置形象”分為“2D數字人”和“3D數字人”；“照片播報”分為“照片主播”和“AI繪製主播”兩種（如圖7-111所示）。這裡選擇“預置形象”裡面的“2D數字人”——卓妤數字人，作為PPT播報的數字人。

圖7-110 “預置形象”的數字人圖7-111 “照片播報”的數字人

4.5.3視頻類AIGC案例實踐

步驟4 ：調整數字人的位置、大小和服裝類型。選用的數字人確認後，可以點擊PPT上的“數字人”，進入“數字人”設置界面，點擊“數字人編輯”按鈕（如圖7-112所示），對“數字人”進行編輯，可以重新換服裝以及選擇數字人出現的“形狀”；點擊“畫面”按鈕，可以通過坐標設置來調整數字人的位置和大小（如圖7-113所示），也可以點擊數字人的邊框，通過拖動鼠標來調整數字人的位置和大小。這裡可以根據PPT畫面的佈局來調整“數字人”的位置和大小，盡量避免數字人遮擋文字。

圖7-112 “數字人編輯”功能界面確認服裝和形狀圖7-113進入“畫面”功能界面調整數字人的位置和大小

4.5.3視頻類AIGC案例實踐

步驟5 ：輸入播報內容和設置字幕樣式。數字人調整完成後，點擊右側工具欄的“播報內容”按鈕（如圖7-114所示），輸入播報內容，播報內容可以AI自動生成，也可以手動輸入或導入文件（字數不超過5000字），這裡選擇“手動輸入”每頁PPT的播報內容。點擊右側工具欄的“字幕樣式”按鈕（如圖7-115所示），設置視頻字幕的樣式並打開字幕顯示按鈕，通過鼠標拖動把字幕放置畫面的合適位置。

圖7-114輸入PPT播報內容圖7-115設置字幕樣式並打開字幕按鈕

4.5.3視頻類AIGC案例實踐

步驟5：根據需要添加“背景”、“貼紙”、“音樂”並選擇播報音色。輸入完播報內容後，可以點擊左側工具欄的“背景”、“貼紙”和“音樂”等功能（如圖7-116所示），根據需要添加，這裡選擇不添加背景、貼紙和音樂。確認後，點擊“播報內容”輸入框下方的“音色”按鈕，選擇合適的音色。這裡選擇“如雲”音色作為PPT的數字人播報音色（如圖7-117所示）。

圖7-116根據需要添加“背景”、“貼紙”、“音樂”

圖7-117選擇播報音色

4.5.3視頻類AIGC案例實踐

步驟6 ：保存並生成播報。選擇完音色後，點擊“音色”下方的“保存並生成播報”按鈕（如圖7-118所示），選中每一頁PPT，逐一點擊保存並生成播報，注意，平台此時生成的數字人播報效果預覽，暫不支持口型對齊預覽，合成後可查看完整動態效果。

圖7-118保存並生成播報

4.5.3視頻類AIGC案例實踐

步驟7 ：合成並下載視頻。保存並生成每頁的PPT的播報後，點擊頁面右上方的“合成視頻”按鈕（如圖7-119所示），然後設置合成視頻輸出的參數（如圖7-1 20所示），設置完成後點擊“確認”按鈕，系統後台會自動合成數字人播報視頻，等待合成結束後，點擊“下載”按鈕（如圖7-121所示），下載合成的數字人播報視頻。最後，播放合成的視頻文件，檢查視頻畫面是否符合預期。如有需要，可以根據反饋調整參數，重新生成。

圖7-119點擊合成視頻

圖7-120合成視頻參數設置圖7-121下載數字人播報視頻

AIGC在輔助編程中的應用

AIGC技術在輔助編程中的應用

AIGC技術在輔助編程中的應用日益廣泛，它能夠自動生成高質量的代碼，從而顯著提高開發效率，主要包括以下幾種應用場景：

應用場景

代碼自動生成

代碼優化與重構

代碼補全與提示

代碼風格統一

能夠提供輔助編程服務的AIGC大模型包括Codex 、 GitHub Copilot 、 CodeGeeX 、 aiXcoder 、豆包、通義靈碼等。這里以我國的字節跳動公司研發的豆包大模型為例介紹使用方法。

AIGC技術在輔助編程中的應用

編程工作一般是在電腦上進行，所以這裡使用電腦端的豆包大模型（手機端的豆包APP也提供了編程輔助功能）

訪問豆包大模型官網（ https: // www . doubao . com/ ），注冊用戶以後，進入大模型操作首頁（如圖所示），點擊“ 我的智能體” ，再點擊“ 編程助理” ，然後，在頁面中輸入提示詞，比如輸入“ 請編寫一段Python代碼，使用tur t le庫，繪製一個五角星”，然後，豆包就會自動生成一段Python代碼（如圖所示）。在Python中運行這段代碼，就可以成功繪製一個五角星。

圖豆包大模型操作首頁

圖豆包自動生成的Python代碼

AI搜索

AI搜索，即人工智能搜索引擎，是一種利用先進的人工智能技術，特別是深度學習和自然語言處理

（NL P ），來理解和響應用戶的查詢需求的新型搜索工具。它不僅僅是傳統搜索引擎（比如百度）的簡單升級，而是通過模擬人類的思維方式和行為模式，為用戶提供更加精準、個性化且高效的信息檢索服務。 A I搜索通過收集和分析用戶的歷史搜索數據和行為模式，構建用戶畫像，從而實現更加精準的個性化搜索服務。這種數據驅動的智能決策機制，使得A I搜索能夠不斷自我優化，提升用戶體驗。

納米AI搜索是360公司在2024年12月推出的全新AI搜索應用，結合了自然語言處理、機器學習以及專家協同技術，致力於打破傳統搜索引擎的局限，提供智能化、多樣化的搜索體驗。其核心特點包括：

多模態搜索：支持文字、語音、拍照、視頻等多種輸入方式，滿足不同場景下的需求，實現“一切皆可搜索”。

智能工具集成：內置16款頂尖大模型，如豆包、文心一言等，為用戶提供一站式AI智慧體驗。

慢思考模式：通過專家協同和多模型協作，深入分析複雜問題，提供更專業、更全面的答案。

AI智能辦公

在人工智能時代，AI智能辦公正以前所未有的態勢重塑我們的工作模式與體驗，成為推動辦公效率提升和辦公方式變革的核心力量。

AI智能辦公將人工智能技術深度融入辦公場景的各個環節，例如文檔處理、數據分析、演示製作等。

在文檔處理領域，AI智能辦公帶來了前所未有的變革。以往需要人工手動輸入文字、排版以及校對糾錯等工作需要耗費大量時間和精力，如今AI文檔處理技術極大地提升了這些任務的效率與質量。具體如下：

生成式文本。通過對大量文本數據的學習，AI能夠根據用戶提供的提示詞、主題或簡單描述，快速生成內容完整、邏輯連貫的文檔初稿。無論是新聞稿件、公告通知還是學術論文，都能藉助這一功能節省撰寫時間。例如，市場調研公司在需要撰寫季度報告時，AI可以迅速整合數據和市場趨勢信息，生成報告框架與初步內容，供使用者進一步完善。

文檔智能排版。 AI能夠自動識別文檔內容的結構，如標題、段落、列表等，並根據用戶預設的格式模板進行快速排版。這不僅提高了排版效率，還確保了文檔格式的一致性和規範性。對於需要處理大量文檔的辦公人員來說，這一功能大大減輕了工作負擔。

AI智能辦公

數據分析是辦公場景中的重要環節。傳統的數據分析需要人工進行數據收集、清洗、分析和可視化，過程煩瑣且容易出錯。而藉助人工智能技術，這些工作可以更加高效、精準地完成。

通過大模型算法，AI能夠從海量數據中發現潛在的模式、趨勢和關聯關係。例如，電商企業可以利用AI分析用戶的購買行為、瀏覽記錄和搜索關鍵詞，挖掘出用戶的潛在需求和消費偏好，從而製定精準的營銷策略。

自動數據可視化功能讓數據分析結果的呈現更加直觀、清晰。 AI能夠根據數據分析結果自動生成各種類型的表格圖表和圖形，如柱狀圖、折線圖、餅圖等，並進行合理的佈局和配色。辦公人員無需花費大量時間手動製作圖表，就能快速將數據轉化為易於理解的可視化信息，為決策提供有力支持。

AI寫作助手（幫我寫、幫我改、AI伴寫） AI設計助手（AI排版、AI格式）

AI閱讀助手（全文總結、文檔問答、劃詞解釋和翻譯） AI數據助手（AI寫公式、AI數據分析）

總結

大模型是人工智能領域的重要研究方向，其強大的語言理解和生成能力使得它在自然語言處理、機器翻譯、智能客服等領域有著廣泛的應用。大模型的訓練需要大量的數據和計算資源，同時也需要先進的技術和算法支持。隨著技術的不斷發展，大模型的應用場景也在不斷擴展，未來將會更加廣泛地應用於各個領域。

謝謝