DeepSeek
每個人都可以讀懂的大模型科普文章
大模型概念、技術與應用實踐
廈門大學
人生安然雲端科技教學團隊作品2025年2月9日
DeepSeek
每個人都可以讀懂的大模型科普文章
大模型概念、技術與應用實踐
團隊負責人:林子雨副教授
年輕力量:核心成員全部46周歲以下
結構合理:教學型、科研型、實驗工程師
專注專業:從2013年至今,11年專注於大數據教學
團隊特點:眼光前瞻、緊跟技術、創新實幹、執行力強影響力高:多項指標在國內高校大數據教學領域領先
教材數量
教材佔有率
MOOC課程學習人數
師資培養
教學研討會
教學網站訪問量
在線講座觀看人數
……
廈門大學計算機科學與技術系副教授
以第一作者編著出版15本大數據系列教材被國內1000餘所高校採用榮獲“ 2022年福建省高等教育教學成果獎特等獎(個人排名第一) ”入選“2021年高校計算機專業優秀教師獎勵計劃”
2018年國家精品在線開放課程(獨立主講)
2020年國家級線上一流本科課程(獨立主講)
入選“ 2023年教育部國家智慧教育公共服務平台應用典型案例”個人主頁:https://dblab.xmu.edu.cn/post/linziyu/
林子雨編著《數字素養通識教程——大數據與人工智能時代的計算機通識教育》
人民郵電出版社,2025年1月
ISBN:978-7-115-65946-0定價:59.8元
面向大一新生的全校大學計算機公共課教材
教材官網: https://dblab.xmu.edu.cn/post/digital-literacy/
教材官網提供講義PPT、MOOC視頻、案例視頻、上機實驗、教學大綱、課程思政案例、開學第一課講座PPT等豐富的教學資源
掃一掃訪問教材官網
15年計算機教學生涯感悟昇華,15本計算機暢銷教材知識凝練
深刻變革傳統大學計算機通識教育,培養學生計算思維、數據思維和AI思維
到B站觀看林子雨主講《數字素養通識教程》MOOC視頻(1359分鐘)視頻地址:https:// www.bilibili.com/video/BV1XPf8YZE6M/
在數字化浪潮洶湧澎湃的當下,大模型如同一顆璀璨新星,強勢崛起並迅速成為科技領域的焦點。從最初的理論探索到如今在各個行業的廣泛應用,大模型正以驚人的速度重塑著我們的生活與工作模式。它不僅是人工智能技術發展的重大突破,更是推動經濟增長、提升社會治理效能、促進科技創新的關鍵力量。本報告《大模型概念、技術與應用實踐》將深入剖析大模型的核心概念、原理特點以及豐富多元的應用實踐案例,旨在讓大家全面了解大模型這一前沿技術,明晰其在當下及未來發展中的重要地位與深遠影響,共同探索如何借助大模型的力量推動社
會各項事業邁向新的高度。
人工智能發展簡史
圖靈測試
人工智能的誕生
人工智能的發展階段
未來人工智能發展的五個階段
1950年,“計算機之父”和“人工智能之父”艾倫·圖靈( Alan M . Turing )發表了論文《計算機器與智能》,這篇論文被譽為人工智能科學的開山之作。在論文的開篇,圖靈提出了一個引人深思的問題:“機器能思考嗎?”。這個問題激發了人們無盡的想像,同時也奠定了人工智能的基本概念和雛形
人工智能的誕生可以追溯到20世紀50年代。當時,計算機科學剛剛起步,人們開始嘗試通過計算機程序來模擬人類的思維和行為。在這個背景下,一些傑出的科學家和工程師們開始研究如何使計算機具備更高級的功能
1956年8月,在美國達特茅斯學院舉辦的人工智能夏季研討會,是人工智能領域具有里程碑意義的一次重要會議。這次會議匯聚了眾多傑出的科學家和工程師,他們共同探討和研究人工智能的發展和應用前景
從1956年人工智能元年至今,人工智能的發展歷程經歷了漫長的歲月,大致可以劃分為以下6個階段
1.4
人工智能思維
每個人都應了解人工智能
具備區分人的能力
和機器的能力
擁有和人工智能協作的能力,
懂得如何運用人工智能
大模型:人工智能的前沿
大模型的概念
大模型的發展歷程
人工智能與大模型的關係
大模型產品
大模型原理
大模型特點
大模型分類
大模型應用領域(在各個行業的應用)
大模型對工作和生活的影響
本地部署大模型
基於大模型的智能體
大模型通常指的是大規模的人工智能模型,是一種基於深度學習技術,具有海量參數、強大的學習能力和泛化能力,能夠處理和生成多種類型數據的人工智能模型
通常說的大模型的“大”的特點體現在:參數數量龐大、訓練數據量大、計算資源需求高
2020年,OpenAI公司推出了GPT-3
大模型的設計和訓練旨在提供更強大、更準確的模型性能,以應對更複雜、更龐大的數據集或任務。大模型通常能夠學習到更細微的模式和規律,具有更強的泛化能力和表達能力
上下文理解能力
大模型具有更強的上下文理解能力,能夠理解更複雜的語意和語境。這使得它們能夠產生更準確、更連貫的回答
語言生成能力
大模型可以生成更自然、更流利的語言,減少了生成輸出時呈現的錯誤或令人困惑的問題
學習能力強
大模型可以從大量的數據中學習,並利用學到的知識和模式來提供更精準的答案和預測。這使得它們在解決複雜問題和應對新的場景時表現更加出色
可遷移性高
學習到的知識和能力可以在不同的任務和領域中遷移和應用。這意味著一次訓練就可以將模型應用於多種任務,無需重新訓練
萌芽期( 1950- 2005 )
1956年,從計算機專家約翰·麥卡錫提出“人工智能”概念開始, AI
發展由最開始基於小規模專家知識逐步發展為基於機器學習
1980年,卷積神經網絡的雛形CNN誕生
沉澱期( 2006- 2019 )
2013年,自然語言處理模型Word2Vec誕生,首次提出將單詞轉換為向量的“詞向量模型”,以便計算機更好地理解和處理文本數據。 2014年,被譽為21世紀最強大算法模型之一的GAN ( Generative Adversarial Networks ,對抗式生成網絡)誕生,標誌著深度學習進
入了生成模型研究的新階段
2017年, Google顛覆性地提出了基於自註意力機制的神經網絡結構—
—Transformer架構,奠定了大模型預訓練算法架構的基礎
2019年, OpenAI發布了GPT- 2
爆發期( 2020-至今)
這是一個以GPT為代表的預訓練大模型階段
爆發期( 2020-至今)
人工智能包含了機器學習,機器學習包含了深度學習,深度學習可以採用不同的模型,其中一種模型是預訓練模型,預訓練模型包含了預訓練大模型(可以簡稱為“大模型”) ,預訓練大模型包含了預訓練大語言模型(可以簡稱為“大語言模型”) ,預訓練大語言模型的典型代表包括OpenAI的GPT和百度的文心ERNIE , ChatGPT是基於GPT開發的大模型產品,文心一言是基於文心ERNIE開發的大模型產品
機器學習
深度學習
深度學習模型
預訓練模型
預訓練大模型深預度訓學練習
大語言模型
ChatGPT 文心一言
預訓練大語言模型
GPT
文心ERNIE
...
大模型產品
國外的大模型產品
國內的大模型產品
ChatGPT
ChatGPT是一種由OpenAI訓練的大語言模型。它是基於Transformer架構,經過大量文本數據訓練而成,能夠生成自然、流暢的語言,並具備回答問題、生成文本、語言翻譯等多種功能
Gemini
Gemini是谷歌發布的大模型,它能夠同時處理多種類型的數據和任務,覆蓋文本、圖像、音頻、視頻等多個領域。 Gemini
採用了全新的架構,將多模態編碼器和多模態解碼器兩個主要組件結合在一起,以提供最佳結果
Gemini包括三種不同規模的模型: Gemini Ultra 、 Gemini Pro和Gemini Nano ,適用於不同任務和設備。 2023年12月6日, Gemini的初始版本已在Bard中提供,開發人員版本可通過Google Cloud的API獲得。 Gemini可以應用於Bard和Pixel 8
Sora
式踏入了通用人工智能( AGI : Artificial General Intelligence )的時代。 AGI是指能夠像人類一樣進行各種智能活動的機器智能,包括理解語言、識別圖像、進行複雜推理等。 Sora大模型能夠直接輸出長達60秒的視頻,並且視頻中包含了高度細緻的背景、複雜的多角度鏡頭,以及富有情感
的多個角色。這種能力已經超越了簡單的圖像或文本生成,開始觸及到
OpenAI o3
2025年1月國內大模型排行榜
大模型 |
|
|
DeepSeek |
| |
豆包 |
| |
Kimi |
| |
|
| |
|
| |
|
|
DeepSeek (深度求索)
2024年12月26日,杭州一家名為“深度求索” ( DeepSeek )的中國初創公司,發布了全新一代大模型DeepSeek-V3 。在多個基準測試中, DeepSeek-V3的性能均超越了其他開源模型,甚至與頂尖的閉源大模型GPT-4o不相上下,尤其在數學推理上, DeepSeek-V3更是遙遙領先。 DeepSeek-V3以多項開創性技術,大幅提升了模型的性能和訓練效率。 DeepSeek-V3在性能比肩GPT-
4o的同時,研發卻只花了558萬美元,訓練成本不到後者的二十分之一。因為表現太過優越, DeepSeek在矽谷被譽為“來自東方的神秘力量” 。
DeepSeek創始人梁文峰
通義千問
文心一言是由百度研發的知識增強大模型,能夠與人對話互動、回答問題、協助創作,高效便捷地幫助人們獲取信息、知識和靈感
基於深度學習利用
具有大量參數的神經網絡模型
大模型的特點
大模型通常包含數十億個參數,模型大小可以達到數百GB甚至更大。這種巨大的規模不僅提供了強大的表達能力和學習能力,還使得大模型在處理複雜任務時具有更高的效率和準確性
湧現能力
大模型因其巨大的規模和復雜的結構,展現出更出色的性能和泛化能力。它們在各種任務上都能表現出色,超越了傳統的小模型。這主要歸功於大模型的參數規模和學習能力。大模型能夠更好地理解和模擬現實世界中的複雜現象,從而在各種任務中表現出更高的準確性和效率。它們能夠捕捉到數據中的微妙差異和復雜模式,使得在未見過的數據上也能表現優秀,即具有良好的泛化能力
多任務學習
大模型需要大規模的數據來訓練,通常在TB級別甚至PB級別。這是因為大模型擁有數億甚至數十億的參數,需要大量的數據來提供足夠的信息供模型學習和優化。只有大規模的數據才能讓大模型的參數規模發揮優勢,提高模型的泛化能力和性能。同時,大數據訓練也是保證大模型能夠處理複雜任務的關鍵。通過使用大規模數據,大模型能夠更好地理解數據中的複雜模式和關係,從而更好地模擬現實世界中的各種現象
強大的計算資源
遷移學習和預訓練
自監督學習利用大規模未標記數據進行訓練,通過從數據中挖掘內在的規律和模式,使模型能夠自動地理解和預測數據中的信息。在大規模的未標記數據中,大模型通過預測輸入數據的標籤或下一個時刻的狀態來進行訓練。這種訓練方式使得大模型能夠從大量的數據中自動地學習到語言的內在結構和模式,而不需要人工標註和乾預
領域知識融合
自動化和效率
大模型的分類
語言大模型視覺大模型多模態大模型
(Google)、DeepSeek、文心一言(百度)等
是指在計算機視覺(Computer Vision ,CV)領域中使用的大模型,通常用於圖像處理和分析。這類模型通過在大規模圖像數據上進行訓練,可以實現各種視覺任務,如圖像分類、目標檢測、圖像分割、姿態估計、人臉識別等。代表性產品包括VIT系列(Google)、文心UFO、華為盤古CV、INTERN(商湯)等
是指能夠處理多種不同類型數據的大模型,例如文本、圖像、音頻等多模態數據。這類模型結合了NLP和CV的能力,以實現對多模態信息的綜合理解和分析,從而能夠更全面地理解和處理複雜的數據。代表性產品包括DingoDB多模向量數據庫(九章云極DataCanvas)、DALL-E(OpenAI)、悟空畫畫(華為)、midjourney等
按照應用領域的不同,大模型主要可以分為L0 、 L1 、 L2三個層級
通用大模型L0
行業大模型L1
垂直大模型L2
是指那些針對特定行業或領域的大模型。它們通常使用行業相關的數據進行預訓練或微調,以提高在該領域的性能和準確度,相當於AI成為“行業專家”
是指那些針對特定任務或場景的大模型。它們通常使用任務相關的數據進行預訓練或微調,以提高在該任務上的性能和效果
大模型的應用領域
大模型的應用領域非常廣泛,涵蓋了自然語言處理、計算機視覺、語音識別、推薦系統、醫療健康、金融風控、工業製造、生物信息學、自動駕駛、氣候研究等多個領域
自然語言處理
大模型在自然語言處理領域具有重要的應用,可以用於文本生成
(如文章、小說、新聞等的創作)、翻譯系統(能夠實現高質量的跨語言翻譯)、問答系統(能夠回答用戶提出的問題) 、情感分析
計算機視覺
語音識別
推薦系統
大模型可以用於個性化推薦、廣告推薦等任務。通過分析用戶的歷史行為和興趣偏好,大模型可以為用戶提供個性化的推薦服務,提高用戶滿意度和轉化率
大模型可以用於醫療影像診斷、疾病預測等任務。通過學習大量的醫學影像數據,大模型可以輔助醫生進行疾病診斷和治療方案製定,提高醫療水平和效率
大模型可以用於信用評估、欺詐檢測等任務。通過分析大量的金融數據,大模型可以評估用戶的信用等級和風險水平,以及檢測欺詐行為,提高金融系統的安全性和穩定性
在生物信息學領域,大模型可以用於基因序列分析(識別基因中的功能元件和變異位點)、蛋白質結構預測(推測蛋白質的二級和三級結構)、藥物研發(預測分子與靶點的相互作用)等
在氣候研究領域,大模型可以處理氣象數據,進行天氣預測和氣候模擬。它們能夠分析複雜的氣象現象,提供準確的氣象預報,幫助人們做出應對氣候變化的決策
大模型對人們工作和生活的影響
大模型對工作的影響
大模型對生活的影響
大模型在自然語言處理、機器
大模型能夠收集、整理和分析
大量的數據,通過數據挖掘和機器學習技術,幫助人們更準確地了解問題現狀,預測未來趨勢,從而做出更明智的決策
大模型的發展使得一些繁瑣、
重複的工作可以由機器來完成,從而減輕了人們的工作負擔。例如,在金融領域,大模型可以自動分析大量的金融數據,幫助人們做出更準確的決策
隨著大模型的普及和應用,將
創造出許多新的就業機會。例如,需要更多的人來開發和維護大模型,也需要更多的人來利用大模型進行各種應用開發
大模型在智能家居、智能客服等領域的應用,使得人們的生活更加便利、舒適。例如,通過智能家居系統,人們可以通過語音指令控製家電,實現智能化生活
提高學習效率
增強娛樂體驗
本地部署大模型
下載DeepSeek R1
運行DeepSeek R1
具體安裝過程請參考廈門大學數據庫實驗室博客https://dblab.xmu.edu.cn/blog/5816/
基於大模型的智能體
數據雷達。會自動24小時掃描全球知識庫。
知識拼圖。能把零散的信息拼成完整的戰略地圖。
邏輯推理。發現矛盾時,自動回溯、驗證,調整推理路徑。
學術裁縫。可以綜合各種知識,生成完美的報告,還附帶文獻引用。
AIGC應用與實踐
AIGC概述
文本類AIGC應用實踐
圖片類AIGC應用實踐
語音類AIGC應用實踐
視頻類AIGC應用實踐
AIGC在輔助編程中的應用
AI搜索
AI智能辦公
4 . 1 AIGC概述
什麼是AIGC
AIGC與大模型的關係
常見的AIGC應用場景
AIGC技術對行業發展的影響
AIGC技術對職業發展的影響
常見的AIGC大模型工具
AIGC大模型的提示詞
AIGC是人工智能進入全新發展時期的重要標誌,其核心技術包括生成對抗網絡( GAN , Generative Adversarial Networks )、大型預訓練模型、多模態技術等
AIGC的核心思想是利用人工智能算法生成具有一定創意和質量的內容。通過訓練模型和大量數據的學習, AIGC可以根據輸入的條件或指導,生成與之相關的內容。例如,通過輸入關鍵詞、描述或樣本, AIGC可以生成與之相匹配的文章、圖像、音頻等
大模型與AIGC之間的關係可以說是相輔相成、相互促進的。大模型為AIGC提供了強大的技術基礎和支撐,而AIGC則進一步推動了大模型的發展和應用,具體如下:
AIGC可以應用於各行各業,主要包括但不限於生成文字、圖像、音頻、視頻等,具體如下:
教育
AIGC技術對行業發展的影響深遠且廣泛,主要體現在以下幾個方面:
AIGC技術對職業發展產生了深遠的影響,主要體現在以下幾個方面:
常見的AIGC大模型工具包括:
Ø AIGC大模型的提示詞( Prompt )是指用戶向大模型輸入的文本內容,用於觸發大模型的響應並指導其如何生成或回應
Ø這些提示詞可以是一個問題、一段描述、一個指令,甚至是一個帶有詳細參數的文字描述。它們為大模型提供了生成對應文本、圖片、音頻、視頻等內容的基礎信息和指導方向。
Ø提示詞的重要作用如下:
使用提示詞需要注意一些技巧,這樣可以從大模型獲得更加符合我們預期要求的結果,主要技巧如下:
文本類AIGC應用實踐
案例1:與DeepSeek進行對話
案例2 :與百度文心一言進行對話
案例3:使用訊飛智文生成PPT
快速體驗DeepSeek
訪問DeepSeek官網(https://chat.deepseek.com/),會出現如圖7-1所示對話界面,在提示詞輸入框的底部,有兩個按鈕,即“深度思考(R1)”和“聯網搜索”,可以用鼠標點擊來選中或取消,默認情況下,“深度思考(R1)”按鈕是處於選中狀態,“聯網搜索”則處於未選中狀態。兩個按鈕的功能如下:
深度思考(R 1)。表示觸發更複雜的多步推理能力,適合需要邏輯鏈分析的場景,典型使用場景包括數學題/物理題推導、文學作品的隱喻分析、編程問題的架構設計、需要分步驟解釋的操作指南等。
聯網搜索。表示實時獲取最新網絡信息,適合時效性強的查詢,典型使用場景包括查詢實時股價/匯率、驗證最新科研成果、獲取突發事件進展、檢索特定網頁內容等。
快速體驗DeepSeek
DeepSeek的基本用法
基本原則:簡單直接,自然表達。 ①無需複雜結構。直接描述需求即可,無需添加“角色扮演”(如“假設你是專家”)或複雜指令(如“用學術語言分三點回答”)。比如,你可以直接向Dee pS ee k提問“什麼是光合作用?”、“如何用Python寫一個計算器程序?”,而不建議使用提示詞“請以生物學教授的身份,用三個段落解釋光合作用,每段不超過100字”。 ②多輪對話優化結果。如果首次回答不完整,可通過追問補充細節,無需一次性給出完美提示。比如,第一輪提問“寫一首關於秋天的詩”,第二輪提問“加入一些悲傷的情緒”,第三輪提問“把'落葉'換成比喻句”。
DeepSeek的基本用法
作為初學者,Dee pS ee k的一些“魔法”指令也很有用,比如,你可以輸入“/步驟如何⽤⼿機拍攝旅遊照⽚”, Dee pS ee k返回的回答結果就會按照步驟詳細給出拍攝旅遊照片的說明,再比如,你可以輸入“請解釋量⼦計算,然後/簡化”,它就會返回比較簡明扼要的回答。
表DeepSeek的“魔法”指令
指令 | 功能 |
|
|
|
|
/⽰例 |
|
|
|
|
|
使用DeepSeek處理文檔
點擊Dee pS ee k界面中的「回形針」圖標上傳⽂件,支持的文件類型包括文本類( P D F 、DO CX 、 T X T 、M ar k do w n ) 、數據類( CSV 、 XLSX )和圖像類( J P G 、 PNG ) 。然後,就可以在對話框中輸入提示詞,比如,可以輸入“總結這份年報的三個核⼼要點”、“提取合同中的責任條款製成表格”、“對⽐⽂檔A和⽂檔B的市場策略差異”、“從實驗報告中整理所有溫度數據”、“請識別圖片中的文字”等。也可以使用一些指令來處理文檔,如表7-2所示。
表用於文檔處理的DeepSeek指令
功能 | 指令模板 |
|
|
|
|
|
| 精准定位特定信息 |
|
|
|
|
|
|
還可以要求DeepSeek對回答結果進行結構化輸出,比如,可以輸入如下提示詞:
按"營收/利潤/成本"分類
用Markdown表格對比近三年數據
關鍵增長點用✅標註
告訴文心一言你要的風格
在輸入提示詞時,明確指定你希望生成的文本內容的風格。這樣,文心一言在理解並處理你的請求時,會更有針對性地調整其生成內容的風格,以滿足你的具體需求。比如,可以使用提示詞:
想要生成不同語氣風格的文字,可以在問題描述中加入你想要的語氣風格作為限定條件,提示文心一言按照你的要求去輸出。
告訴文心一言你要的結構
在構建提示詞時,應明確指定期望的輸出結構。比如,如果是要求生成一篇文章,可以在提示詞中明確指出“請按照引言-正文-結論的結構來撰寫”。這樣,文心一言在生成內容時,會遵循這一結構框架,使得輸出更加條理清晰、邏輯嚴密。再比如,如果要撰寫給上級領導的方案、報告、總結時,可以使用提示詞:
告訴文心一言你要的角色
在提示詞中可以設定具體的角色或視角。例如,在要求創作故事時,可以明確指定“以一位勇敢探險家的視角講述這段經歷”。這樣的提示能引導文心一言在生成內容時,從特定角色的角度出發,賦予文本獨特的情感色彩和敘事風格。此技巧有助於增強生成內容的代入感和故事性,使內容更加豐富和引人入勝。
下面是一段提示詞實例:
下面是另一段提示詞實例:
告訴文心一言你的內容要求
可以通過詳細具體的提示詞明確表達內容要求。無論是希望生成的文章主題、關鍵詞彙,還是期望涵蓋的信息點、情感傾向,都應在提示詞中清晰呈現。這樣做能讓文心一言更準確地理解用戶需求,生成更符合期望的內容。
比如,可以通過如下提示詞表達自己的內容要求:
告訴文心一言你的內容要求
如果對輸出的內容有比較多的要求或限制,不妨在輸入框中將這些內容要求一條一條明確告訴文心一言,比如,可以採用類似如下的提示詞:
告訴文心一言你想寫的文體
明確指定文體,如散文、小說、詩歌、科技文等,讓大模型理解並模擬該文體的語言特點、結構安排和表達習慣,從而輸出更具針對性的文本。比如,可以採用提示詞“請寫一段[中秋賞月]的朋友圈文案,需要採用藏頭詩的形式”
指導文心一言分步解決問題
將復雜問題拆解成多個簡單、具體的步驟,作為提示詞輸入給文心一言。這樣不僅能降低問題的處理難度,使文心一言更容易理解和響應,還能確保解決問題的過程更加系統、有條理。通過逐步引導,可以逐步逼近問題的解決方案,提高答案的準確性和實用性。
比如,如果想讓文心一言幫你制定一份旅行規劃,可以使用類似如下的提示詞:
請為我規劃一次為期一周的廈門自由行;
第1步: 列出必去的景點, 如廈門大學、鼓浪嶼、環島路、五緣灣、曾厝垵;
第2步: 根據景點位置安排每日行程,確保交通便利;
第3步: 推薦幾家當地的特色餐廳, 包括早餐、午餐和晚餐;
第4步: 提供一家性價比高的酒店住宿建議, 並考慮其位置是否便於遊覽。
告訴文心一言你要的示例
明確溝通意圖,通過具體示例引導大模型理解你的需求。這有助於文心一言更準確地捕捉你的思維框架和期望結果,減少誤解。比如,可以使用類似如下的提示詞:
告訴文心一言你要的場景
在輸入提示詞時,應明確描述所需的上下文或環境背景,如“在科幻電影中描述一個未來城市的景象”或“請撰寫一封給朋友的生日祝福信,場景設定在海邊日落時”。這樣做有助於文心一言更好地理解你的需求,生成更符合場景氛圍和情境的內容,從而提升輸出內容的貼切性和情感共鳴。
訊飛智文是科大訊飛公司旗下的AI一鍵生成PPT/WORD的網站平台,是基於科大訊飛星火認知大模型技術基礎上開發的一個具體應用,主要功能有文檔一鍵生成、 AI撰寫助手、多語種文檔生成、 AI自動配圖、模板圖示切換功能。這裡介紹如何使用訊飛智文快速生成PPT 。
請首先準備一個包含文本內容的PDF文件, 比如, 可以從網絡新聞報導中復制一段關於2024年7月19日微軟藍屏事件的內容保存到一個WORD文檔中,命名為“ 微軟藍屏. docx” , 然後,使用WPS軟件打開“ 微軟藍屏. docx” , 把該WORD文檔保存成PDF格式, 生成“ 微軟藍
屏. pdf ” 。
圖7-2開始創作
圖7-3選擇AI PPT中的“文檔創建”
圖7-4上傳文件
圖7-6選擇模板配色
圖片類AIGC應用實踐
圖片類AIGC應用場景
圖片類AIGC案例實踐
圖片類AIGC是一種基於人工智能技術生成圖片的方法,它利用深度學習、生成對抗網絡( GAN )等先進算法,通過學習和模仿大量圖像數據,能夠自動創作出高度真實和藝術化的圖片。 AIGC在圖像生成、修復、風格轉換、藝
圖片類AIGC的應用場景非常廣泛,主要包括圖像生成、圖像修復、圖像增強和圖像識別等方面:
Ø圖片類AIGC大模型主要包括Midjourney 、 Stable Diffusion SDXL 、百度文心一格等。這里以百度文心一格為例介紹圖片類AIGC的使用方法。
Ø文心一格是一款由百度公司研發的AI繪畫工具,為用戶提供了豐富的創意空間。使用文心一格進行AI繪畫的步驟包括註冊賬戶、選擇創作模式、輸入提示詞、設置畫麵類型、設置比例、設置數量以及生成圖片等,具體如下:
語音類AIGC應用實踐
語音類AIGC應用場景
語音類AIGC案例實踐
語音類AIGC應用場景
語音類AIGC的應用場景非常豐富,涵蓋了多個領域,從日常生活到專業應用,都展現出了其獨特的價值和潛力,以下是一些主要的語音類AIGC應用場景:
01
智能語音助手
02
智能客服
03
語音合成與轉換
04
虛擬人物與數字人
應用場景
05
語音翻譯
06
語音分析與情感識別
07
智能駕駛艙與車載語音助手
語音類AIGC案例實踐
豆包大模型的語音類功能用法
一般情況下,普通用戶在手機上使用語音類AIGC大模型的場景比較多,因此,這裡介紹手機版豆包的使用方法。
豆包不僅支持語音輸入,也可以支持文字輸入,只要在文字輸入框內輸入提示詞,豆包就會給出回答。豆包也支持AI繪圖功能,你可以用手指點擊界面上的“圖片生成”按鈕,然後輸入提示詞,比如通過文字或者語音輸入“請幫我繪製一張圖片,一個9歲的小女
4.4.2
豆包大模型的語音類功能用法
圖豆包的功能選擇界面圖豆包的英語口語聊天界面
訊飛智作大模型的語音類功能用法
訊飛智作大模型的語音類功能用法
圖4-13訊飛智作頁面
訊飛智作大模型的語音類功能用法
圖4-15選擇主播
4.4.2
圖4-16作品命名頁面 圖4-17訂單支付頁面
訊飛智作大模型的語音類功能用法
圖4-18下載頁面
視頻類AIGC應用實踐
視頻類AIGC應用場景
代表性視頻類AIGC大模型
視頻類AIGC案例實踐
視頻類AIGC應用場景
視頻類AIGC在多個領域擁有廣泛的應用場景,以下是一些主要的應用方向:
短視頻與直播 廣告與營銷 教育與培訓
虛擬現實與增強現實
Ø視頻類AIGC大模型發端於Sora 。 2024年2月,美國的Open AI發布了全球第一款文生視頻大模型Sora (這裡的“文生視頻”是指由輸入的文本內容生成相應的視頻),迅速引起了業界的廣泛關注和討論,因其能夠快速生成高質量的廣告宣傳視頻及商品演示視頻,從而大幅降低廣告相關內容的製作成本及時間。
Ø我國的視頻類AIGC大模型主要包括:
案例:使用騰訊智影生成數字人播報視頻(備註:本案例由夏小雲老師製作)
步驟1:登錄騰訊智影平台。在瀏覽器地址欄中輸入網址“ https://zenvideo.qq.com/”,進入“騰訊智影”平台,點擊“登錄”(如圖7-107所示),可以使用微信掃碼登錄、也可以手機號登錄或者QQ掃碼登錄,任選一種方式登錄即可。登錄成功後,點擊平台首頁“智能小工具”欄目中的“數字人播報”按鈕(如圖7-108所示)或者“智能小工具”上方的“數字人播報”按鈕,進入“數字人播報”功能界面。
圖7-107騰訊智影登錄界面圖7-108 “數字人播報”功能入口
步驟2:上傳PPT。進入“數字人播報”功能界面後(如圖7-109所示),在左側工具欄,點擊“PPT模式”,平台會出現“上傳PPT或PDF”的界面,點擊“上傳”按鈕,上傳需要播報的PPT,這裡上傳“數字人播報PPT.ppt”文件(可以從林子雨編著《數字素養通識教程》教材官網下載)。
圖7-109 “PPT模式”上傳PPT入口
圖7-110 “預置形象”的數字人圖7-111 “照片播報”的數字人
步驟4 :調整數字人的位置、大小和服裝類型。選用的數字人確認後,可以點擊PPT上的“數字人”,進入“數字人”設置界面,點擊“數字人編輯”按鈕(如圖7-112所示),對“數字人”進行編輯,可以重新換服裝以及選擇數字人出現的“形狀”;點擊“畫面”按鈕,可以通過坐標設置來調整數字人的位置和大小(如圖7-113所示),也可以點擊數字人的邊框,通過拖動鼠標來調整數字人的位置和大小。這裡可以根據PPT畫面的佈局來調整“數字人”的位置和大小,盡量避免數字人遮擋文字。
圖7-112 “數字人編輯”功能界面確認服裝和形狀圖7-113進入“畫面”功能界面調整數字人的位置和大小
步驟5 :輸入播報內容和設置字幕樣式。數字人調整完成後,點擊右側工具欄的“播報內容”按鈕(如圖7-114所示) ,輸入播報內容,播報內容可以AI自動生成,也可以手動輸入或導入文件(字數不超過5000字),這裡選擇“手動輸入”每頁PPT的播報內容。點擊右側工具欄的“字幕樣式”按鈕(如圖7-115所示),設置視頻字幕的樣式並打開字幕顯示按鈕,通過鼠標拖動把字幕放置畫面的合適位置。
圖7-114輸入PPT播報內容圖7-115設置字幕樣式並打開字幕按鈕
圖7-116根據需要添加“背景”、“貼紙”、“音樂”
步驟6 :保存並生成播報。選擇完音色後,點擊“音色”下方的“保存並生成播報”按鈕(如圖7-118所示),選中每一頁PPT,逐一點擊保存並生成播報,注意,平台此時生成的數字人播報效果預覽,暫不支持口型對齊預覽,合成後可查看完整動態效果。
圖7-118保存並生成播報
步驟7 :合成並下載視頻。保存並生成每頁的PPT的播報後,點擊頁面右上方的“合成視頻”按鈕(如圖7-119所示) ,然後設置合成視頻輸出的參數(如圖7-1 20所示),設置完成後點擊“確認”按鈕,系統後台會自動合成數字人播報視頻,等待合成結束後,點擊“下載”按鈕(如圖7-121所示),下載合成的數字人播報視頻。最後,播放合成的視頻文件,檢查視頻畫面是否符合預期。如有需要,可以根據反饋調整參數,重新生成。
圖7-119點擊合成視頻
AIGC在輔助編程中的應用
AIGC技術在輔助編程中的應用
應用場景
代碼自動生成
代碼優化與重構
代碼補全與提示
代碼風格統一
訪問豆包大模型官網( https: // www . doubao . com/ ) ,注冊用戶以後, 進入大模型操作首頁(如圖所示) , 點擊“ 我的智能體” , 再點擊“ 編程助理” ,然後, 在頁面中輸入提示詞,比如輸入“ 請編寫一段Python代碼, 使用tur t le庫, 繪製一個五角星”, 然後, 豆包就會自動生成一段Python代碼(如圖所示)。在Python中運行這段代碼, 就可以成功繪製一個五角星。
圖豆包大模型操作首頁
AI搜索
AI搜索
AI搜索,即人工智能搜索引擎,是一種利用先進的人工智能技術,特別是深度學習和自然語言處理
(NL P ),來理解和響應用戶的查詢需求的新型搜索工具。它不僅僅是傳統搜索引擎(比如百度)的簡單升級,而是通過模擬人類的思維方式和行為模式,為用戶提供更加精準、個性化且高效的信息檢索服務。 A I搜索通過收集和分析用戶的歷史搜索數據和行為模式,構建用戶畫像,從而實現更加精準的個性化搜索服務。這種數據驅動的智能決策機制,使得A I搜索能夠不斷自我優化,提升用戶體驗。
納米AI搜索是360公司在2024年12月推出的全新AI搜索應用,結合了自然語言處理、機器學習以及專家協同技術,致力於打破傳統搜索引擎的局限,提供智能化、多樣化的搜索體驗。其核心特點包括:
多模態搜索:支持文字、語音、拍照、視頻等多種輸入方式,滿足不同場景下的需求,實現“一切皆可搜索”。
智能工具集成:內置16款頂尖大模型,如豆包、文心一言等,為用戶提供一站式AI智慧體驗。
慢思考模式:通過專家協同和多模型協作,深入分析複雜問題,提供更專業、更全面的答案。
AI智能辦公
在人工智能時代,AI智能辦公正以前所未有的態勢重塑我們的工作模式與體驗,成為推動辦公效率提升和辦公方式變革的核心力量。
AI智能辦公將人工智能技術深度融入辦公場景的各個環節,例如文檔處理、數據分析、演示製作等。
在文檔處理領域,AI智能辦公帶來了前所未有的變革。以往需要人工手動輸入文字、排版以及校對糾錯等工作需要耗費大量時間和精力,如今AI文檔處理技術極大地提升了這些任務的效率與質量。具體如下:
生成式文本。通過對大量文本數據的學習,AI能夠根據用戶提供的提示詞、主題或簡單描述,快速生成內容完整、邏輯連貫的文檔初稿。無論是新聞稿件、公告通知還是學術論文,都能藉助這一功能節省撰寫時間。例如,市場調研公司在需要撰寫季度報告時,AI可以迅速整合數據和市場趨勢信息,生成報告框架與初步內容,供使用者進一步完善。
數據分析是辦公場景中的重要環節。傳統的數據分析需要人工進行數據收集、清洗、分析和可視化,過程煩瑣且容易出錯。而藉助人工智能技術,這些工作可以更加高效、精準地完成。
通過大模型算法,AI能夠從海量數據中發現潛在的模式、趨勢和關聯關係。例如,電商企業可以利用AI分析用戶的購買行為、瀏覽記錄和搜索關鍵詞,挖掘出用戶的潛在需求和消費偏好,從而製定精準的營銷策略。
自動數據可視化功能讓數據分析結果的呈現更加直觀、清晰。 AI能夠根據數據分析結果自動生成各種類型的表格圖表和圖形,如柱狀圖、折線圖、餅圖等,並進行合理的佈局和配色。辦公人員無需花費大量時間手動製作圖表,就能快速將數據轉化為易於理解的可視化信息,為決策提供有力支持。
AI閱讀助手(全文總結、文檔問答、劃詞解釋和翻譯) AI數據助手(AI寫公式、AI數據分析)