AI应用的全景图

一、AI领域的主流应用分类

根据应用场景和技术特点,AI可以分为以下几个主要类别:

1. 自然语言处理(NLP)

  • 应用类型
    • 文本生成与理解:如聊天机器人、自动翻译。
    • 情感分析:判断文本的情感倾向。
    • 问答系统:如智能客服、知识检索。
  • 依托的技术和理论
    • 预训练语言模型(如GPT-3/4、BERT)。
    • 变换来注意力机制(Transformer)。
    • 深度学习框架(如PyTorch、TensorFlow)。
  • 代表应用:ChatGPT、DeepSeek-R1。

2. 计算机视觉(Computer Vision)

  • 应用类型
    • 图像分类与识别:如人脸识别、物体检测。
    • 视频分析:行为识别、视频监控。
    • 图像生成:如风格迁移、AI绘画。
  • 依托的技术和理论
    • 卷积神经网络(CNN)。
    • 生成对抗网络(GAN)。
    • 目标检测算法(YOLO、Faster R-CNN)。
  • 代表应用: facial recognition systems, Autonomous Vehicles.

3. 机器学习(Machine Learning, ML)

  • 应用类型
    • 分类与回归:如信用评分、疾病预测。
    • 聚类分析:客户细分、数据挖掘。
    • 强化学习:游戏AI、机器人控制。
  • 依托的技术和理论
    • 监督学习(Supervised Learning)。
    • 无监督学习(Unsupervised Learning)。
    • 强化学习(Reinforcement Learning)。
  • 代表算法: Support Vector Machines (SVM), Random Forests, Q-Learning.

4. 自动驾驶与机器人

  • 应用类型
    • 自动驾驶:L2-L5级自动驾驶技术。
    • 服务机器人:如家庭陪护机器人、工业机器人。
  • 依托的技术和理论
    • 深度强化学习(DRL)。
    • 激光雷达(LiDAR)、摄像头融合感知。
    • 路径规划算法(A*、RRT)。
  • 代表公司: Tesla, Waymo, Boston Dynamics.

5. 多模态AI

  • 应用类型
    • 多模态内容生成:如图像与文本的联合生成。
    • 跨模态检索:如以图搜文、以音搜图。
  • 依托的技术和理论
    • 多模态预训练模型(如CLIP, Flamingo)。
    • 对比学习(Contrastive Learning)。
    • 图神经网络(GNN)。

6. 推荐系统

  • 应用类型
    • 个性化推荐:如电商、音乐、视频平台的推荐。
  • 依托的技术和理论
    • 协同过滤(Collaborative Filtering)。
    • 深度神经网络(Deep Neural Networks)。
    • 矩阵分解技术(Matrix Factorization)。

二、AI领域的核心技术与理论

以下是一些支撑AI发展的核心技术和理论:

1. 深度学习(Deep Learning)

  • 特点:通过多层神经网络模拟人脑,自动提取特征。
  • 核心技术
    • 卷积神经网络(CNN)。
    • 循环神经网络(RNN)、长短时记忆网络(LSTM)。
    • 变换来注意力机制(Transformer)。
  • 应用领域:NLP、CV、推荐系统。

2. 强化学习(Reinforcement Learning, RL)

  • 特点:通过试错机制,智能体在环境中学习最优策略。
  • 核心技术
    • Q-Learning。
    • 深度Q网络(DQN)。
    • 策略梯度方法(Policy Gradient)。
  • 应用领域:游戏AI、机器人控制。

3. 生成对抗网络(GANs)

  • 特点:通过两个模型的对抗训练,生成高质量数据。
  • 核心技术
    • 深度卷积GAN(DCGAN)。
    • 条件GAN(cGAN)。
    • StyleGAN。
  • 应用领域:图像生成、音频合成。

4. 大语言模型(LLM)

  • 特点:基于Transformer架构,通过大规模数据预训练。
  • 核心技术
    • 自注意力机制(Self-Attention)。
    • 预训练与微调技术(Pre-training and Fine-tuning)。
    • 模型压缩与加速(如量化、蒸馏)。
  • 代表模型:GPT-3/4, ChatGPT.

5. 联邦学习(Federated Learning)

  • 特点:在保护数据隐私的前提下,进行分布式模型训练。
  • 核心技术
    • 模型参数聚合。
    • 差分隐私(Differential Privacy)。
  • 应用领域:医疗、金融。

三、AI领域的未来趋势与挑战

  1. 通用人工智能(AGI)
    • 当前AI多为“专用智能”,未来目标是实现跨领域的通用智能。
  2. 可信AI
    • 提高模型的可解释性、公平性和鲁棒性。
  3. 人机协作
    • 通过增强现实(AR)、虚拟现实(VR)等技术,实现更自然的人机交互。
  4. 算力与效率
    • 发展高效计算架构(如量子计算、类脑计算)。

如何让一个网站被搜索引擎收录

要让一个网站被搜索引擎收录,并在搜索结果中获得良好的排名,需要进行SEO(搜索引擎优化)。以下是关键步骤:


1. 确保网站可被搜索引擎访问

(1)检查 robots.txt

  • 访问 https://yourdomain.com/robots.txt,确保没有错误的 Disallow 规则阻止搜索引擎爬取。

  • 正确示例(允许所有搜索引擎爬取):

    User-agent: *
    Disallow:
    Sitemap: https://yourdomain.com/sitemap.xml
    

(2)生成并提交 Sitemap

  • 创建 sitemap.xml(网站地图),帮助搜索引擎发现网站所有重要页面。
  • 可以用在线工具生成,如:XML Sitemap Generator
  • 提交到 Google Search ConsoleBing Webmaster Tools

(3)确保网站能被搜索引擎索引

  • 访问 https://yourdomain.com/,使用 Ctrl + U 查看 HTML 代码,检查是否有 noindex 标签:

    <meta name="robots" content="noindex, nofollow">
    

    如果有这个标签,删除它,否则搜索引擎不会收录你的页面。


2. 提交网站到搜索引擎

在这些工具中: ✅ 添加网站
✅ 验证网站所有权
✅ 提交 Sitemap
✅ 使用“URL 检测”手动提交未收录页面


3. 优化网站结构

(1)清晰的 URL 结构

  • 推荐https://yourdomain.com/blog/seo-tips
  • 避免https://yourdomain.com/?p=123

(2)内部链接优化

  • 在文章或页面之间建立内部链接,让搜索引擎更好地理解网站结构。

(3)移动端友好


4. 提高网站内容质量

(1)创建高质量内容

  • 文章长度建议 800-2000 字,包含有价值的信息。
  • 文章标题要包含 目标关键词,如:
    ❌ 不佳:“如何让网站收录?”
    ✅ 推荐:“如何让网站快速被搜索引擎收录?【实战指南】”

(2)关键词优化

  • 关键词应自然融入标题、段落、H1-H3 标题、meta 描述等。
  • 避免 关键词堆砌,如:“SEO 是 SEO 的重要 SEO 技术。”

(3)原创性

  • 避免复制粘贴内容,否则搜索引擎会降低权重。

(4)定期更新

  • 搜索引擎喜欢“活跃的网站”,建议每周发布 1-2 篇新内容

5. 提升网站权重

(1)外部链接(Backlinks)

  • 让其他网站链接你的内容,比如写行业博客、发布到论坛、与相关网站合作。
  • 可在 知乎、CSDN、掘金、微博、公众号 等渠道分享文章,带回流量。

(2)社交信号

  • 利用 Twitter、Facebook、LinkedIn、知乎 等社交平台推广文章,提高权重。

(3)增加用户互动

  • 在页面增加评论区、点赞、社交分享按钮,让用户参与,提高页面活跃度。

6. 网站性能优化

(1)提升网站加载速度

  • Google PageSpeed Insights 测试:https://pagespeed.web.dev/
  • 优化方式
    • 启用 CDN(如 Cloudflare)
    • 压缩图片(使用 WebP 格式)
    • 使用浏览器缓存
    • 启用 Lazy Load(懒加载)

(2)HTTPS 安全

  • 确保网站使用 SSL 证书(HTTPS),提高搜索引擎排名。

7. 监测和调整

  • 使用 Google Search Console 查看哪些页面已被收录、是否有错误。
  • 使用 Google Analytics 分析流量来源、热门页面、用户行为。
  • 发现未收录的页面,重新提交 URL 以加快索引。

总结

技术优化:robots.txt、Sitemap、响应式设计、HTTPS
内容优化:高质量原创文章、关键词优化、定期更新
外链推广:获取高质量外链,利用社交媒体推广
性能优化:提升加载速度、启用 CDN

按这些步骤执行,你的网站最快几天内就能被搜索引擎收录,并逐步提升排名。你的网站目前是新站还是已有一定流量?是否有目标关键词?

跨平台输入法开发建议

开发一个跨平台的输入法(如Windows、macOS、Linux、Android、iOS)是一个复杂的工程,需要考虑多个方面,包括输入法框架、输入法引擎、UI/UX设计、性能优化和平台兼容性等。以下是一些建议:


1. 技术选型

(1)输入法框架

不同平台支持的输入法框架不同,需要根据目标平台选择合适的方案:

  • Windows: 使用 Microsoft Text Services Framework (TSF) 或 Ime API
  • macOS: 使用 Input Method Kit (IMK) 或 Text Input Client (TIC)
  • Linux: 使用 Fcitx5 或 IBus
  • Android: 使用 Input Method Editor (IME)
  • iOS: 使用 Custom Keyboard Extension

建议使用 Rust、C++ 等跨平台语言实现核心输入法引擎,然后通过不同平台的 API 进行适配。


2. 核心输入法引擎

输入法的核心逻辑应尽量独立于 UI 和平台,使其能在多个操作系统上复用。核心输入法引擎应具备以下功能:

  1. 拼音、五笔、笔画等输入方式支持(可扩展更多语言支持)
  2. 智能词库管理(联想、纠错、自学习)
  3. 云端同步(用户词库、输入习惯同步)
  4. 多模式支持(模糊拼音、简拼等)
  5. 输入上下文感知(结合AI提高输入效率)

可以考虑开源输入法引擎,例如:

  • RIME(中州韵):跨平台支持,易定制
  • libIME:KDE 开源输入法框架
  • OpenVanilla:支持 macOS 和 Windows

如果希望自研,可以使用TensorFlow、PyTorch、ONNX等 AI 框架训练 NLP 语言模型,提高输入体验。


3. UI/UX 设计

  • 简洁美观:适配不同平台的 UI 规范,如 Material Design(Android)和 Human Interface Guidelines(iOS/macOS)
  • 键盘布局自定义:可调节按键大小、主题颜色
  • 滑行输入:提升触屏设备的输入体验
  • 悬浮候选栏:提升桌面端的交互效率
  • 夜间模式、皮肤系统

4. 性能优化

  • 减少内存占用:使用高效的数据结构,如 Trie 树、前缀树优化候选词查询
  • 低延迟响应:输入反馈要及时,避免卡顿
  • 电量优化(移动端):避免过度 CPU 占用,减少后台服务负担
  • 多线程优化:分离 UI 线程和输入逻辑,提高流畅度

5. 跨平台兼容性

建议采用核心逻辑 + 适配层的架构模式:

  • 核心逻辑:输入法引擎(C++/Rust 实现)
  • 适配层:使用不同平台的 API 与 UI 框架交互
  • 通信方式:可以使用 gRPC、FFI(如 JNI、Obj-C bridge)等方式进行跨语言调用

6. AI 与个性化功能

  • AI 纠错与预测:通过深度学习提升输入法的智能化(如 GPT、BERT 进行语言建模)
  • 用户输入习惯学习:自动记录高频用词,提高输入效率
  • 语音输入:集成语音识别(如 OpenAI Whisper、讯飞语音识别)
  • 跨设备同步:云端存储用户词库,支持多设备无缝使用

7. 部署与商业模式

  • 免费 + 订阅制(如高级功能收费)
  • 广告变现(但要谨慎,避免影响用户体验)
  • 企业版定制(提供企业专属词库和定制输入方案)
  • 开源社区驱动(吸引开发者贡献,提高影响力)

总结

  • 核心引擎跨平台,UI 适配不同系统
  • 借助 AI 提高智能输入体验
  • 高效优化,减少资源占用
  • 支持云同步、个性化学习
  • 结合商业模式,提高可持续性

你更倾向于开源方案改造,还是完全自研?是否有特定的输入法类型(如拼音、五笔)或目标用户群

基于开源框架开发输入法的技术线路概览


1. 选择合适的开源输入法框架

可以基于以下开源输入法进行二次开发:

开源项目 支持平台 优势 适用场景
RIME(中州韵) Windows、macOS、Linux、Android(需适配) 插件化设计,词库强大,高度可定制 中文输入法、拼音/五笔/双拼
IBus(Intelligent Input Bus) Linux 广泛应用于 Linux 生态 Linux 桌面输入法
Fcitx5 Linux、Windows 低延迟,扩展性强 Linux 和 Windows
OpenVanilla macOS、Windows 轻量级,适合 macOS 生态 适用于 Mac 平台
AOSP Keyboard(Android 原生键盘) Android 可作为输入法 UI 的基础 Android 自定义输入法

建议

  • 如果主要针对桌面端RIME 是最佳选择(支持 Windows、macOS、Linux)。
  • 如果考虑Linux 生态,可选 Fcitx5 或 IBus
  • 如果移动端是重点,可基于 AOSP Keyboard 改造。

2. 技术架构设计

推荐架构:核心引擎 + UI 适配层

  • 输入法核心(跨平台):RIME/Fcitx5/IBus 作为基础
  • 界面层(平台适配):不同平台使用原生 API 实现输入界面
  • 用户数据同步:本地词库 + 云端同步(支持用户个性化词库)
  • AI 预测(可选):基于 LLM 进行智能输入优化

3. 核心功能定制

在开源方案的基础上,进行二次开发和优化

(1)词库优化

  • 整合常用拼音词库(搜狗、RIME 词库)
  • 自学习能力:用户使用越多,输入法越精准
  • 行业专属词库(如医疗、法律、科技等专业词库)

(2)智能预测

  • 基于 n-gram 语言模型(RIME 兼容)
  • 结合 LLM(如 GPT/BERT) 提供上下文预测
  • 模糊拼音支持(“zhei” → “这”)

(3)UI/UX 改进

  • 自定义主题皮肤(深色模式、扁平化设计)
  • 可调整键盘布局(适配触屏与实体键盘)
  • 手写输入、语音输入集成(如讯飞语音 API)

(4)多端同步

  • 云端同步用户词库(支持 GitHub/Gitee 存储)
  • 多设备共享输入习惯(跨设备无缝切换)

4. 开发工具链

建议使用以下工具进行开发:

组件 推荐工具
开发语言 C++ / Rust / Python(RIME 支持 Lua)
输入法引擎 RIME / Fcitx5 / IBus
UI 框架(桌面) Qt(跨平台)/ GTK(Linux)/ WinUI(Windows)
UI 框架(移动端) Jetpack Compose(Android)/ SwiftUI(iOS)
云同步 Firebase / 阿里云 OSS / WebDAV
AI 预测 TensorFlow / ONNX / BERT

5. 项目落地路线

第一阶段:桌面端 MVP(基于 RIME)

✅ 选择 RIME 作为输入法核心
✅ 初步适配 Windows/macOS/Linux
✅ 调整默认皮肤和 UI
✅ 集成行业词库

第二阶段:优化与移动端适配

✅ 词库学习、AI 预测优化
✅ 开发 Android/iOS 版本(基于 AOSP Keyboard 或自研 UI)
✅ 增加语音输入、手写输入

第三阶段:云同步与商业化

✅ 云端词库同步(多设备无缝使用)
✅ 个人版 & 订阅制商业模式探索


6. 总结

  • 桌面端推荐基于 RIME 改造,Linux 兼容性可选 Fcitx5
  • 移动端可基于 AOSP Keyboard 改造,或使用 SwiftUI / Jetpack Compose 开发 UI
  • 智能化方向:结合 NLP/LLM 进行更精准预测
  • 云同步:打造跨设备无缝体验

这样可以快速落地,并且保持开源社区的生态兼容性。你打算先开发桌面端还是移动端?是否有特定的目标用户群

如何开发一个跨平台输入法

开发跨平台输入法是一个复杂但有挑战性的项目,需要兼顾性能、用户体验和各平台的技术差异。以下是一些关键建议,涵盖技术选型、架构设计和用户体验等方面:


一、架构设计

  1. 分层架构

    • 核心引擎(Core):统一处理输入逻辑(如拼音转换、词库管理、预测算法等),用C++/Rust编写以提高性能。
    • 平台适配层(Platform Adapter):对接不同系统的输入法API(如Windows IME、macOS Input Method Kit、Linux IBus/Fcitx、Android InputMethodService、iOS Keyboard Extension)。
    • UI层:各平台原生实现或使用跨平台框架(如Flutter),确保外观符合系统规范。
  2. 数据共享

    • 用户词库、配置等数据通过加密同步服务(如自建或集成WebDAV/云服务)实现多端同步。

二、技术选型

  1. 核心引擎

    • 语言:C++(高性能)或 Rust(内存安全),便于跨平台编译。
    • 词库算法:使用Trie树、双数组Trie(DAT)加速检索,结合统计语言模型(N-gram)或深度学习(BERT)优化预测。
    • 云输入:集成HTTP/2长连接减少延迟,支持离线回退。
  2. 跨平台框架

    • UI框架
      • 移动端:Flutter(平衡性能与开发效率)。
      • 桌面端:各平台原生UI(如WinUI/Cocoa/GTK)或跨平台方案(如Electron,需谨慎性能)。
    • 通信:使用Protobuf/FlatBuffers跨平台序列化,通过gRPC或自定义IPC通信。
  3. 平台适配

    • Windows:IME API + TSF(Text Services Framework)。
    • macOS:Input Method Kit + Carbon/Cocoa。
    • Linux:IBus/Fcitx模块。
    • Android:InputMethodService + 自定义软键盘。
    • iOS:Keyboard Extension(需处理沙盒限制,如无法网络访问)。

三、关键功能实现

  1. 输入法基础

    • 支持主流输入方式(拼音、五笔、语音、手写)。
    • 智能词频调整、用户词库管理、云词库更新。
    • 低延迟渲染(<20ms响应)。
  2. 安全与隐私

    • 本地化处理:确保击键数据不离开设备(如iOS限制)。
    • 权限控制:明确声明网络访问权限,提供“完全离线模式”。
    • 加密存储:用户词库使用AES加密。
  3. 多语言支持

    • Unicode全字符集覆盖,支持RTL语言(阿拉伯语、希伯来语)。
    • 动态切换输入方案(如中英混输、emoji联想)。

四、跨平台挑战与解决方案

  1. 系统权限差异

    • iOS限制:键盘无法直接访问网络,需通过宿主App同步数据。
    • Android 13+:需处理输入法选择器的新权限模型。
  2. 输入法生命周期管理

    • 各平台对后台进程的限制不同(如iOS频繁休眠),需优化状态保存。
  3. 剪贴板交互

    • 处理各平台剪贴板API的差异(如iOS需用户手动触发粘贴)。
  4. 键盘布局适配

  • 动态调整键盘高度(尤其应对Android碎片化屏幕)。

五、测试与部署

  1. 自动化测试
  • 使用Appium/Puppeteer模拟输入,验证候选词排序、渲染一致性。
  • 压力测试:高频率输入(如每秒20次击键)下的稳定性。
  1. 持续集成
  • 搭建多平台CI/CD(GitHub Actions + macOS/Windows/Linux runners)。
  1. 应用商店合规
  • iOS:遵循App Store严格的输入法审核规则(如禁止收集输入数据)。
  • Windows:通过Microsoft Store签名认证。

六、开源与生态

  1. 利用现有轮子
  • 参考开源输入法(如Rime、Fcitx5、OpenVanilla)的核心算法。
  • 使用开源词库(如搜狗词库转换工具)。
  1. 社区协作
  • 开源核心引擎,鼓励社区贡献平台适配层。

七、用户体验优化

  1. 个性化
  • 主题引擎支持CSS/SVG自定义皮肤。
  • 动态表情/颜文字快捷输入。
  1. 无障碍
  • 支持屏幕阅读器(VoiceOver/TalkBack),符合WCAG 2.1标准。
  1. AI增强
  • 集成OCR图片转文字、实时翻译(需注意隐私)。

八、法律与合规

  1. 隐私政策
  • 明确声明数据收集范围(如完全不收集或可选匿名统计)。
  • GDPR/CCPA合规:提供数据导出/删除功能。
  1. 许可证
  • 谨慎选择第三方库许可证(如GPL传染性问题)。

九、推荐技术栈

模块 技术选型
核心引擎 Rust + SQLite(词库) + ONNX(模型推理)
桌面端UI 各平台原生 + 共享逻辑的C FFI
移动端UI Flutter + 平台通道(MethodChannel)
同步服务 自研REST API(JWT鉴权) + SQLite
自动化测试 Appium + pytest

通过分层的架构设计、严格的安全措施和平台特性适配,可以构建一个高效且用户友好的跨平台输入法。建议从单一平台(如Windows)验证核心逻辑,再逐步扩展到其他平台。

DV OV EV等数字证书的区别

DV类型证书:中文全称是域名验证型证书,证书审核方式为通过验证域名所有权即可签发证书。此类型证书适合个人和小微企业申请,价格较低,申请快捷,但是证书中无法显示企业信息,安全性较差。在浏览器中显示锁型标志。

**OV类型证书:**中文全称是企业验证型证书,证书审核方式为通过验证域名所有权和申请企业的真实身份信息才能签发证书。目前OV类型证书是全球运用最广,兼容性最好的证书类型。此证书类型适合中型企业和互联网业务申请。在浏览器中显示锁型标志,并能通过点击查看到企业相关信息。支持ECC高安全强度加密算法,加密数据更加安全,加密性能更高。

**EV类型证书:**中文全称是增强验证型证书,证书审核级别为所有类型最严格验证方式,在OV类型的验证基础上额外验证其他企业的相关信息,比如银行开户许可证书。EV类型证书多使用于银行,金融,证券,支付等高安全标准行业。其在地址栏可以显示独特的EV绿色标识地址栏,最大程度的标识出网站的可信级别。支持ECC高安全强度加密算法,加密数据更加安全,加密性能更高。

在windows下设置ssh端口转发无障碍访问外网

背景

工作电脑,连接电子政务内网,访问权限受限。如无法访问外网的ssh端口,上班时间访问股票网站等等。

买了一个无线网卡,准备连接自己的手机的热点,以实现自由访问互联网,此前在windows环境下用得很方便,有需要的时候切换至无线网卡即可。

后来因为要研究机器学习,将操作系统换成了Ubuntu,后来发现该无线网卡不支持Linux的驱动。所以,无障碍访问互联网,受到了限制。

解决思路

总体的方向是在一台能够使用无线网卡的windows上建立一个代理,将ssh、特殊网站等原本受限的访问重定向到windows上,通过linux-windows-无线网卡-手机热点这一路径无障碍访问互联网。

  • ubuntu主机名称:hp-z440(该主机名后面会在截图里多次出现,代表是在linux上操作)
  • windows虚拟机的IP: 192.168.122.76

使用动态端口转发实现网页不受限访问

  1. 在Ubuntu下安装qemu的windows 10虚拟机
  2. 在虚拟机中安装openssh服务器,在应用和功能-可选功能中,选择openssh即可。并建立
  3. 在ubuntu下,通过ssh动态端口功能,建立一个socks5代理隧道:
ssh -CNf -D 1111 cyf@192.168.122.76

C代表压缩,N代表不执行远程命令直负责转发,f代表在后台运行。

运行该命令,并输入windows系统的cyf用户密码,即完成动态端口转发隧道的建立。

可以使用:telnet localhost 1111来测试该端口确定已经打开。

Pasted image 20250206162607.png

然后,就可以在浏览器中设置socks5代理地址为:127.0.0.1:1111,测试成功。

通过本地转发访问远程服务器的22端口

基本思路是先在可以访问远程22端口的windows机器上建立一个连接,使得在本地监听一个端口2222,然后使得所有访问该端口的流量,全部转发到远程服务器的22端口。命令如下:

ssh cyf@192.168.122.76  -N -L 2222:remotehost:22 &

其中,cyf@192.168.122.76代表连接装有无线网卡的windows,2222:remotehost:22代表在本地监听2222端口,并通过192.168.122.76将所有流量转发至remotehost的22端口。

&:代表在后台运行。

在ubuntu主机上测试:

ssh localhost -p 2222

成功!

中国工程院院士孙凝晖给正国级、副国级讲课的万字长稿《人工智能与智能计算的发展》

来源:中国信息界  2024年12月19日 17:00__北京

委员长、各位副委员长、秘书长、各位委员:

人工智能领域近年来正在迎来一场由生成式人工智能大模型引领的爆发式发展。2022年11月30日,OpenAI公司推出一款人工智能对话聊天机器人ChatGPT,其出色的自然语言生成能力引起了全世界范围的广泛关注,2个月突破1亿用户,国内外随即掀起了一场大模型浪潮,Gemini、文心一言、Copilot、LLaMA、SAM、SORA等各种大模型如雨后春笋般涌现,2022年也被誉为大模型元年。当前信息时代正加快进入智能计算的发展阶段,人工智能技术上的突破层出不穷,逐渐深入地赋能千行百业,推动人工智能与数据要素成为新质生产力的典型代表。习近平总书记指出,把新一代人工智能作为推动科技跨越发展、产业优化升级、生产力整体跃升的驱动力量,努力实现高质量发展。党的十八大以来,以习近平同志为核心的党中央高度重视智能经济发展,促进人工智能和实体经济深度融合,为高质量发展注入强劲动力。

一、计算技术发展简介

计算技术的发展历史大致可分为四个阶段,算盘的出现标志着人类进入第一代——机械计算时代,第二代——电子计算的标志是出现电子器件与电子计算机,互联网的出现使我们进入第三代——网络计算,当前人类社会正在进入第四阶段——智能计算。

早期的计算装置是手动辅助计算装置和半自动计算装置,人类计算工具的历史是从公元1200年的中国算盘开始,随后出现了纳皮尔筹(1612年)和滚轮式加法器(1642年),到1672年第一台自动完成四则运算的计算装置——步进计算器诞生了。

机械计算时期已经出现了现代计算机的一些基本概念。查尔斯∙巴贝奇(Charles Babbage)提出了差分机(1822年)与分析机(1834年)的设计构想,支持自动机械计算。这一时期,编程与程序的概念基本形成,编程的概念起源于雅卡尔提花机,通过打孔卡片控制印花图案,最终演变为通过计算指令的形式来存储所有数学计算步骤;人类历史的第一个程序员是诗人拜伦之女艾达(Ada),她为巴贝奇差分机编写了一组求解伯努利数列的计算指令,这套指令也是人类历史上第一套计算机算法程序,它将硬件和软件分离,第一次出现程序的概念。

直到在二十世纪上半叶,出现了布尔代数(数学)、图灵机(计算模型) 、冯诺依曼体系结构(架构) 、晶体管(器件)这四个现代计算技术的科学基础。其中,布尔代数用来描述程序和硬件如CPU的底层逻辑;图灵机是一种通用的计算模型,将复杂任务转化为自动计算、不需人工干预的自动化过程;冯诺依曼体系结构提出了构造计算机的三个基本原则:采用二进制逻辑、程序存储执行、以及计算机由运算器、控制器、存储器、输入设备、输出设备这五个基本单元组成;晶体管是构成基本的逻辑电路和存储电路的半导体器件,是建造现代计算机之塔的“砖块”。基于以上科学基础,计算技术得以高速发展,形成规模庞大的产业。

从1946年世界上第一台电子计算机ENIAC诞生到二十一世纪的今天,已经形成了五类成功的平台型计算系统。当前各领域各种类型的应用,都可以由这五类平台型计算装置支撑。第一类是高性能计算平台,解决了国家核心部门的科学与工程计算问题;第二类是企业计算平台,又称服务器,用于企业级的数据管理、事务处理,当前像百度、阿里和腾讯这些互联网公司的计算平台都属于这一类;第三类是个人电脑平台,以桌面应用的形式出现,人们通过桌面应用与个人电脑交互;第四类是智能手机,主要特点是移动便携,手机通过网络连接数据中心,以互联网应用为主,它们分布式地部署在数据中心和手机终端;第五类是嵌入式计算机,嵌入到工业装备和军事设备,通过实时的控制,保障在确定时间内完成特定任务。这五类装置几乎覆盖了我们信息社会的方方面面,长期以来人们追求的以智能计算应用为中心的第六类平台型计算系统尚未形成。

现代计算技术的发展大致可以划分为三个时代。IT1.0又称电子计算时代(1950-1970),基本特征是以“机”为中心。计算技术的基本架构形成,随着集成电路工艺的进步,基本计算单元的尺度快速微缩,晶体管密度、计算性能和可靠性不断提升,计算机在科学工程计算、企业数据处理中得到了广泛应用。

IT2.0又称网络计算时代(1980-2020),以“人”为中心。互联网将人使用的终端与后台的数据中心连接,互联网应用通过智能终端与人进行交互。以亚马逊等为代表的互联网公司提出了云计算的思想,将后台的算力封装成一个公共服务租借给第三方用户,形成了云计算与大数据产业。

IT3.0又称智能计算时代,始于2020年,与IT2.0相比增加了“物”的概念,即物理世界的各种端侧设备,被数字化、网络化和智能化,实现“人-机-物”三元融合。智能计算时代,除了互联网以外,还有数据基础设施,支撑各类终端通过端边云实现万物互联,终端、物端、边缘、云都嵌入AI,提供与ChatGPT类似的大模型智能服务,最终实现有计算的地方就有AI智能。智能计算带来了巨量的数据、人工智能算法的突破和对算力的爆发性需求。

二、智能计算发展简介

智能计算包括人工智能技术与它的计算载体,大致历经了四个阶段,分别为通用计算装置、逻辑推理专家系统、深度学习计算系统、大模型计算系统。

智能计算的起点是通用自动计算装置(1946年)。艾伦·图灵(Alan Turing)和冯·诺依曼(John von Neumann)等科学家,一开始都希望能够模拟人脑处理知识的过程,发明像人脑一样思考的机器,虽未能实现,但却解决了计算的自动化问题。通用自动计算装置的出现,也推动了1956年人工智能(AI)概念的诞生,此后所有人工智能技术的发展都是建立在新一代计算设备与更强的计算能力之上的。

智能计算发展的第二阶段是逻辑推理专家系统(1990年)。E.A.费根鲍姆(Edward Albert Feigenbaum)等符号智能学派的科学家以逻辑和推理能力自动化为主要目标,提出了能够将知识符号进行逻辑推理的专家系统。人的先验知识以知识符号的形式进入计算机,使计算机能够在特定领域辅助人类进行一定的逻辑判断和决策,但专家系统严重依赖于手工生成的知识库或规则库。这类专家系统的典型代表是日本的五代机和我国863计划支持的306智能计算机主题,日本在逻辑专家系统中采取专用计算平台和Prolog这样的知识推理语言完成应用级推理任务;我国采取了与日本不同的技术路线,以通用计算平台为基础,将智能任务变成人工智能算法,将硬件和系统软件都接入通用计算平台,并催生了曙光、汉王、科大讯飞等一批骨干企业。

符号计算系统的局限性在于其爆炸的计算时空复杂度,即符号计算系统只能解决线性增长问题,对于高维复杂空间问题是无法求解的,从而限制了能够处理问题的大小。同时因为符号计算系统是基于知识规则建立的,我们又无法对所有的常识用穷举法来进行枚举,它的应用范围就受到了很大的限制。随着第二次AI寒冬的到来,第一代智能计算机逐渐退出历史舞台。

直到2014年左右,智能计算进阶到第三阶段——深度学习计算系统。以杰弗里·辛顿(Geoffrey Hinton)等为代表的连接智能学派,以学习能力自动化为目标,发明了深度学习等新AI算法。通过深度神经元网络的自动学习,大幅提升了模型统计归纳的能力,在模式识别①等应用效果上取得了巨大突破,某些场景的识别精度甚至超越了人类。以人脸识别为例,整个神经网络的训练过程相当于一个网络参数调整的过程,将大量的经过标注的人脸图片数据输入神经网络,然后进行网络间参数调整,让神经网络输出的结果的概率无限逼近真实结果。神经网络输出真实情况的概率越大,参数就越大,从而将知识和规则编码到网络参数中,这样只要数据足够多,就可以对各种大量的常识进行学习,通用性得到极大的提升。连接智能的应用更加广泛,包括语音识别、人脸识别、自动驾驶等。在计算载体方面,中国科学院计算技术研究所2013年提出了国际首个深度学习处理器架构,国际知名的硬件厂商英伟达(NVIDIA)持续发布了多款性能领先的通用GPU芯片,都是深度学习计算系统的典型代表。

智能计算发展的第四阶段是大模型计算系统(2020年)。在人工智能大模型技术的推动下,智能计算迈向新的高度。2020年,AI从“小模型+判别式”转向“大模型+生成式”,从传统的人脸识别、目标检测、文本分类,升级到如今的文本生成、3D数字人生成、图像生成、语音生成、视频生成。大语言模型在对话系统领域的一个典型应用是OpenAI公司的ChatGPT,它采用预训练基座大语言模型GPT-3,引入3000亿单词的训练语料,相当于互联网上所有英语文字的总和。其基本原理是:通过给它一个输入,让它预测下一个单词来训练模型,通过大量训练提升预测精确度,最终达到向它询问一个问题,大模型产生一个答案,与人即时对话。在基座大模型的基础上,再给它一些提示词进行有监督的指令微调,通过人类的<指令,回复>对逐渐让模型学会如何与人进行多轮对话;最后,通过人为设计和自动生成的奖励函数来进行强化学习迭代,逐步实现大模型与人类价值观的对齐。

大模型的特点是以“大”取胜,其中有三层含义,(1)参数大,GPT-3就有1700亿个参数;(2)训练数据大,ChatGPT大约用了3000亿个单词,570GB训练数据;(3)算力需求大,GPT-3大约用了上万块V100 GPU进行训练。为满足大模型对智能算力爆炸式增加的需求,国内外都在大规模建设耗资巨大的新型智算中心,英伟达公司也推出了采用256个H100芯片,150TB海量GPU内存等构成的大模型智能计算系统。

大模型的出现带来了三个变革。一是技术上的规模定律(Scaling Law),即很多AI模型的精度在参数规模超过某个阈值后模型能力快速提升,其原因在科学界还不是非常清楚,有很大的争议。AI模型的性能与模型参数规模、数据集大小、算力总量三个变量成“对数线性关系”,因此可以通过增大模型的规模来不断提高模型的性能。目前最前沿的大模型GPT-4参数量已经达到了万亿到十万亿量级,并且仍在不断增长中;二是产业上算力需求爆炸式增长,千亿参数规模大模型的训练通常需要在数千乃至数万GPU卡上训练2-3个月时间,急剧增加的算力需求带动相关算力企业超高速发展,英伟达的市值接近两万亿美元,对于芯片企业以前从来没有发生过;三是社会上冲击劳动力市场,北京大学国家发展研究院与智联招聘联合发布的《AI大模型对我国劳动力市场潜在影响研究》报告指出,受影响最大的20个职业中财会、销售、文书位于前列,需要与人打交道并提供服务的体力劳动型工作,如人力资源、行政、后勤等反而相对更安全。

人工智能的技术前沿将朝着以下四个方向发展。**第一个前沿方向为多模态大模型。**从人类视角出发,人类智能是天然多模态的,人拥有眼、耳、鼻、舌、身、嘴(语言),从AI视角出发,视觉,听觉等也都可以建模为token②的序列,可采取与大语言模型相同的方法进行学习,并进一步与语言中的语义进行对齐,实现多模态对齐的智能能力。

**第二个前沿方向为视频生成大模型。**OpenAI于2024年2月15日发布文生视频模型SORA,将视频生成时长从几秒钟大幅提升到一分钟,且在分辨率、画面真实度、时序一致性等方面都有显著提升。SORA的最大意义是它具备了世界模型的基本特征,即人类观察世界并进一步预测世界的能力。世界模型是建立在理解世界的基本物理常识(如,水往低处流等)之上,然后观察并预测下一秒将要发生什么事件。虽然SORA要成为世界模型仍然存在很多问题,但可以认为SORA学会了画面想象力和分钟级未来预测能力,这是世界模型的基础特征。

**第三个前沿方向为具身智能。**具身智能指有身体并支持与物理世界进行交互的智能体,如机器人、无人车等,通过多模态大模型处理多种传感数据输入,由大模型生成运动指令对智能体进行驱动,替代传统基于规则或者数学公式的运动驱动方式,实现虚拟和现实的深度融合。因此,具有具身智能的机器人,可以聚集人工智能的三大流派:以神经网络为代表的连接主义,以知识工程为代表的符号主义和控制论相关的行为主义,三大流派可以同时作用在一个智能体,这预期会带来新的技术突破。

**第四个前沿方向是AI4R(AI for Research)成为科学发现与技术发明的主要范式。**当前科学发现主要依赖于实验和人脑智慧,由人类进行大胆猜想、小心求证,信息技术无论是计算和数据,都只是起到一些辅助和验证的作用。相较于人类,人工智能在记忆力、高维复杂、全视野、推理深度、猜想等方面具有较大优势,是否能以AI为主进行一些科学发现和技术发明,大幅提升人类科学发现的效率,比如主动发现物理学规律、预测蛋白质结构、设计高性能芯片、高效合成新药等。因为人工智能大模型具有全量数据,具备上帝视角,通过深度学习的能力,可以比人向前看更多步数,如能实现从推断(inference)到推理(reasoning)的跃升,人工智能模型就有潜力具备爱因斯坦一样的想象力和科学猜想能力,极大提升人类科学发现的效率,打破人类的认知边界。这才是真正的颠覆所在。

**最后,通用人工智能③(Artificial General Intelligence,简称AGI)是一个极具挑战的话题,极具争论性。**曾经有一个哲学家和一个神经科学家打赌:25年后(即2023年)科研人员是否能够揭示大脑如何实现意识?当时关于意识有两个流派,一个叫集成信息理论,一个叫全局网络工作空间理论,前者认为意识是由大脑中特定类型神经元连接形成的“结构”,后者指出意识是当信息通过互连网络传播到大脑区域时产生的。2023年,人们通过六个独立实验室进行了对抗性实验,结果与两种理论均不完全匹配,哲学家赢了,神经科学家输了。通过这一场赌约,可以看出人们总是希望人工智能能够了解人类的认知和大脑的奥秘。从物理学的视角看,物理学是对宏观世界有了透彻理解后,从量子物理起步开启了对微观世界的理解。智能世界与物理世界一样,都是具有巨大复杂度的研究对象,AI大模型仍然是通过数据驱动等研究宏观世界的方法,提高机器的智能水平,对智能宏观世界理解并不够,直接到神经系统微观世界寻找答案是困难的。人工智能自诞生以来,一直承载着人类关于智能与意识的种种梦想与幻想,也激励着人们不断探索。

三、人工智能的安全风险

人工智能的发展促进了当今世界科技进步的同时,也带来了很多安全风险,要从技术与法规两方面加以应对。

首先是互联网虚假信息泛滥。这里列举若干场景:**一是数字分身。**AI Yoon是首个使用 DeepFake 技术合成的官方“候选人”,这个数字人以韩国国民力量党候选人尹锡悦(Yoon Suk-yeol)为原型,借助尹锡悦 20 小时的音频和视频片段、以及其专门为研究人员录制的 3000 多个句子,由当地一家 DeepFake 技术公司创建了虚拟形象 AI Yoon,并在网络上迅速走红。实际上 AI Yoon 表达的内容是由竞选团队撰写的,而不是候选人本人。

**二是伪造视频,**尤其是伪造领导人视频引起国际争端,扰乱选举秩序,或引起突发舆情事件,如伪造尼克松宣布第一次登月失败,伪造乌克兰总统泽连斯基宣布“投降”的信息,这些行为导致新闻媒体行业的社会信任衰退。

**三是伪造新闻,**主要通过虚假新闻自动生成牟取非法利益,使用ChatGPT生成热点新闻,赚取流量,截至2023年6月30日全球生成伪造新闻网站已达277个,严重扰乱社会秩序。

**四是换脸变声,**用于诈骗。如由于AI语音模仿了企业高管的声音,一家香港国际企业因此被骗3500万美元。

**五是生成不雅图片,**特别是针对公众人物。如影视明星的色情视频制作,造成不良社会影响。因此,迫切需要发展互联网虚假信息的伪造检测技术。

其次,AI大模型面临严重可信问题。这些问题包括:(1)“一本正经胡说八道”的事实性错误;(2)以西方价值观叙事,输出政治偏见和错误言论;(3)易被诱导,输出错误知识和有害内容;(4)数据安全问题加重,大模型成为重要敏感数据的诱捕器,ChatGPT将用户输入纳入训练数据库,用于改善ChatGPT,美方能够利用大模型获得公开渠道覆盖不到的中文语料,掌握我们自己都可能不掌握的“中国知识”。因此,迫切需要发展大模型安全监管技术与自己的可信大模型。

除了技术手段外,人工智能安全保障需要相关立法工作。2021年科技部发布《新一代人工智能伦理规范》,2022年8月,全国信息安全标准化技术委员会发布《信息安全技术 机器学习算法安全评估规范》,2022-2023年,中央网信办先后发布《互联网信息服务算法推荐管理规定》《互联网信息服务深度合成管理规定》《生成式人工智能服务管理办法》等。欧美国家也先后出台法规,2018年5月25日,欧盟出台《通用数据保护条例》,2022年10月4日,美国发布《人工智能权利法案蓝图》,2024年3月13日,欧洲议会通过了欧盟《人工智能法案》。

我国应加快推进《人工智能法》出台,构建人工智能治理体系,确保人工智能的发展和应用遵循人类共同价值观,促进人机和谐友好;创造有利于人工智能技术研究、开发、应用的政策环境;建立合理披露机制和审计评估机制,理解人工智能机制原理和决策过程;明确人工智能系统的安全责任和问责机制,可追溯责任主体并补救;推动形成公平合理、开放包容的国际人工智能治理规则。

四、中国智能计算发展困境

人工智能技术与智能计算产业处于中美科技竞争的焦点,我国在过去几年虽然取得了很大的成绩,但依然面临诸多发展困境,特别是由美国的科技打压政策带来的困难。

**困境一为美国在AI核心能力上长期处于领先地位,中国处于跟踪模式。**中国在AI高端人才数量、AI基础算法创新、AI底座大模型能力(大语言模型、文生图模型、文生视频模型)、底座大模型训练数据、底座大模型训练算力等,都与美国存在一定的差距,并且这种差距还将持续很长一段时间。

**困境二为高端算力产品禁售,高端芯片工艺长期被卡。**A100,H100,B200等高端智算芯片对华禁售。华为、龙芯、寒武纪、曙光、海光等企业都进入实体清单,它们芯片制造的先进工艺④受限,国内可满足规模量产的工艺节点落后国际先进水平2-3代,核心算力芯片的性能落后国际先进水平2-3代。

**困境三为国内智能计算生态孱弱,AI开发框架渗透率不足。**英伟达CUDA⑤(Compute Unified Device Architecture, 通用计算设备架构)生态完备,已形成了事实上的垄断。国内生态孱弱,具体表现在:一是研发人员不足,英伟达CUDA生态有近2万人开发,是国内所有智能芯片公司人员总和的20倍;二是开发工具不足,CUDA有550个SDK(Software Development Kit, 软件开发工具包),是国内相关企业的上百倍;三是资金投入不足,英伟达每年投入50亿美元,是国内相关公司的几十倍;四是AI开发框架TensorFlow占据工业类市场,PyTorch占据研究类市场,百度飞桨等国产AI开发框架的开发人员只有国外框架的1/10。更为严重的是国内企业之间山头林立,无法形成合力,从智能应用、开发框架、系统软件、智能芯片,虽然每层都有相关产品,但各层之间没有深度适配,无法形成一个有竞争力的技术体系。

**困境四为AI应用于行业时成本、门槛居高不下。**当前我国AI应用主要集中在互联网行业和一些国防领域。AI技术推广应用于各行各业时,特别是从互联网行业迁移到非互联网行业,需要进行大量的定制工作,迁移难度大,单次使用成本高。最后,我国在AI领域的人才数量与实际需求相比也明显不足。

五、中国如何发展智能计算的道路选择

人工智能发展的道路选择对我国至关重要,关系到发展的可持续性与最终的国际竞争格局。当前人工智能的使用成本十分高昂,微软Copilot套件要支付每月10美元的使用费用,ChatGPT每天消耗50万千瓦时的电力,英伟达B200芯片价格高达3万美元以上。总体来说,我国应发展用得起、安全可信的人工智能技术,消除我国信息贫困人口、并造福“一带一路”国家;低门槛地赋能各行各业,让我国的优势产业保持竞争力,让相对落后的产业能够大幅地缩小差距。

选择一:统一技术体系走闭源封闭,还是开源开放的道路?

支撑智能计算产业的是一个相互紧耦合的技术体系,即由一系列技术标准和知识产权将材料、器件、工艺、芯片、整机、系统软件、应用软件等密切联系在一起的技术整体。我国发展智能计算技术体系存在三条道路:

**一是追赶兼容美国主导的A体系。**我国大多数互联网企业走的是GPGPU/CUDA兼容道路,很多芯片领域的创业企业在生态构建上也是尽量与CUDA兼容,这条道路较为现实。由于在算力方面美国对我国工艺和芯片带宽的限制,在算法方面国内生态林立很难形成统一,生态成熟度严重受限,在数据方面中文高质量数据匮乏,这些因素会使得追赶者与领先者的差距很难缩小,一些时候还会进一步拉大。

**二是构建专用封闭的B体系。**在军事、气象、司法等专用领域构建企业封闭生态,基于国产成熟工艺生产芯片,相对于底座大模型更加关注特定领域垂直类大模型,训练大模型更多采用领域专有高质量数据等。这条道路易于形成完整可控的技术体系与生态,我国一些大型骨干企业走的是这条道路,它的缺点是封闭,无法凝聚国内大多数力量,也很难实现全球化。

**三是全球共建开源开放的C体系。**用开源打破生态垄断,降低企业拥有核心技术的门槛,让每个企业都能低成本地做自己的芯片,形成智能芯片的汪洋大海,满足无处不在的智能需求。用开放形成统一的技术体系,我国企业与全球化力量联合起来共建基于国际标准的统一智能计算软件栈。形成企业竞争前共享机制,共享高质量数据库,共享开源通用底座大模型。对于全球开源生态,我国企业在互联网时代收益良多,我国更多的是使用者,是参与者,在智能时代我国企业在RISC-V⑥+AI开源技术体系上应更多地成为主力贡献者,成为全球化开放共享的主导力量。

选择二:拼算法模型,还是拼新型基础设施?

人工智能技术要赋能各行各业,具有典型的长尾效应⑦。我国80%的中小微企业,需要的是低门槛、低价格的智能服务。因此,我国智能计算产业必须建立在新的数据空间基础设施之上,其中关键是我国应率先实现智能要素即数据、算力、算法的全面基础设施化。这项工作可比肩二十世纪初美国信息高速公路计划(即信息基础设施建设)对互联网产业的历史作用。

信息社会最核心的生产力是网络空间(Cyberspace)。网络空间的演进过程是:从机器一元连接构成的计算空间,演进到人机信息二元连接构成的信息空间,再演进到人机物数据三元连接构成的数据空间。从数据空间看,人工智能的本质是数据的百炼成钢,大模型就是对互联网全量数据进行深度加工后的产物。在数字化时代,在互联网上传输的是信息流,是算力对数据进行粗加工后的结构化抽象;在智能时代,在互联网上传输的是智能流,是算力对数据进行深度加工与精炼后的模型化抽象。智能计算的一个核心特征就是用数值计算、数据分析、人工智能等算法,在算力池中加工海量数据件,得到智能模型,再嵌入到信息世界、物理世界的各个过程中。

我国政府已经前瞻性地提前布局了新型基础设施,在世界各国竞争中抢占了先机。**首先,数据已成为国家战略信息资源。**数据具有资源要素与价值加工两重属性,数据的资源要素属性包括生产、获取、传输、汇聚、流通、交易、权属、资产、安全等各个环节,我国应继续加大力度建设国家数据枢纽与数据流通基础设施。

**其次,AI大模型就是数据空间的一类算法基础设施。**以通用大模型为基座,构建大模型研发与应用的基础设施,支撑广大企业研发领域专用大模型,服务于机器人、无人驾驶、可穿戴设备、智能家居、智能安防等行业,覆盖长尾应用。

**最后,全国一体化算力网建设在推动算力的基础设施化上发挥了先导作用。**算力基础设施化的中国方案,应在大幅度降低算力使用成本和使用门槛的同时,为最广范围覆盖人群提供高通量、高品质的智能服务。算力基础设施的中国方案需要具备“两低一高”,即在供给侧,大幅度降低算力器件、算力设备、网络连接、数据获取、算法模型调用、电力消耗、运营维护、开发部署的总成本,让广大中小企业都消费得起高品质的算力服务,有积极性开发算力网应用;在消费侧,大幅度降低广大用户的算力使用门槛,面向大众的公共服务必须做到易获取、易使用,像水电一样即开即用,像编写网页一样轻松定制算力服务,开发算力网应用。在服务效率侧,中国的算力服务要实现低熵高通量,其中高通量是指在实现高并发⑧度服务的同时,端到端服务的响应时间可满足率高;低熵是指在高并发负载中出现资源无序竞争的情况下,保障系统通量不急剧下降。保障“算得多”对中国尤其重要。

选择三:AI+着重赋能虚拟经济,还是发力实体经济?

“AI+”的成效是人工智能价值的试金石。次贷危机后,美国制造业增加值占GDP的比重从1950年的28%降低为2021年的11%,美国制造业在全行业就业人数占比从1979年的35%降低为2022年的8%,可见美国更倾向于回报率更高的虚拟经济,轻视投资成本高且经济回报率低的实体经济。中国倾向于实体经济与虚拟经济同步发展,更加重视发展装备制造、新能源汽车、光伏发电、锂电池、高铁、5G等实体经济。

相应地美国AI主要应用于虚拟经济和IT基础工具,AI技术也是“脱实向虚”,自2007年以来硅谷不断炒作虚拟现实(Virtual Reality,VR)、元宇宙、区块链、Web3.0、深度学习、AI大模型等,是这个趋势的反映。

我国的优势在实体经济,制造业全球产业门类最齐全,体系最完整,特点是场景多、私有数据多。我国应精选若干行业加大投入,形成可低门槛全行业推广的范式,如选择装备制造业作为延续优势代表性行业,选择医药业作为快速缩短差距的代表性行业。赋能实体经济的技术难点是AI算法与物理机理的融合。

人工智能技术成功的关键是能否让一个行业或一个产品的成本大幅下降,从而将用户数与产业规模扩大10倍,产生类似于蒸汽机对于纺织业,智能手机对于互联网业的变革效果。

我国应走出适合自己的人工智能赋能实体经济的高质量发展道路。


主讲人系中国工程院院士,中国科学院计算技术研究所研究员、学术委员会主任

DeepSeek-R1 发布,性能对标 OpenAI o1 正式版

2025.1.20 来源:DeepSeek 

今天,我们正式发布 DeepSeek-R1,并同步开源模型权重。

  • DeepSeek-R1 遵循 MIT License,允许用户通过蒸馏技术借助 R1 训练其他模型。
  • DeepSeek-R1 上线 API,对用户开放思维链输出,通过设置 model='deepseek-reasoner' 即可调用。
  • DeepSeek 官网与 App 即日起同步更新上线。

性能对齐 OpenAI-o1 正式版

DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。

此图片的 alt 属性为空;文件名为 deepseek_r1_benchmark.png

在此,我们将 DeepSeek-R1 训练技术全部公开,以期促进技术社区的充分交流与创新协作。

论文链接: https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

蒸馏小模型超越 OpenAI o1-mini

我们在开源 DeepSeek-R1-Zero 和 DeepSeek-R1 两个 660B 模型的同时,通过 DeepSeek-R1 的输出,蒸馏了 6 个小模型开源给社区,其中 32B 和 70B 模型在多项能力上实现了对标 OpenAI o1-mini 的效果。

此图片的 alt 属性为空;文件名为 deepseek_r1_benchmark_table.png

HuggingFace 链接: https://huggingface.co/deepseek-ai

此图片的 alt 属性为空;文件名为 deepseek_r1_hf.png

开放的许可证和用户协议

为了推动和鼓励开源社区以及行业生态的发展,在发布并开源 R1 的同时,我们同步在协议授权层面也进行了如下调整:

  • 模型开源 License 统一使用 MIT。我们曾针对大模型开源的特点,参考当前行业的通行实践,特别引入 DeepSeek License 为开源社区提供授权,但实践表明非标准的开源 License 可能反而增加了开发者的理解成本。为此,此次我们的开源仓库(包括模型权重)统一采用标准化、宽松的 MIT License,完全开源,不限制商用,无需申请。
  • 产品协议明确可“模型蒸馏”。为了进一步促进技术的开源和共享,我们决定支持用户进行“模型蒸馏”。我们已更新线上产品的用户协议,明确允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。

App与网页端

登录DeepSeek官网或官方App,打开“深度思考”模式,即可调用最新版 DeepSeek-R1 完成各类推理任务。

此图片的 alt 属性为空;文件名为 deepseek_r1_example.gif

API 及定价

DeepSeek-R1 API 服务定价为每百万输入 tokens 1 元(缓存命中)/ 4 元(缓存未命中),每百万输出 tokens 16 元。

此图片的 alt 属性为空;文件名为 deepseek_r1_price.jpeg

此图片的 alt 属性为空;文件名为 deepseek_r1_price_compare.png

详细的 API 调用指南请参考官方文档:  https://api-docs.deepseek.com/zh-cn/guides/reasoning_model

在Windows上运行Linux,主要有以下几种方法:

在Windows上运行Linux,主要有以下几种方法:

1. Windows Subsystem for Linux (WSL)

  • 优点:
    • 直接在Windows上运行Linux二进制文件,性能较高。
    • 可以直接访问Windows的文件系统。
    • 安装简单,使用方便。
  • 缺点:
    • 部分图形界面程序可能无法完美运行。
    • 功能相对较少,相比于完整的Linux系统有一些限制。

安装步骤:

  1. 启用WSL功能: 在Windows设置中搜索“启用或关闭Windows功能”,找到并启用“适用于Linux的Windows子系统”。
  2. 安装Linux发行版: 在Microsoft Store中搜索并安装你喜欢的Linux发行版,如Ubuntu、Debian等。

2. 虚拟机

  • 优点:
    • 可以完整地运行一个Linux系统,功能齐全。
    • 可以自定义虚拟机配置,灵活度高。
  • 缺点:
    • 性能相对较低,占用系统资源较多。
    • 配置相对复杂。

常用的虚拟机软件:

  • VirtualBox: 开源免费,功能强大。
  • VMware: 商业软件,功能更加丰富。

安装步骤:

  1. 安装虚拟机软件: 下载并安装VirtualBox或VMware。
  2. 创建虚拟机: 在虚拟机软件中创建一个新的虚拟机,选择Linux作为操作系统。
  3. 安装Linux系统: 在虚拟机中安装Linux操作系统,类似于在物理机上安装。

3. 双系统

  • 优点:
    • 可以同时使用Windows和Linux,两个系统独立运行。
    • 性能较高。
  • 缺点:
    • 安装过程相对复杂。
    • 切换系统需要重启。

安装步骤:

  1. 制作U盘启动盘: 下载Linux发行版,制作U盘启动盘。
  2. 进入BIOS设置: 设置电脑从U盘启动。
  3. 安装Linux: 按照安装向导的提示安装Linux系统。

**4. 云服务器

  • 优点:
    • 不需要本地硬件,随时随地可以访问。
    • 资源可扩展。
  • 缺点:
    • 需要付费。
    • 网络延迟可能较高。

常见的云服务器提供商:

  • 阿里云
  • 腾讯云
  • AWS
  • Google Cloud