加入收藏
|
设为首页
|
会员中心
|
我要投稿
|
RSS
首页
物联网
人工智能
机器人
大模型
智能体
app小程序
OPC社区
嵌入式
知识库
AI工具
您当前的位置:
首页
>
智能体
词元是什么?如何定义的呢?
时间:2026-03-27 20:17:41 来源:互联网 作者:admin
词元(Token)
,是人工智能大模型处理信息的
最小信息单元
,也是 AI 时代的基础计量单位与 “结算单位”。2026 年 3 月,国家数据局正式将 AI 领域的 “Token” 统一中文译名为
词元
。
一、核心定义
官方定义
:词元是大模型处理信息的最小信息单元,具备
可计量、可定价、可交易
三大特征。
通俗理解
:AI 无法直接理解整句文本,会通过
分词器
将内容拆分成一个个 “信息碎片”,这个碎片就是词元。它是 AI 的 “文字积木”,所有理解、生成、计算都基于词元进行。
二、词元的构成(拆分示例)
词元的长度不固定,由模型的分词算法决定,可能是:
中文
:一个字、一个词、一个标点。
例:
我爱中国!
→ 拆分为
我
、
爱
、
中国
、
!
(共 4 个词元)
英文
:一个完整单词、单词的一部分(子词 / 词根)、一个字母。
例:
I love you
→
I
、
love
、
you
(3 个词元)
例:
unhappiness
→
un
、
happiness
(2 个词元)
其他
:数字、符号、表情等。
三、词元的核心作用
技术层面
:是模型理解、生成文本的
最小运算单位
。模型通过预测下一个词元来完成对话、写作、翻译等任务。
商业层面
:是 AI 服务
计费、定价、结算
的核心单位。你使用 AI 时消耗的 “额度”,本质上就是词元的数量。
统计层面
:衡量 AI 产业规模与活跃度的关键指标。截至 2026 年 3 月,我国日均词元调用量已超
140 万亿
。
四、词元 vs 汉字 / 词语
汉字 / 词语
:人类语言的表达单位,按语义和语法划分。
词元
:AI 的计算单位,按
算法最优
原则划分,服务于模型性能与效率。
数量关系
:通常,
1 个汉字 ≈ 1–2 个词元
;
1 个英文单词 ≈ 1–3 个词元
。
来顶一下
返回首页
发表评论
共有
条评论
用户名:
密码:
验证码:
匿名发表
推荐资讯
有那些后缀的域名可以
一键接入微信腾讯电脑
智慧农业进入AI 深度
OpenClaw 是一款开源
相关文章
无相关信息
栏目更新
栏目热门
站内搜索:
资讯
下载
图库
教程
讲演
商品
文章
分类信息
高级搜索
AI产业链
|
银发经济
|
新能源
|
低空经济
|
高端制造
|
生物技术
|
大数据
|
航天卫星
|
智能城市
|
6G产业
|
智慧农业
|
手机站WAP
本站资料和信息均摘自互联网,如有侵权及其他原因,请及时告知删除,联系:25823258@QQ.com
工业和信息化部ICP
冀ICP备2024080107号-1
|
冀公网安备13100302001404号
Powered by
物联网-人工智能AGI-大模型AI技术!
8.0
© 2002-2026
Iot物联网 Inc.