Apache Doris 4.0 把 AI 塞进数据库了！？

来源（公众号）：大数据AI智能圈

“哥，Doris 4.0 把 AI 塞进数据库了！”

凌晨一点，DBA老周在群里甩出这句话，附带一张截图：一条 SQL 直接调通简历筛选，把 30 万份数据 3 秒跑完。

我盯着屏幕，咖啡差点洒键盘——这年头，连数据库都开始抢 HR 的饭碗？

第二天一早，我溜进公司实验室，把 4.0 Doris怼到测试集群。

产品经理阿May跟进来，抱着电脑一脸愁容：“老板要‘千人千面’推荐，预算却只给两台破机器，你让 AI 喝西北风？”

我没接话，先把用户行为表、商品文本表、图像特征表一股脑倒进 Doris，顺手建了个向量索引：

# 向量索引检索函数介绍
l2_distance_approximate(): 
使用 HNSW 索引按 欧氏距离（L2） 近似计算相似度。数值越小越相似。

inner_product_approximate():
使用 HNSW 索引按 内积（Inner Product） 近似计算相似度。数值越大越相似。

-- 1) 建表与索引
CREATETABLE doc_store (
idBIGINT,
  title STRING,
  tags ARRAY<STRING>,
  embedding ARRAY<FLOAT> NOTNULL,
INDEX idx_vec (embedding) USING ANN PROPERTIES (
      "index_type"  = "hnsw",
      "metric_type" = "l2_distance",
      "dim"         = "768",
      "quantizer"   = "flat"-- 可选：flat / sq8 / sq4
  ),
INDEX idx_title (title) USING INVERTED PROPERTIES ("parser" = "english")
)
DUPLICATEKEY(id)
DISTRIBUTEDBYHASH(id) BUCKETS 16
PROPERTIES("replication_num"="1");

-- 2) TopN 最近邻（建议使用 PreparedStatement 传入向量）, 用真实向量替换下面的 ... 占位符
SELECTid, l2_distance_approximate(embedding, [...]) AS dist
FROM doc_store
ORDERBY dist ASC
LIMIT10;

-- 3) 带过滤条件的 ANN（先过滤后TopN，保障召回）, 用真实向量替换下面的 ... 占位符
SELECTid, title,
       l2_distance_approximate(embedding, [...]) AS dist
FROM doc_store
WHERE title MATCH_ANY 'music'                -- 使用倒排索引快速过滤
AND array_contains(tags, 'recommendation') -- 结构化过滤
ORDERBY dist ASC
LIMIT5;

-- 4) 范围查询，, 用真实向量替换下面的 ... 占位符
SELECTCOUNT(*)
FROM doc_store
WHERE l2_distance_approximate(embedding, [...]) <= 0.35;

维度 768，量化 sq8，压测脚本一跑，QPS 飙到 1.2 万，CPU 才啃了 42%。阿May的下巴差点脱臼：“这玩意儿是数据库？不是隐藏版 GPU？”

更离谱的是 AI 函数（🔗 https://doris.apache.org/zh-CN/docs/dev/ai/ai-function-overview/）

我现场写了一条：

SELECT item_id, AI_SUMMARIZE(description, 20) AS digest,  
       AI_CLASSIFY(title, ARRAY['3C', '美妆', '食品', '潮玩']) AS tag  
FROM sku_dim  
WHERE AI_FILTER(CONCAT('适合送礼吗？', description)) = true  
LIMIT 100;

结果 8 秒返回，文案组直接薅走数据，半小时后朋友圈广告上线，转化率比上周同期翻 1.7 倍。

阿May抱着我胳膊：“哥，咱把推荐团队裁了吧？”我翻个白眼——推荐团队没裁，老板把买新服务器的申请单撕了，顺手给 Doris 集群又加了两节点，说是“花小钱办大事的典范”。

故事还没完。

周五晚高峰，数据仓库例行跑批，平时温顺的 ETL 任务突然暴走，内存占用 98%，眼看就要 OOM。

我顺手测试把 enable_spill 打开，exec_mem_limit 降到 8 G，让任务滚去磁盘睡觉。半小时后，任务稳稳当当写完 9 TB 数据，磁盘只占了 120 G。

老板在群里发了个红包：“谁把集群从崩溃边缘拉回来？”

我默默点开，52 块，备注两字——“ disk”。

到这，可能有人要问，Doris 4.0 到底变了啥？

我说它学会了三招：

第一招，把向量索引做成“懒人模式”，高维数据不用倒腾到专用向量库，一条 SQL 完成“结构化 + 非结构化”混合召回，省得数据在系统之间旅游。

第二招，把大模型揉进函数库，情感、摘要、翻译、分类、提取、掩码，一条龙服务，分析师再也不用 Python 写脚本，DBA 也能秒变“ prompt 工程师”。

第三招，给离线任务加安全气囊，内存不够就落盘，磁盘价换时间，老板再也不担心任务半夜暴毙。

这三招听起来像开挂，背后却是现实主义——预算不涨、人手不增、需求翻倍，只能靠数据库自己进化。

Doris 4.0 不是来炫技，它是来救场的：让中小团队用得起向量检索，让分析师不写 Python 也能玩大模型，让凌晨三点的报警短信少一条是一条。

老板今天又在群里发灵魂拷问：“AI 时代，数据团队的价值到底在哪？”

我回了句：“价值在让老板睡得着。”

屏幕那端沉默半分钟，然后甩来一句：“下周给 Doris 集群再加四台机器，别让我半夜接电话。”

我笑着合上电脑，心想：数据库都学会抢饭碗了，咱再不升级，真要被它优化掉了。

龙石数据·博客中心

龙石数据·博客中心

Apache Doris 4.0 把 AI 塞进数据库了！？

龙石数据产品

热门文章

龙石数据·博客中心

龙石数据·博客中心

Apache Doris 4.0 把 AI 塞进数据库了！？

相关文章：

龙石数据产品

热门文章