Apache Doris 4.0 把 AI 塞进数据库了!?

2025-10-24 15:24 浏览量:22

来源(公众号):大数据AI智能圈

哥,Doris 4.0 把 AI 塞进数据库了!
 

凌晨一点,DBA老周在群里甩出这句话,附带一张截图:一条 SQL 直接调通简历筛选,把 30 万份数据 3 秒跑完。 

我盯着屏幕,咖啡差点洒键盘——这年头,连数据库都开始抢 HR 的饭碗?

第二天一早,我溜进公司实验室,把 4.0 Doris怼到测试集群。

产品经理阿May跟进来,抱着电脑一脸愁容:“老板要‘千人千面’推荐,预算却只给两台破机器,你让 AI 喝西北风?”

我没接话,先把用户行为表、商品文本表、图像特征表一股脑倒进 Doris,顺手建了个向量索引

# 向量索引检索函数介绍
l2_distance_approximate(): 
使用 HNSW 索引按 欧氏距离(L2) 近似计算相似度。数值越小越相似。

inner_product_approximate():
使用 HNSW 索引按 内积(Inner Product) 近似计算相似度。数值越大越相似。

-- 1) 建表与索引
CREATETABLE doc_store (
idBIGINT,
  title STRING,
  tags ARRAY<STRING>,
  embedding ARRAY<FLOAT> NOTNULL,
INDEX idx_vec (embedding) USING ANN PROPERTIES (
      "index_type"  = "hnsw",
      "metric_type" = "l2_distance",
      "dim"         = "768",
      "quantizer"   = "flat"-- 可选:flat / sq8 / sq4
  ),
INDEX idx_title (title) USING INVERTED PROPERTIES ("parser" = "english")
)
DUPLICATEKEY(id)
DISTRIBUTEDBYHASH(id) BUCKETS 16
PROPERTIES("replication_num"="1");

-- 2) TopN 最近邻(建议使用 PreparedStatement 传入向量), 用真实向量替换下面的 ... 占位符
SELECTid, l2_distance_approximate(embedding, [...]) AS dist
FROM doc_store
ORDERBY dist ASC
LIMIT10;

-- 3) 带过滤条件的 ANN(先过滤后TopN,保障召回), 用真实向量替换下面的 ... 占位符
SELECTid, title,
       l2_distance_approximate(embedding, [...]) AS dist
FROM doc_store
WHERE title MATCH_ANY 'music'                -- 使用倒排索引快速过滤
AND array_contains(tags, 'recommendation') -- 结构化过滤
ORDERBY dist ASC
LIMIT5;

-- 4) 范围查询,, 用真实向量替换下面的 ... 占位符
SELECTCOUNT(*)
FROM doc_store
WHERE l2_distance_approximate(embedding, [...]) <= 0.35;

维度 768,量化 sq8,压测脚本一跑,QPS 飙到 1.2 万,CPU 才啃了 42%。阿May的下巴差点脱臼:“这玩意儿是数据库?不是隐藏版 GPU?

更离谱的是 AI 函数(🔗 https://doris.apache.org/zh-CN/docs/dev/ai/ai-function-overview/

我现场写了一条:

SELECT item_id, AI_SUMMARIZE(description, 20) AS digest,  
       AI_CLASSIFY(title, ARRAY['3C', '美妆', '食品', '潮玩']) AS tag  
FROM sku_dim  
WHERE AI_FILTER(CONCAT('适合送礼吗?', description)) = true  
LIMIT 100;  

结果 8 秒返回,文案组直接薅走数据,半小时后朋友圈广告上线,转化率比上周同期翻 1.7 倍。

阿May抱着我胳膊:“哥,咱把推荐团队裁了吧?”我翻个白眼——推荐团队没裁,老板把买新服务器的申请单撕了,顺手给 Doris 集群又加了两节点,说是“花小钱办大事的典范”。

故事还没完。

周五晚高峰,数据仓库例行跑批,平时温顺的 ETL 任务突然暴走,内存占用 98%,眼看就要 OOM。

我顺手测试把 enable_spill 打开,exec_mem_limit 降到 8 G,让任务滚去磁盘睡觉。半小时后,任务稳稳当当写完 9 TB 数据,磁盘只占了 120 G。

老板在群里发了个红包:“谁把集群从崩溃边缘拉回来?

我默默点开,52 块,备注两字——“ disk”。

到这,可能有人要问,Doris 4.0 到底变了啥?

我说它学会了三招:

第一招,把向量索引做成“懒人模式”,高维数据不用倒腾到专用向量库,一条 SQL 完成“结构化 + 非结构化”混合召回,省得数据在系统之间旅游。

第二招,把大模型揉进函数库,情感、摘要、翻译、分类、提取、掩码,一条龙服务,分析师再也不用 Python 写脚本,DBA 也能秒变“ prompt 工程师”。

第三招,给离线任务加安全气囊,内存不够就落盘,磁盘价换时间,老板再也不担心任务半夜暴毙。

这三招听起来像开挂,背后却是现实主义——预算不涨、人手不增、需求翻倍,只能靠数据库自己进化

Doris 4.0 不是来炫技,它是来救场的:让中小团队用得起向量检索,让分析师不写 Python 也能玩大模型,让凌晨三点的报警短信少一条是一条。

 

老板今天又在群里发灵魂拷问:“AI 时代,数据团队的价值到底在哪?

我回了句:“价值在让老板睡得着。”

屏幕那端沉默半分钟,然后甩来一句:“下周给 Doris 集群再加四台机器,别让我半夜接电话。”

我笑着合上电脑,心想:数据库都学会抢饭碗了,咱再不升级,真要被它优化掉了。

 

上一篇:告别“报表民工”:数据中台融合AI,如何重塑企业决策力?

下一篇:数据治理如何让数据“跑”出企业价值新高度?

  • 分享:
龙石数据
咨询电话: 0512-87811036,18013092598
联系我们
商务联系微信

商务联系微信

0512-87811036,

18013092598

咨询电话