feat(search): 智能搜索建议 - 固化候选词表 (search_keywords + search_title_suggestions)

后端: - alembic 0009: 两张固化表 + GIN prefix_keys 索引 + articles trigger - /api/v1/search/suggestions: 混合 A(高频词 ts_stat) + B(真实标题) + 冷启动 fallback - worker 每日 03:00 + 启动时刷新 search_keywords - 顺便填 commit 11 TODO: articles.title_zh_tsv + GIN 索引(未来 FTS 基础) 前端: - NInput -> NAutoComplete + debounce 250ms - 选标题 -> 跳详情;选关键词 -> 填入 + 触发搜索 - AbortController 防 race condition 性能: prefix_keys @> ARRAY[prefix] 走 GIN 亚毫秒,100w 行也稳
2026-06-15 18:26:35 +08:00
parent b674fb4b22
commit c3aa0f0cb6
13 changed files with 1028 additions and 7 deletions
--- a/backend/app/scripts/backfill_search_suggestions.py
+++ b/backend/app/scripts/backfill_search_suggestions.py
@@ -0,0 +1,156 @@
+"""回灌 search_title_suggestions 表。
+
+- 迁移 0009 给 articles 加了 trigger,新写入的会自动维护
+- 但迁移前已有的 articles 没经过 trigger,需要这个脚本一次性回填
+- 同时可以手动跑一次 refresh_search_keywords()(可选,worker 也会跑)
+
+用法:
+  cd backend
+  python -m app.scripts.backfill_search_suggestions
+  # 或 docker:
+  docker compose exec api python -m app.scripts.backfill_search_suggestions
+
+设计:
+- 用 batch INSERT,避免逐行 trigger 重复触发(虽然 trigger 已经在迁移里创建,
+  重复执行对已存在的条目会先 DELETE 再 INSERT,等价于刷新,无害)
+- 进度条:每 1000 篇打一行
+- 失败:有 article 字段异常不会阻塞其他
+"""
+from __future__ import annotations
+
+import asyncio
+import logging
+import sys
+from datetime import datetime, timezone
+
+from sqlalchemy import select, text
+from sqlalchemy.dialects.postgresql import insert as pg_insert
+from sqlalchemy.ext.asyncio import AsyncSession
+
+from app.database import AsyncSessionLocal
+from app.models.article import Article
+from app.models.search_title_suggestion import SearchTitleSuggestion
+
+logger = logging.getLogger("news.backfill_search")
+logging.basicConfig(
+    level="INFO",
+    format="%(asctime)s [%(levelname)s] %(name)s: %(message)s",
+)
+
+
+MAX_TITLE_LEN = 50  # 跟迁移里的 trigger 一致
+BATCH_SIZE = 500
+
+
+def _build_prefix_keys(text_value: str) -> list[str]:
+    """从 '美联储宣布...' 生成 ['美','美联储','美联储宣',...,'美联储宣布...']"""
+    text_value = (text_value or "")[:MAX_TITLE_LEN]
+    if not text_value:
+        return []
+    return [text_value[:n] for n in range(1, len(text_value) + 1)]
+
+
+async def _process_article_batch(
+    session: AsyncSession,
+    articles: list[Article],
+) -> int:
+    """处理一批 articles,UPSERT 到 search_title_suggestions。
+
+    返回成功插入/更新的条数。
+    """
+    rows = []
+    for art in articles:
+        if art.title_zh and len(art.title_zh.strip()) > 0:
+            src_text = art.title_zh.strip()[:MAX_TITLE_LEN]
+            lang = "zh"
+        elif art.title and len(art.title.strip()) > 0:
+            src_text = art.title.strip()[:MAX_TITLE_LEN]
+            lang = "src"
+        else:
+            continue
+
+        rows.append(
+            {
+                "article_id": art.id,
+                "title_lang": lang,
+                "prefix_keys": _build_prefix_keys(src_text),
+                "published_at": art.published_at,
+            }
+        )
+
+    if not rows:
+        return 0
+
+    # 用 PG 原生 ON CONFLICT 实现 UPSERT(基于 article_id 唯一约束)
+    # 注意:表没建 unique on article_id,所以先 DELETE 再 INSERT
+    # 性能:批量 DELETE 在 article_id 上没索引,可能慢;临时加索引:
+    #   CREATE INDEX IF NOT EXISTS tmp_idx ON search_title_suggestions(article_id);
+    # 简化:每个 batch 内逐条 DELETE 再 INSERT(慢但稳)
+    #   替代方案:直接 TRUNCATE + 全量重灌(回填场景下更简单)
+    for r in rows:
+        await session.execute(
+            text("DELETE FROM search_title_suggestions WHERE article_id = :aid"),
+            {"aid": r["article_id"]},
+        )
+    # bulk insert
+    await session.execute(pg_insert(SearchTitleSuggestion), rows)
+    await session.commit()
+    return len(rows)
+
+
+async def backfill() -> None:
+    """主流程:分批拉 articles,回灌 search_title_suggestions。"""
+    started = datetime.now(timezone.utc)
+    async with AsyncSessionLocal() as session:
+        # 总数
+        total = (await session.execute(select(Article.id))).all()
+        total_count = len(total)
+        logger.info("backfill start: %d articles to process", total_count)
+
+        processed = 0
+        last_id = 0
+        while True:
+            rows = (
+                await session.execute(
+                    select(Article)
+                    .where(Article.id > last_id)
+                    .order_by(Article.id)
+                    .limit(BATCH_SIZE)
+                )
+            ).scalars().all()
+            if not rows:
+                break
+            n = await _process_article_batch(session, list(rows))
+            processed += n
+            last_id = rows[-1].id
+            logger.info(
+                "progress: %d / %d (%.1f%%)",
+                processed, total_count,
+                processed / total_count * 100 if total_count else 0,
+            )
+
+    elapsed = (datetime.now(timezone.utc) - started).total_seconds()
+    logger.info("backfill done: %d rows in %.1fs", processed, elapsed)
+
+    # 顺便触发一次 search_keywords 刷新(让词频表也有数据)
+    logger.info("triggering refresh_search_keywords()...")
+    async with AsyncSessionLocal() as session:
+        try:
+            await session.execute(text("SELECT refresh_search_keywords()"))
+            await session.commit()
+            logger.info("refresh_search_keywords() done")
+        except Exception as e:
+            logger.exception("refresh_search_keywords failed: %s (worker 03:00 会再跑)", e)
+
+
+def main() -> int:
+    try:
+        asyncio.run(backfill())
+    except KeyboardInterrupt:
+        logger.warning("interrupted")
+        return 1
+    return 0
+
+
+if __name__ == "__main__":
+    sys.exit(main())