xiaji/tophux_scrape

Fork 0

Go to file

xiaji 4fc896977d 更新今日数据

2025-11-26 20:10:11 +08:00

__pycache__

更新了今天的数据

2025-11-14 21:03:48 +08:00

product

更新今日数据

2025-11-26 20:10:11 +08:00

2025年11月26日19179.txt

更新今日数据

2025-11-26 20:10:11 +08:00

check_db_structure.py

第一次提交。

2025-11-09 17:20:44 +08:00

check_db.py

第一次提交。

2025-11-09 17:20:44 +08:00

check_interested_values.py

第一次提交。

2025-11-09 17:20:44 +08:00

db_modify_zhipu.log

第一次提交。

2025-11-09 17:20:44 +08:00

db_modify_zhipu.py

第一次提交。

2025-11-09 17:20:44 +08:00

db_modify.py

第一次提交。

2025-11-09 17:20:44 +08:00

db_viewer.py

修改部分view db的代码

2025-11-11 07:42:55 +08:00

debug_maker_link_failure.png

更新今日数据

2025-11-25 21:28:46 +08:00

fix_chrome_debug.py

增加对producthunt网站的数据爬取

2025-11-17 07:39:45 +08:00

integrated_scraper.log

增加抓取producthunt的数据

2025-11-23 11:15:45 +08:00

jusuan.py

更新了今天的数据

2025-11-14 21:03:48 +08:00

modal_window_debug.png

更新今日数据

2025-11-26 20:10:11 +08:00

modify_db_to_score.py

第一次提交。

2025-11-09 17:20:44 +08:00

playwright_behavior_records_20251126_192417.json

更新今日数据

2025-11-26 20:10:11 +08:00

product_info.json

更新今日数据

2025-11-26 20:10:11 +08:00

product_screenshot.png

更新今日数据

2025-11-26 20:10:11 +08:00

producthunt_scraper.log

更新今日数据

2025-11-26 20:10:11 +08:00

README.md

第一次提交。

2025-11-09 17:20:44 +08:00

requirements.txt

更新playwright控制chrome远程端口

2025-11-17 22:10:40 +08:00

run_stealth_example.py

增加对producthunt网站的数据爬取

2025-11-17 07:39:45 +08:00

temp_product_info.txt

更新今日数据

2025-11-26 20:10:11 +08:00

tophub_add_data_to_db.log

更新今日数据

2025-11-26 20:10:11 +08:00

tophub_add_data_to_db.py

修改了了入库的逻辑，如果3天内已存在相同标题的文章，则跳过入库。

2025-11-09 20:30:41 +08:00

tophub_ban_column.txt

第一次提交。

2025-11-09 17:20:44 +08:00

tophub_data.db

更新今日数据

2025-11-26 20:10:11 +08:00

tophub_scraper.log

更新今日数据

2025-11-26 20:10:11 +08:00

tophub_scraper.py

更新了今天的数据

2025-11-14 21:03:48 +08:00

README.md

TopHub数据处理系统

本项目用于处理TopHub网站抓取的临时文件，对数据进行分类并存储到SQLite数据库中。

功能特点

文件解析：读取临时文件（格式为"日期+时间.txt"），每5行作为一个数据单元
数据提取：从每个数据单元中提取标题和链接
智能分类：调用本地API（Ollama）对标题进行自动分类
去重处理：检查标题+日期是否已存在于数据库中，避免重复录入
进度显示：使用进度条显示处理进度
分类标准化：将相似分类合并为标准分类

文件说明

核心脚本

process_temp_files.py - 主处理脚本
- 解析临时文件
- 调用API进行分类
- 存储到数据库
cleanup_categories.py - 分类清理脚本
- 清理分类中的特殊字符
- 统一分类格式
standardize_categories.py - 分类标准化脚本
- 将相似分类合并为标准分类
- 提供分类映射规则

辅助脚本

check_db.py - 数据库结构检查脚本
test_api.py - API测试脚本
view_categories.py - 查看分类示例脚本

使用方法

1. 处理临时文件

python process_temp_files.py

该脚本会：

扫描当前目录下的所有临时文件（格式为"日期+时间.txt"）
解析文件内容，提取标题和链接
调用本地API对标题进行分类
检查并避免重复数据
存储到tophub_data.db数据库

2. 清理和标准化分类

# 清理分类中的特殊字符
python cleanup_categories.py

# 标准化分类
python standardize_categories.py

3. 查看数据

# 查看分类示例
python view_categories.py

# 检查数据库结构
python check_db.py

数据库结构

数据库文件为tophub_data.db，包含以下表：

tophub_entries - 主数据表
- id: 主键
- text_content: 标题内容（非空）
- link: 链接
- category: 分类
- scrape_time: 抓取时间
classification_progress - 分类进度表
- id: 主键
- total_count: 总数量
- processed_count: 已处理数量
- last_updated: 最后更新时间

API配置

脚本使用本地Ollama API进行分类：

API地址：http://localhost:11434/api/generate
模型：gemma3:4b
请求格式：JSON

分类标准

系统支持以下标准分类：

科技 - 新质科技、互联网等
社会 - 社会新闻、生活服务等
体育 - 体育新闻、足球等
历史 - 历史事件、历史人物等
安全 - 安全漏洞、安全科技等
军事 - 军事新闻、国防等
金融 - 金融新闻、市场分析等
购物 - 电商、购物等
游戏 - 游戏新闻等
娱乐 - 娱乐八卦、音乐等
健康 - 健康医疗、健康生活等
其他 - 其他未分类内容

注意事项

确保本地Ollama服务已启动并可访问
临时文件格式必须为"日期+时间.txt"
每个数据单元包含5行：节点ID、分类、标题、链接和分隔线
数据库文件会自动创建，无需手动创建

日志文件

系统会生成以下日志文件：

process_temp_files.log - 主处理日志
cleanup_categories.log - 分类清理日志
standardize_categories.log - 分类标准化日志

示例

临时文件格式示例

节点ID: 102
分类: 宽带山
标题: 女机器人
链接: http://club.kdslife.com/t_11502693.html
--------------------------------------------------
节点ID: 103
分类: 宽带山
标题: 这个应该属于底盘不行吗
链接: http://club.kdslife.com/t_11502686.html
--------------------------------------------------

处理结果示例

标题 '女机器人' 分类为: 科技
标题 '这个应该属于底盘不行吗' 分类为: 其他

README.md Unescape Escape

TopHub数据处理系统

功能特点

文件说明

核心脚本

辅助脚本

使用方法

1. 处理临时文件

2. 清理和标准化分类

3. 查看数据

数据库结构

API配置

分类标准

注意事项

日志文件

示例

临时文件格式示例

处理结果示例

README.md