基于 Python 的文本内容提取及 JSON 格式存储

24 次浏览 2024-06-16 0 条评论

html

Python JSON 数据提取网页解析

介绍如何使用 Python 爬取文本内容，提取目录及对应页码信息，并将结果保存为结构化的 JSON 文件。

1. 环境配置

确保已安装以下 Python 库：

requests：用于发送 HTTP 请求获取网页内容。
beautifulsoup4：用于解析 HTML 文档，提取所需信息。
json：用于处理 JSON 数据格式。

可以使用 pip 命令安装：

bash

pip install requests beautifulsoup4 json

### 2. 代码实现

```python

import requests

from bs4 import BeautifulSoup

import json

def extract_toc(url):

response = requests.get(url)

response.encoding = 'utf-8'

soup = BeautifulSoup(response.text, 'html.parser')

 toc = []
 for element in soup.select('your_selector_here'): 
     title = element.text.strip()
     page_num = element['href'].split('#')[-1]  
     toc.append({'title': title, 'page': page_num})

 return toc

if name == 'main':

url = 'https://www.example.com'

toc_data = extract_toc(url)

 with open('toc.json', 'w', encoding='utf-8') as f:
     json.dump(toc_data, f, ensure_ascii=False, indent=4)

```

代码说明:

替换 'your_selector_here' 为实际网页中目录条目的 CSS 选择器。
根据网页结构调整提取标题和页码的逻辑。
将 'https://www.example.com' 替换为目标网页链接。

### 3. 运行结果

运行代码后，将在当前目录下生成 toc.json 文件，内容为提取的目录信息，格式如下：

json

[

{

"title": "第一章简介",

"page": "page_1"

{

"title": "第二章内容概述",

"page": "page_10"

}

]

该方法可根据实际需求调整代码，实现灵活的文本内容提取和 JSON 数据存储。

文件大小：27.91KB

1. 环境配置

相关推荐

从QPE文件提取的文本数据

基于JSONUtil包实现JSON格式数据与ClientDataset互转

Python爬取微博热搜并存储至JSON

基于Python的亚马逊BestSeller商品信息提取

将手机联系人以json存储

Python实现JSON文件解析与操作

基于.NET2.0+Json实现的的Json类库解析json格式串的类库源码V2.0

python-json

基于Python的CSV转JSON工具

基于VC++的网页内容提取

python解析基于xml格式的日志文件

JSON数据格式

Puppeteer-Fetchbot: 基于JSON-API的网站交互及数据提取工具

IOS 平台下基于 HTTP 协议的 JSON 数据解析

Python脚本转换省市区Excel为JSON格式

基于C#的MySQL文件存储与提取

Python批量处理网络设备巡检文本提取关键指标存入表格Demo代码

基于 Python 的视频帧提取方法

COCO 2017验证集包含的图像与JSON及YOLO格式标注

JSON 数据格式 JAR 包

评论区