Webページの情報を取得する方法

1年 ago

蓮, 翼

1 minute

ウェブデータを取得するための一般的な Python の方法は次のとおりです。

urllibライブラリを使用する：urllibはPythonに標準搭載されているライブラリで、URLを扱うための関数・クラスを提供しています。urllibライブラリを使うことでHTTPリクエストを送信し、Webページのデータを取得できます。具体的には次の手順で行います：

import urllib.request
url = 'http://www.example.com'   # 网页的URL
response = urllib.request.urlopen(url)   # 发送HTTP请求并获取响应
data = response.read()   # 读取响应的数据
print(data)

requestsライブラリを利用: requestsは、より簡潔かつ強力な機能を提供し、HTTPリクエストの送信と応答の処理を容易にするサードパーティライブラリです。requestsライブラリを使用してウェブページのデータを取得するコードサンプルを以下に示します。

import requests
url = 'http://www.example.com'   # 网页的URL
response = requests.get(url)   # 发送GET请求并获取响应
data = response.text   # 获取响应的文本数据
print(data)

美しいスープ(BeautifulSoup)というサードパーティ製のライブラリを使用します。美しいスープは HTML と XML を解析するために使用され、Web ページから必要なデータを抽出するのに役立ちます。具体的には、以下の手順で行います。

from bs4 import BeautifulSoup
html = '''
<html>
<head><title>Example</title></head>
<body>
<p>Hello, World!</p>
</body>
</html>
'''
soup = BeautifulSoup(html, 'html.parser')   # 创建BeautifulSoup对象
p = soup.find('p')   # 查找第一个<p>标签
print(p.text)   # 输出<p>标签的文本内容

Webページのデータを収集する一般的な方法は以上で、実際のニーズと状況に応じて最適な方法を選択できます。