爬虫与MySQL的结合之旅（爬虫mysql）

爬虫与MySQL结合之旅

随着互联网的发展，网站的信息也越来越多，为了获取大量的数据，爬虫技术就应运而生。爬虫技术可以自动抓取网页中的所需数据，节约我们大量的时间，而且实现代码自动化。

然而，获取到数据后，想要进行后续处理，我们还需要有一个存储把这些刚抓取的数据进行存储，以便日后使用。常用的存储方式有文件存储和数据库存储，而数据库MySQL更具有存储量大、数据库操作方便等优势。

因此，我们需要把爬取到的数据，存储到数据库MySQL中，爬取与MySQL的结合之旅就此开启。

我们首先要做的就是使用Python连接到MySQL数据库，可以使用MySQL官方提供的MySQL Connector for Python库，非常容易就可以用Python连接到MySQL数据库，先用下面的代码进行测试：

import mysql.connector

# 连接MySQL数据库

mydb = mysql.connector.connect(

host = “localhost”, # 数据库主机地址

user = “yourusername”, # 数据库用户名

passwd = “yourpassword” # 数据库密码

)

# 打印数据库连接是否成功

print(mydb)

# 成功显示：

# 现在成功连接到MySQL数据库，接下来就是准备执行数据库操作，Query查询一下已存在数据表：

# 创建游标对象

mycursor = mydb.cursor()

# 使用 execute()方法执行 SQL 查询

mycursor.execute(“SHOW TABLES”)

for x in mycursor:

print(x)

# 执行结果为：

# (‘your_table_name’, )

# 可以看到，现在我们已经可以用Python查询到已存在数据表了，现在就是创建新的数据表，然后插入获取到的爬虫数据：

# 创建数据表

sql = “CREATE TABLE crawldata (id INT AUTO_INCREMENT PRIMARY KEY,content VARCHAR(255))”

# 执行SQL语句

mycursor.execute(sql)

# 然后插入爬虫数据

sql = “INSERT INTO crawldata (content) VALUES (%s)”

val = (“This is a crawler data”)

# 执行SQL语句

mycursor.execute(sql, val)

# 提交数据

mydb.commit()

# 打印插入之后的数据：

mycursor.execute(“SELECT * FROM crawldata”)

myresult = mycursor.fetchall()

for x in myresult:

print(x)

# 执行结果为：

# (1, ‘This is a crawler data’)

从上面的代码可以看到，当爬虫技术与MySQL结合时，我们可以在MySQL数据库中创建数据表，存储爬虫抓取到的数据，并且可以方便的查询，获取爬虫数据，这样我们就可以较为轻松的进行数据后期处理了。

总而言之，爬虫与MySQL的结合之旅，是爬虫开发中绕不开的一段路，结合之后，才可以发挥出爬虫的价值，大大提高我们的效率，非常值得推荐。

Qt数据库查询快速高效的数据检索方法 (qt 数据库查询)

「深入剖析」巨杉数据库社区：探究更大的OLAP数据库社区之一 (巨杉数据库社区)

利用Java轻松导出数据库数据——教你如何实现 (java数据库数据导出)

Oracle数据库中的数据文件命名规则说明 (oracle数据库后文件名称)

纯真IP数据库：准确追踪IP信息 (纯真ip数据库 dat)

解决ios界面不刷新问题：数据库处理技巧分享 (ios界面不刷新数据库)

电影数据库：探索电影世界的必备工具 (电影数据库 en)

「定时任务」查询「所有数据库」的操作方法 (定时任务查询所有数据库)

解决share nothing数据库瓶颈：实用方法大揭秘 (share nothing数据库瓶颈)

VFP数据库与程序设计打造高效开发模式 (vfp数据库与程序设计)