博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
数据存储 Json
阅读量:5225 次
发布时间:2019-06-14

本文共 1876 字,大约阅读时间需要 6 分钟。

数据存储 Json

一、JsonLInesEx

1 from scrapy.exporters import JsonLinesItemExporter 2 class JsonLinesItemExporterPipeline(object): 3     def __init__(self): 4         self.file = open('jsonfile.json', 'wb')  # 必须写入二进制 5         self.exporter = JsonLinesItemExporter(self.file, ensure_ascii=False, encoding='utf-8') 6     def process_item(self, item, spider): 7         self.exporter.export_item(item) 8         print(item) 9     def close_item(self, spider):10         self.file.close()11         pass
JsonLinesItemExporter

二、自定义方法保存json文件

1 import json 2   3 # 自定义处理json保存 4 class QsbkDemoPipeline(object): 5     def __init__(self): 6         self.file = open('qsbk.json', 'w', encoding='utf-8') 7   8     def open_spider(self, spider): 9         print('爬虫开始了...')10         pass11  12     def process_item(self, item, spider):13         # 这里需要把item转换字典14         item_json = json.dumps(dict(item), ensure_ascii=False)15         self.file.write(item_json+'\n')16         return item17  18     def close_spider(self, spider):19         self.file.close()20         print('爬虫结束了...')21         pass
View Code

三、JsonItemExporter保存json

1 from scrapy.exporters import JsonItemExporter 2   3 # 利用scrapy自带json保存 4 class JsonExporterPipeline(object): 5     def __init__(self): 6         self.file = open('qsbk_1.json', 'wb')  # 必须二进制写入 7         self.exporter = JsonItemExporter(self.file, encoding='utf-8', ensure_ascii=False) 8         # 开始写入 9         self.exporter.start_exporting()10  11     def open_spider(self, spider):12         print('爬虫开始')13         pass14  15     def process_item(self, item, spider):16         self.exporter.export_item(item)17         return item18  19     def close_spider(self, spider):20         # 完成写入21         self.exporter.finish_exporting()22         self.file.close()23         pass
View Code

 

转载于:https://www.cnblogs.com/guozepingboke/p/10794661.html

你可能感兴趣的文章
【codevs1033】 蚯蚓的游戏问题
查看>>
TP框架中的page分页实现
查看>>
[转]跨越千年的RSA算法
查看>>
传奇学者应明生
查看>>
【程序执行原理】
查看>>
第二次项目冲刺(Beta阶段)5.24
查看>>
【线段树1】洛谷P3372
查看>>
解决Oracle RAC不能自动启动的问题
查看>>
多线程
查看>>
RSA
查看>>
Maven使用
查看>>
scrapy常用设置和注意点!!!!
查看>>
关于js(二)----------------分享前端开发常用代码片段
查看>>
SQL Server 缓存清理的一些原因
查看>>
20.元素的尺寸和位置
查看>>
书写文档使用的工具
查看>>
前端之jquery
查看>>
【回溯】n皇后问题
查看>>
20190408Linux权限管理week1_day5
查看>>
HTTP请求
查看>>