分享web开发知识

注册/登录|最近发布|今日推荐

主页 IT知识网页技术软件开发前端开发代码编程运营维护技术分享教程案例
当前位置:首页 > 运营维护

解决Scrapy抓取中文网页保存为json文件时中文不显示而是显示unicode的问题

发布时间:2023-09-06 02:31责任编辑:彭小芳关键词:jsjson

注意:此方法跟之前保存成json文件的写法有少许不同之处,注意区分

情境再现:

使用scrapy抓取中文网页,得到的数据类型是unicode,在控制台输出的话也是显示unicode,如下所示

{‘author‘: u‘\u51af\u53cb\u5170\u7b49‘,
 ‘classification‘: u‘ \u4eba\u6587\u793e\u79d1‘,
 ‘down_bd_code‘: u‘\u63d0\u53d6\u5bc6\u7801\uff1asp6t‘,
 ‘down_bd_url‘: u‘https://pan.baidu.com/s/1N1NPVupmnPX6W5Fm2YHccg‘,
 ‘title‘: u‘\u4e2d\u897f\u65b9\u54f2\u5b66\u53f2\uff08\u5957\u88c5\u51712\u518c\uff09‘}

保存成json文件时需要显示出中文

import jsonimport codecs# Define your item pipelines here## Don‘t forget to add your pipeline to the ITEM_PIPELINES setting# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.htmlclass WriteJsonPipeline(object): ???def __init__(self): ???????self.file = codecs.open(‘items.json‘, ‘w‘, encoding=‘utf-8‘) ???def process_item(self, item, spider): ???????line = json.dumps(dict(item),ensure_ascii=False) + ‘\n‘ ???????self.file.write(line) ???????return item ???def spider_closed(self, spider): ???????self.file.close()

将以上内容插入pipelines.py,同时在settings.py中加入

ITEM_PIPELINES = {
    ‘panda.pipelines.WriteJsonPipeline‘: 300
}

以调用pipelines文件

解决Scrapy抓取中文网页保存为json文件时中文不显示而是显示unicode的问题

原文地址:https://www.cnblogs.com/sanduzxcvbnm/p/10309401.html

知识推荐

我的编程学习网——分享web前端后端开发技术知识。 垃圾信息处理邮箱 tousu563@163.com 网站地图
icp备案号 闽ICP备2023006418号-8 不良信息举报平台 互联网安全管理备案 Copyright 2023 www.wodecom.cn All Rights Reserved