Scrapy打造搜索引擎学习笔记 - 2 - Unicode与UTF-8

字符串编码1,计算机只能处理数字,文本转换为数字才能处理。计算机中8个bit作为一个字节,所以一个字节能表示最大的数字就是2552,计算机是美国人发明的,所以一个字节可以表示所有字符了,所以ASCII(一个字节)编码就成为美国人的标准编码3,但是ASCII处理中文明显是不够的,中文不止255个汉字,所以中国制症了GB2312编码,用两个字节表示一个汉字。GB2312还把ASCII包含进去了,...

Python,杂谈 2021-01-02 PM 138次 0条

开博杂记

新的博客,新的开始又开了一个博客,以前一直用的自己的服务器上架的wordpress博客。尝试着自己写博文,发现很多的问题。首先是服务器不稳定,买的vultr的便宜主机(也不是为了写博客用的),国外的ip,再加上wordpress本身消耗的资源也多,所以访问起来不是一般的慢,慢慢的就没兴趣写下去了。最近又起了写博客的念头。网上找了找,发现了这个叫Hexo的东西,能本地生成静态的网页,把网页托管...

杂谈 2019-04-12 PM 682次 3条

除了自己,没有人能保护你的隐私(转载)

让我们再一次翻出“隐私”这个亘古不变的话题。不久前,国内某大厂的 App 在微博上被曝光偷偷后台读取隐私信息,也有可能在不为人知的情况下将其上传。因此,我写了一条长微博,主要内容是宣传「在互联网时代,只有自己在意隐私,自己保护隐私,隐私才能得到保护」,指出了某 App 的问题非常可能仅仅是冰山一角。微博一出,我收到了大量完全是出于误读的回复,包括但不限于诸如 「Android 真惨,我用 i...

杂谈 2019-04-12 PM 252次 0条