Note-53637-3

Token ID: 1

ERC-721 1 Transfers

Metadata

{
  "title": "实习生就是块砖,哪里需要搬哪里",
  "tags": [
    "post"
  ],
  "sources": [
    "xlog"
  ],
  "external_urls": [
    "https://palai.xlog.app/shi-xi-sheng-jiu-shi-kuai-zhuan--na-li-xu-yao-ban-na-li"
  ],
  "date_published": "2023-04-14T03:59:48.063Z",
  "content": "**背景:负责的项目这段时间没有啥活了,摸鱼几天之后,mt给我说搞一个小需求。**\n然后有个产品经理就联系我了,说是让我实现一个爬虫需求:将邮箱中的内容上传到我司的平台 。\n\n嗯,就是这个小需求,有点搞心态。不是说技术上的问题,而是。。。。。(预知后事如何,请接着往下看)\n\n我:那这个邮箱有限制吗,可以使用网页版的吗?\nA:这个没啥要求 ,可以的\n我:上传到平台这个接口,有没有现成的\nA:你去找 ** (负责项目的爬虫模块)他知道\n\n然后我了解完就开干了。\n\n测试用的邮箱是我自己的163邮箱,因为我是Java 对于Python来说都不是很熟练。\n调研一番之后,先是考虑到**用Selenium 模拟自动化**去实现,我只要通过固定的按钮来控制进行。\n第一关:登录\n使用Selenium模拟登录,会被ban 。因为太快了,被网易的反爬机制检测出来了。\n解决:一个sleep(time)函数即可\n第二关:挖掘共性\n因为我需要实现的是批量操作,所以我代码的通用性要更合适。\n实现流程:登录-点击未读邮件的logo(读过的,就不需要再次爬取了)- 第一封-解析内容-返回-第二封-解析内容-返回----。。。。。。。\n这个流程中,解析到内容以后,我想要实现返回按钮,这个时候出现了未知的原因,我用了很多种方法,都没有成功。(很离谱)不过已经到周五了。。嘿嘿\n\n然后经过了一个周末,我解析的内容也出现问题了,爬取的内容为空。\n直接f12 看看到底哪里出问题了,后面发现是前端的框架变了(虚惊一场)重新解析即可。\n上面提到的问题还没有解决,很是苦恼。于是 我开始用**第二种方法**了:直接获取整个页面的内容 ,再用一个循环 控制批量。 最后解析整个内容即可 。\n就这样我完成了这个小需求。 \n\n我:你好,您看看这个效果符合吗 ?\nA:不是,我不需要整个的内容,我只需要特定的链接 (说着就开共享给我看了具体流程)\n我:嗷嗷,我懂了(其实就是爬取他邮箱中特定邮件的报告,把里面的特殊链接提供各给爬虫)(服了 ,一开始直接给我演示不好吗!)这跟上传哪门子搭架了。\n我:那提供给爬虫是需要以什么格式呢?文本?还是啥?\nA:你去问爬虫小哥,他知道\n我:好的(^^_)\n\n最后把爬到的链接 存到本地execl中 按照 链接:时间戳 的格式存储\n\n### 收获: 一定要搞清楚需求,必要时可直接演示,因为你不知道产品经理口中的东西是不是你脑中的东西 ^^_  \n",
  "attributes": [
    {
      "value": "shi-xi-sheng-jiu-shi-kuai-zhuan--na-li-xu-yao-ban-na-li",
      "trait_type": "xlog_slug"
    }
  ]
}