Note-53637-3

Token ID: 1

ERC-721 1 Transfers
Metadata

{
  "title": "实习生就是块砖，哪里需要搬哪里",
  "tags": [
    "post"
  ],
  "sources": [
    "xlog"
  ],
  "external_urls": [
    "https://palai.xlog.app/shi-xi-sheng-jiu-shi-kuai-zhuan--na-li-xu-yao-ban-na-li"
  ],
  "date_published": "2023-04-14T03:59:48.063Z",
  "content": "**背景：负责的项目这段时间没有啥活了，摸鱼几天之后，mt给我说搞一个小需求。**\n然后有个产品经理就联系我了，说是让我实现一个爬虫需求：将邮箱中的内容上传到我司的平台 。\n\n嗯，就是这个小需求，有点搞心态。不是说技术上的问题，而是。。。。。（预知后事如何，请接着往下看）\n\n我：那这个邮箱有限制吗，可以使用网页版的吗?\nA：这个没啥要求 ，可以的\n我：上传到平台这个接口，有没有现成的\nA：你去找 ** （负责项目的爬虫模块）他知道\n\n然后我了解完就开干了。\n\n测试用的邮箱是我自己的163邮箱，因为我是Java 对于Python来说都不是很熟练。\n调研一番之后，先是考虑到**用Selenium 模拟自动化**去实现，我只要通过固定的按钮来控制进行。\n第一关：登录\n使用Selenium模拟登录，会被ban 。因为太快了，被网易的反爬机制检测出来了。\n解决：一个sleep（time）函数即可\n第二关：挖掘共性\n因为我需要实现的是批量操作，所以我代码的通用性要更合适。\n实现流程：登录-点击未读邮件的logo（读过的，就不需要再次爬取了）- 第一封-解析内容-返回-第二封-解析内容-返回----。。。。。。。\n这个流程中，解析到内容以后，我想要实现返回按钮，这个时候出现了未知的原因，我用了很多种方法，都没有成功。（很离谱）不过已经到周五了。。嘿嘿\n\n然后经过了一个周末，我解析的内容也出现问题了，爬取的内容为空。\n直接f12 看看到底哪里出问题了，后面发现是前端的框架变了（虚惊一场）重新解析即可。\n上面提到的问题还没有解决，很是苦恼。于是 我开始用**第二种方法**了：直接获取整个页面的内容 ，再用一个循环 控制批量。 最后解析整个内容即可 。\n就这样我完成了这个小需求。 \n\n我：你好，您看看这个效果符合吗 ？\nA：不是，我不需要整个的内容，我只需要特定的链接 （说着就开共享给我看了具体流程）\n我：嗷嗷，我懂了（其实就是爬取他邮箱中特定邮件的报告，把里面的特殊链接提供各给爬虫）（服了 ，一开始直接给我演示不好吗！）这跟上传哪门子搭架了。\n我：那提供给爬虫是需要以什么格式呢？文本？还是啥？\nA：你去问爬虫小哥，他知道\n我：好的（^^_）\n\n最后把爬到的链接 存到本地execl中 按照 链接：时间戳 的格式存储\n\n### 收获： 一定要搞清楚需求，必要时可直接演示，因为你不知道产品经理口中的东西是不是你脑中的东西 ^^_  \n",
  "attributes": [
    {
      "value": "shi-xi-sheng-jiu-shi-kuai-zhuan--na-li-xu-yao-ban-na-li",
      "trait_type": "xlog_slug"
    }
  ]
}