已解决:数据去重。

分享  收藏
5 / 793

python 爬虫,通过明道云 API POST 上传数据,设置字段“网址”不允许重复。

爬虫 每爬一次 本身就有重复信息,此时并没有重复写入;
爬虫 间隔数小时后 再次运行,重复信息就可以写入。

求教:如何让重复信息一直不能写入,或者视图筛选,或者工作流删除重复信息。

image.png

#写入明道云系统
def mingdaoyun(item_name,item_manufacturer,item_price,item_zheHouPrice,item_nearEffectBox,url_real):
    params = {"appKey": "abc***65a",
              "sign": "OTgw***mFmN2M0ZDY5YjU1***yOGUw***UwMTY3YmFkN2QxY***mRlMGM4Mw==",
              "worksheetId": "ypzdsx",
              "controls": [
                        {
                          "controlId": "ypmc",
                          "value": item_name
                        },
                        {
                          "controlId": "sccj",
                          "value": item_manufacturer
                        },
                        {
                          "controlId": "danjia",
                          "value": item_price
                        },
                        {
                          "controlId": "zhehoujia",
                          "value": item_zheHouPrice
                        },
                        {
                          "controlId": "youxiaoqi",
                          "value": item_nearEffectBox
                        },
                        {
                          "controlId": "wangzhi",
                          "value": url_real
                        }
                      ],
#                      "triggerWorkflow": "true"
                    }
    r = requests.post("http://j*****et:3***67/api/v2/open/worksheet/addRow",json=params)
    print(r.text)