py3

2016-09-19 10:55:14 +02:00 · 2016-09-19 10:55:14 +02:00 · fc1efbc7fe
commit fc1efbc7fe
parent a26af3d2b1
1 changed files with 2 additions and 2 deletions
--- a/oxdata/movie/models.py
+++ b/oxdata/movie/models.py
@ -240,13 +240,13 @@ def get_new_ids(timeout=-1):
        with open(new_ids_cache) as fd:
            new_ids = set(json.load(fd))
    else:
-        robot = ox.cache.read_url('http://www.imdb.com/robots.txt', timeout=timeout)
+        robot = ox.cache.read_url('http://www.imdb.com/robots.txt', timeout=timeout).decode('utf-8')
        sitemap_url = re.compile('\nSitemap: (http.+)').findall(robot)[0]
        sitemap = ox.cache.read_url(sitemap_url, timeout=timeout)
        urls = re.compile('<loc>(.+?)</loc>').findall(sitemap)
        ids = set()
        for url in sorted(urls, reverse=False):
-            s = ox.cache.read_url(url, timeout=timeout)
+            s = ox.cache.read_url(url, timeout=timeout).decode('utf-8')
            ids |= set(re.compile('<loc>http://www.imdb.com/title/tt(\d{7})/combined</loc>').findall(s))
            #print url, len(ids)
        known_ids = frozenset([i['imdb'] for i in Imdb.objects.all().values('imdb')])