refactor

2019-08-05 13:18:39 +02:00 · 2019-08-05 13:18:39 +02:00 · 785550c753
commit 785550c753
parent ee9e430ef8
1 changed files with 70 additions and 76 deletions
--- a/oxdata/movie/imdbids.py
+++ b/oxdata/movie/imdbids.py
@ -110,10 +110,6 @@ def update_month(year, month, film_counts):
            if film_count != film_counts.get(key):
                print_info(key, film_count, film_counts)
                film_counts[key] = film_count
                if film_count > MAX_PER_RANGE and film_count < 2*MAX_PER_RANGE:
                    r = update_ids(year, month, day, sort='alpha', expected=film_count)
                    save_film_counts(film_counts)
                else:
                r = update_ids(year, month, day, expected=film_count)
                save_film_counts(film_counts)
        if days_total != month_total:
@ -136,53 +132,14 @@ def parse_cast(string):
            results[rkey] = cast[key].split(', \n')
    return results
-def update_ids(year, month=None, day=None, sort=None, expected=None):
+def get_films(data):
-    films = {}
+    films = []
    if day is not None:
        url = get_day(year, month, day)
        key = '%04d-%02d-%02d' % (year, month, day)
    elif month is not None:
        url = get_month(year, month)
        key = '%04d-%02d' % (year, month)
    else:
        url = get_year(year)
        key = '%04d' % year
    if sort == 'alpha':
        urls = [
            url.replace('sort=release_date,asc', 'sort=alpha,asc'),
            url.replace('sort=release_date,asc', 'sort=alpha,desc'),
        ]
    else:
        urls = [url]
    if not expected:
        expected = get_film_count(year, month, day)
    for url in urls:
        data = read_url(url, timeout=TIMEOUT)
        n = True
        step = 50
        start = 1
        while n:
            start += step
            next_link = 'start=%s&ref_=adv_nxt"' % (start)
            after_link = 'href="(.*?after=.*?&ref_=adv_nxt)"'
            has_next = re.compile(next_link).findall(data)
            has_after = re.compile(after_link).findall(data)
            if has_next:
                n = '%s&start=%s' % (url, start)
            elif sort != 'alpha' and has_after:
                n = '%s%s' % (base_url, has_after[0])
            else:
                n = False
    doc = lxml.html.fromstring(data)
    article = doc.find_class('article')
    if article:
        article = article[0]
    else:
-                print('no article on', '%s&start=%s' % (url, start - 2*step))
+        return films
                ox.web.imdb.delete_url('%s&start=%s' % (url, start - 2*step))
                break
    for content in article.find_class('lister-item-content'):
        header = content.find_class('lister-item-header')[0]
        a = header.xpath('.//a')
@ -225,19 +182,56 @@ def update_ids(year, month=None, day=None, sort=None, expected=None):
        if cast:
            cast = parse_cast(cast[0].text_content())
-                if id not in films:
+        film = {
                    films[id] = {
            'title': title,
            'year': y
        }
        if plot:
-                        films[id]['plot'] = plot
+            film['plot'] = plot
        if genre:
-                        films[id]['genre'] = genre
+            film['genre'] = genre
        if cast:
-                        films[id].update(cast)
+            film.update(cast)
-            if expected and len(films) == expected and sort == 'alpha':
+        films.append((id, film))
    return films
 def update_ids(year, month=None, day=None, sort=None, expected=None):
    films = {}
    if day is not None:
        url = get_day(year, month, day)
        key = '%04d-%02d-%02d' % (year, month, day)
    elif month is not None:
        url = get_month(year, month)
        key = '%04d-%02d' % (year, month)
    else:
        url = get_year(year)
        key = '%04d' % year
    urls = [url]
    if not expected:
        expected = get_film_count(year, month, day)
    for url in urls:
        data = read_url(url, timeout=TIMEOUT)
        n = True
        step = 50
        start = 1
        while n:
            start += step
            next_link = 'start=%s&ref_=adv_nxt"' % (start)
            after_link = 'href="(.*?after=.*?&ref_=adv_nxt)"'
            has_next = re.compile(next_link).findall(data)
            has_after = re.compile(after_link).findall(data)
            if has_next:
                n = '%s&start=%s' % (url, start)
            elif has_after:
                n = '%s%s' % (base_url, has_after[0])
            else:
                n = False
            for id, film in get_films(data):
                if id not in films:
                    films[id] = film
            debug('%s: %s of %s films - next: %s' % (key, len(films), expected, n))
            if n:
                data = read_url(n, timeout=TIMEOUT)