parse keywords

2023-07-06 18:32:45 +05:30 · 2023-07-06 18:32:45 +05:30 · d630f4b19c
commit d630f4b19c
parent e6782b3c17
1 changed files with 16 additions and 5 deletions
--- a/ox/web/imdb.py
+++ b/ox/web/imdb.py
@ -178,6 +178,17 @@ def get_release_date(metadata):
        return min(dates)
 def get_keywords(metadata):
    try:
        keywords = [
            row['rowTitle']
            for row in metadata['props']['pageProps']['contentData']['section']['items']
        ]
    except:
        keywords = []
    return keywords
 def get_entity_metadata(metadata):
    data = {}
    entity = metadata['props']['pageProps']['contentData']['entityMetadata']
@ -276,11 +287,6 @@ class Imdb(SiteParser):
        'gross': zebra_table('Cumulative Worldwide Gross', more=[
            lambda data: find_re(decode_html(data).replace(',', ''), '\d+')
        ], type='int'),
        'keyword': {
            'page': 'keywords',
            're': 'data-item-keyword="(.*?)"',
            'type': 'list'
        },
        'language': zebra_list('Language', more=['<a.*?>(.*?)</a>']),
        'originalTitle': {
            'page': 'releaseinfo',
@ -543,6 +549,11 @@ class Imdb(SiteParser):
        if releasedate:
            self['releasedate'] = releasedate
        metadata = self.get_page_data('keywords')
        keywords = get_keywords(metadata)
        if keywords:
            self['keywords'] = keywords
        if 'summary' not in self and 'storyline' in self:
            self['summary'] = self.pop('storyline')
        if 'summary' in self: