go to bottom
Завсегдатай
Аквафорум рыбкаАквафорум рыбкаАквафорум рыбкаАквафорум рыбка
Аватар пользователя

1727 1811
Дмитров
2 дн.

IT-шники на форуме есть? или "а сделайте выборку по странам..."

А вот, что-то, зацепила задачка, заданная Дмитрием в теме "Результаты IAPLС 2019"
Результаты IAPLC 2019


Кашкаров Дмитрий
а сделайте выборку по странам из 100 интересно посмотреть)))


На первый взгляд, вроде, всё просто:
1.Берем PDF
http://en.iaplc.com/...
2.Тупо копируем из него всю информацию в Эксель, и дальше делай любые выборки, диаграммы...

Но, не тут то было: Из PDF копируется полный фарш, да еще и всё в одну ячейку, а это совсем не ожидаемая таблица...

У самого варианты решения есть, но как-то оно совсем не красиво, из серии "правой рукой в левый карман, да еще и со спины и за несколько итераций"...
Может, кому еще интересно подумать?
2019-08-1717/08/2019 23:22:21
#2665089
Модератор , Советник
Советник аквафорума

Аватар пользователя

17148 12552
Москва
37 мин.

AxelV

Копируем в текстовый файл, расставляем разделительный символ, например, табуляцию, сохраняем в CSV, импортируем в Excel
2019-08-1717/08/2019 23:29:56
#2665090
Завсегдатай
Аквафорум рыбкаАквафорум рыбкаАквафорум рыбкаАквафорум рыбка
Аватар пользователя

1727 1811
Дмитров
2 дн.

Константин Кучеренко

Это в теории или ожидаемый результат на практике получен?
(просто у меня идея была похожая, но копировал в Word, а далее вышло совсем не то, что ожидал...)
2019-08-1717/08/2019 23:34:38
#2665091
Завсегдатай
Аквафорум рыбкаАквафорум рыбкаАквафорум рыбкаАквафорум рыбка
Аватар пользователя

1727 1811
Дмитров
2 дн.

Кстати, действительно, с сохранением PDF в текст, действительно, геморроя получается поменьше, чем с копированием содержимого из PDF в Word через буфер обмена.

А вот, что имеется ввиду под "расставляем разделительный символ, например, табуляцию"?
- замена пробелов на таб?

2019-08-1717/08/2019 23:50:32
#2665096
Свой на Aqa.ru
Аквафорум рыбкаАквафорум рыбкаАквафорум рыбкаАквафорум рыбкаАквафорум рыбка
Аватар пользователя

2804 1542
Муром
2 мес.

AxelV

CSV-файл - это текстовый файл, в котором содержится информация.
Каждая строка - это отдельная строка таблицы, а столбцы отделены один от другого специальными символами - разделителями (например, запятой).
В последнее время разделителем может быть не только запятая, но и другие символы (пробел, точка с запятой, табуляция, другое).

Например,
86;Alexander Maletin;Russia
263;Mikhail Goryaev;Russia
275;Vyacheslav Kryshtopa;Russia
327;Dmitry Parshin;Russia
331;Sergey Lomakin;Russia
336;Oleg Matsevich;Russia
400;Sergey Bezdenezhnykh;Russia
488;Evgeny Sukhorukov;Russia
505;Sergey Lobanov;Russia
841;Aleksandr Boykov;Russia
842;Ilnaz Bilalov;Russia
946;Andrew Amelichev;Russia
983;Rinat Giniyatov;Russia
1077;Ilya Shumilov;Russia
1281;Andrey Zharanov;Russia

Его можно открыть в Excel, указав ";" в качестве разделителя.
В результате каждая строка будет разложена в три ячейки.
2019-08-1718/08/2019 00:01:45
#2665099
Завсегдатай
Аквафорум рыбкаАквафорум рыбкаАквафорум рыбкаАквафорум рыбка
Аватар пользователя

1727 1811
Дмитров
2 дн.

IgorPriv

Либо проблема в дремучем Office 2003, который у меня на домашнем ПК, либо, я просто не понимаю, как в текстовом файле (в который, действительно, можно сохранить из PDF) АВТОМАТИЧЕСКИ расставить эти разделители столбцов.
Сейчас вижу в нем только пробелы - а это может быть как признак разделения столбца, так и пробел, разделяющий фамилию и имя, либо название страны из нескольких слов...
2019-08-1718/08/2019 00:17:59
#2665102
Модератор , Советник
Советник аквафорума

Аватар пользователя

17148 12552
Москва
37 мин.

подождите, сейчас все сделаю

Ловите:
https://cloud.mail.r...
Сделал все в три колонки: номер, имя, страна
Интересно, что два номера тупо отсутствовали. Я назвал их unknown и unknown1

Немного исправил файл

Изменено автор Константин Кучеренко

2019-08-1718/08/2019 00:19:41
#2665104
Свой на Aqa.ru, Советник
Советник аквафорума

Аватар пользователя

8144 13633
Russian Federation Moscow
1 час.

Константин Кучеренко

Всегда восхищался теми, кто так ловко управляется с компьютерной обработкой информации!
2019-08-1718/08/2019 00:44:43
#2665106
Завсегдатай
Аквафорум рыбкаАквафорум рыбкаАквафорум рыбкаАквафорум рыбка
Аватар пользователя

1727 1811
Дмитров
2 дн.

Константин Кучеренко

1. Спасибо.
2. Результат - то получить я и сам смог, но, как-то совсем криво и наполовину вручную. Больше интересовал нормальный процесс его получения, а здесь у меня какой-то затык... Похоже, старый MS-офис, действительно, многое не может, да и в CSV сохранить тоже...

А про два отсутствующих номера, там в конце текста было:
*World ranking 1500th and 1515th are vacant numbers.

Изменено автор AxelV
2019-08-1718/08/2019 00:47:02
#2665107
Модератор , Советник
Советник аквафорума

Аватар пользователя

17148 12552
Москва
37 мин.


кто так ловко управляется с компьютерной обработкой информации!

Обычно такие умения появляются не от хорошей жизни.
2019-08-1718/08/2019 00:47:10
#2665108
Нравится Искатель2.0
Свой на Aqa.ru, Советник
Советник аквафорума

Аватар пользователя

8144 13633
Russian Federation Moscow
1 час.

Константин Кучеренко

Не очень понял что кроется за этой фразой.
Но вот мне совсем не помешали бы эти ЗУНы, да только, видать, туп я в этой области - приходится обращаться к умельцам...
2019-08-1718/08/2019 00:50:31
#2665110
Модератор , Советник
Советник аквафорума

Аватар пользователя

17148 12552
Москва
37 мин.

Notozus
Не очень понял что кроется за этой фразой.


Когда нужно срочно переработать огромный массив плохо структурированных данных, приходится научиться искать закономерности и как-то автоматизировать.

Нашел несколько ошибок, исправил:

https://cloud.mail.r...

Изменено автор Константин Кучеренко
2019-08-1818/08/2019 01:04:39
#2665112
Модератор , Советник
Советник аквафорума

Аватар пользователя

17148 12552
Москва
37 мин.

AxelV

Теперь ждем от вас интересную статистику.
2019-08-1818/08/2019 01:15:49
#2665115
Завсегдатай
Аквафорум рыбкаАквафорум рыбкаАквафорум рыбкаАквафорум рыбка
Аватар пользователя

1727 1811
Дмитров
2 дн.

Константин Кучеренко
интересную статистику


Статистика-та она, конечно, вот:
IT-шники на форуме есть? или "а сделайте выборку по странам..."


Но, интересна была совсем не она, а только способ её получения. Смайлик :(


Кстати, а из картинки в *.CSV тоже сможете? Смайлик :) Смайлик :)

Изменено автор AxelV
2019-08-1818/08/2019 01:38:00
#2665117
Модератор , Советник
Советник аквафорума

Аватар пользователя

17148 12552
Москва
37 мин.

AxelV
Статистика-та она, конечно, вот:

Можно еще получить отношение среднего рейтинга по стране к общему количеству участников из данной страны.
2019-08-1818/08/2019 01:43:21
#2665118
Модератор , Советник
Советник аквафорума

Аватар пользователя

17148 12552
Москва
37 мин.

AxelV
Кстати, а из картинки в *.CSV тоже сможете?

Тут уже распознавание текста, возни будет больше.
2019-08-1818/08/2019 01:54:57
#2665121
Завсегдатай
Аквафорум рыбкаАквафорум рыбкаАквафорум рыбкаАквафорум рыбка
Аватар пользователя

1727 1811
Дмитров
2 дн.

Константин Кучеренко
отношение среднего рейтинга по стране к общему количеству участников из данной страны

Впринципе, средний рейтинг, в данном случае, это что-то не очень информативное (при небольшом количестве участников от страны, попавших в 100:
допустим, 2 участника, один занял 1е место, 2й - 99е: в среднем 50е- какой вывод?)
да и СРЕДНИЙ рейтинг, как-то нелогично еще раз делить на количество участников.

А вот количество участников от страны, попавших в 100, было предложено трактовать, как % продаж в данном регионе.
2019-08-1818/08/2019 02:32:35
#2665128


Аватар пользователя

194 50
Сосновый Бор
4 года

Пару раз перечитал тему: так и не понял чего хотят добиться?
Вроде-бы пытаются из пдф вытащить таблицу и вставить в эксель? А почему нельзя сразу сделать её в экселе?
Растолкуйте пожалуйста, что тут пытаются сделать. Вдруг смогу помочь. Я не айтишник конечно, но работа связана с работой на компе. На сколько знаю ПДФ - был специально разработан для просмотра документов в электроне, американские служащие при просмотре вордовских файлов - изменяли их (нечаянно) и документ попадал к другому служащему уже изменённым.
У нас на предприятии порядка 100 компов в сети. У пользователей есть общая папка для обмена инфой. Как-то возникла необходимость предоставить всем пользователям образцы документов(со всякими там бланками /таблицами), необходимых им в работе. Чтобы они ничего не наисправляли в оригинале, я положил для ознакомления не оригинал в Ворде, а переделал его в ПДФ. Теперь они не могли ничего в документе поменять, но могли накопировать себе в свои вордовские файлики из ПДФ нужные таблички.

Изменено автор Искатель2.0

AxelV

"средний рейтинг" - это наверно как средняя температура по больнице: у кого-то 36и6, у кого-то 34и6 (остывающий труп), у кого-то 38и6(сильный жар) - в среднем 36и6 - все здоровы!
2019-08-1818/08/2019 07:07:09
#2665143
Завсегдатай
Аквафорум рыбкаАквафорум рыбкаАквафорум рыбкаАквафорум рыбка
Аватар пользователя

1727 1811
Дмитров
2 дн.

Искатель2.0
не понял чего хотят добиться?
...из пдф вытащить таблицу и вставить в эксель? А почему нельзя сразу сделать её в экселе?

Да, вытащить таблицу в эксель, но именно из данного, конкретного PDF по ссылке в 1м посте.
Далее, задача автоматически подсчитать количество работ от каждой страны, попавших в 1ю сотню рейтинга, и, если есть желание, еще и средний рейтинг по каждой из этих стран.

А сделать сразу в экселе - нельзя, потому, что её уже сделали в PDF.
2019-08-1818/08/2019 09:17:09
#2665153
Модератор , Советник
Советник аквафорума

Аватар пользователя

17148 12552
Москва
37 мин.

AxelV
А вот количество участников от страны, попавших в 100, было предложено трактовать, как % продаж в данном регионе.

Но от количества участников это тоже зависит. Тогда наверно показательным будет отношение количества людей, попавших в сотню, к общему количеству участников из данной страны.
2019-08-1818/08/2019 10:10:14
#2665162
Нравится AxelV
На премодерации
Аквафорум рыбкаАквафорум рыбкаАквафорум рыбкаАквафорум рыбкаАквафорум рыбка
Аватар пользователя

4439 3962
Долгопрудный
9 дн.

64 Юго-Восток и остальные, где очень развита Адская школа, особенно Бразилия.... Ну, что тут скажешь еще.....

2019-08-1818/08/2019 10:34:37
#2665168



Польвователь
Польвователь
Польвователь
Польвователь
Польвователь
Польвователь
Польвователь
Польвователь
Польвователь
Польвователь
Польвователь
Top