go to bottom
Завсегдатай


1142 990
Дмитров
28 мин.

IT-шники на форуме есть? или "а сделайте выборку по странам..."

А вот, что-то, зацепила задачка, заданная Дмитрием в теме "Результаты IAPLС 2019"
Результаты IAPLC 2019


Кашкаров Дмитрий
а сделайте выборку по странам из 100 интересно посмотреть)))


На первый взгляд, вроде, всё просто:
1.Берем PDF
http://en.iaplc.com/...
2.Тупо копируем из него всю информацию в Эксель, и дальше делай любые выборки, диаграммы...

Но, не тут то было: Из PDF копируется полный фарш, да еще и всё в одну ячейку, а это совсем не ожидаемая таблица...

У самого варианты решения есть, но как-то оно совсем не красиво, из серии "правой рукой в левый карман, да еще и со спины и за несколько итераций"...
Может, кому еще интересно подумать?
2019-08-1717/08/2019 23:22:21
#2665089
Советник



10447 6015
Москва
12 мин.

AxelV

Копируем в текстовый файл, расставляем разделительный символ, например, табуляцию, сохраняем в CSV, импортируем в Excel
2019-08-1717/08/2019 23:29:56
#2665090
Завсегдатай


1142 990
Дмитров
28 мин.

Константин Кучеренко

Это в теории или ожидаемый результат на практике получен?
(просто у меня идея была похожая, но копировал в Word, а далее вышло совсем не то, что ожидал...)
2019-08-1717/08/2019 23:34:38
#2665091
Завсегдатай


1142 990
Дмитров
28 мин.

Кстати, действительно, с сохранением PDF в текст, действительно, геморроя получается поменьше, чем с копированием содержимого из PDF в Word через буфер обмена.

А вот, что имеется ввиду под "расставляем разделительный символ, например, табуляцию"?
- замена пробелов на таб?

2019-08-1717/08/2019 23:50:32
#2665096
Завсегдатай


1348 465
Муром
1 мин.

AxelV

CSV-файл - это текстовый файл, в котором содержится информация.
Каждая строка - это отдельная строка таблицы, а столбцы отделены один от другого специальными символами - разделителями (например, запятой).
В последнее время разделителем может быть не только запятая, но и другие символы (пробел, точка с запятой, табуляция, другое).

Например,
86;Alexander Maletin;Russia
263;Mikhail Goryaev;Russia
275;Vyacheslav Kryshtopa;Russia
327;Dmitry Parshin;Russia
331;Sergey Lomakin;Russia
336;Oleg Matsevich;Russia
400;Sergey Bezdenezhnykh;Russia
488;Evgeny Sukhorukov;Russia
505;Sergey Lobanov;Russia
841;Aleksandr Boykov;Russia
842;Ilnaz Bilalov;Russia
946;Andrew Amelichev;Russia
983;Rinat Giniyatov;Russia
1077;Ilya Shumilov;Russia
1281;Andrey Zharanov;Russia

Его можно открыть в Excel, указав ";" в качестве разделителя.
В результате каждая строка будет разложена в три ячейки.
2019-08-1718/08/2019 00:01:45
#2665099
Завсегдатай


1142 990
Дмитров
28 мин.

IgorPriv

Либо проблема в дремучем Office 2003, который у меня на домашнем ПК, либо, я просто не понимаю, как в текстовом файле (в который, действительно, можно сохранить из PDF) АВТОМАТИЧЕСКИ расставить эти разделители столбцов.
Сейчас вижу в нем только пробелы - а это может быть как признак разделения столбца, так и пробел, разделяющий фамилию и имя, либо название страны из нескольких слов...
2019-08-1718/08/2019 00:17:59
#2665102
Советник



10447 6015
Москва
12 мин.

подождите, сейчас все сделаю

Ловите:
https://cloud.mail.r...
Сделал все в три колонки: номер, имя, страна
Интересно, что два номера тупо отсутствовали. Я назвал их unknown и unknown1

Немного исправил файл

Изменено автор Константин Кучеренко

2019-08-1718/08/2019 00:19:41
#2665104
Советник



4231 5105
Russian Federation Moscow
32 сек.

Константин Кучеренко

Всегда восхищался теми, кто так ловко управляется с компьютерной обработкой информации!
2019-08-1718/08/2019 00:44:43
#2665106
Завсегдатай


1142 990
Дмитров
28 мин.

Константин Кучеренко

1. Спасибо.
2. Результат - то получить я и сам смог, но, как-то совсем криво и наполовину вручную. Больше интересовал нормальный процесс его получения, а здесь у меня какой-то затык... Похоже, старый MS-офис, действительно, многое не может, да и в CSV сохранить тоже...

А про два отсутствующих номера, там в конце текста было:
*World ranking 1500th and 1515th are vacant numbers.

Изменено автор AxelV
2019-08-1718/08/2019 00:47:02
#2665107
Советник



10447 6015
Москва
12 мин.


кто так ловко управляется с компьютерной обработкой информации!

Обычно такие умения появляются не от хорошей жизни.
2019-08-1718/08/2019 00:47:10
#2665108
Нравится Искатель2.0
Советник



4231 5105
Russian Federation Moscow
32 сек.

Константин Кучеренко

Не очень понял что кроется за этой фразой.
Но вот мне совсем не помешали бы эти ЗУНы, да только, видать, туп я в этой области - приходится обращаться к умельцам...
2019-08-1718/08/2019 00:50:31
#2665110
Советник



10447 6015
Москва
12 мин.

Notozus
Не очень понял что кроется за этой фразой.


Когда нужно срочно переработать огромный массив плохо структурированных данных, приходится научиться искать закономерности и как-то автоматизировать.

Нашел несколько ошибок, исправил:

https://cloud.mail.r...

Изменено автор Константин Кучеренко
2019-08-1818/08/2019 01:04:39
#2665112
Советник



10447 6015
Москва
12 мин.

AxelV

Теперь ждем от вас интересную статистику.
2019-08-1818/08/2019 01:15:49
#2665115
Завсегдатай


1142 990
Дмитров
28 мин.

Константин Кучеренко
интересную статистику


Статистика-та она, конечно, вот:


Но, интересна была совсем не она, а только способ её получения.


Кстати, а из картинки в *.CSV тоже сможете?

Изменено автор AxelV
2019-08-1818/08/2019 01:38:00
#2665117
Советник



10447 6015
Москва
12 мин.

AxelV
Статистика-та она, конечно, вот:

Можно еще получить отношение среднего рейтинга по стране к общему количеству участников из данной страны.
2019-08-1818/08/2019 01:43:21
#2665118
Советник



10447 6015
Москва
12 мин.

AxelV
Кстати, а из картинки в *.CSV тоже сможете?

Тут уже распознавание текста, возни будет больше.
2019-08-1818/08/2019 01:54:57
#2665121
Завсегдатай


1142 990
Дмитров
28 мин.

Константин Кучеренко
отношение среднего рейтинга по стране к общему количеству участников из данной страны

Впринципе, средний рейтинг, в данном случае, это что-то не очень информативное (при небольшом количестве участников от страны, попавших в 100:
допустим, 2 участника, один занял 1е место, 2й - 99е: в среднем 50е- какой вывод?)
да и СРЕДНИЙ рейтинг, как-то нелогично еще раз делить на количество участников.

А вот количество участников от страны, попавших в 100, было предложено трактовать, как % продаж в данном регионе.
2019-08-1818/08/2019 02:32:35
#2665128
Посетитель


176 36
Сосновый Бор
14 час.

Пару раз перечитал тему: так и не понял чего хотят добиться?
Вроде-бы пытаются из пдф вытащить таблицу и вставить в эксель? А почему нельзя сразу сделать её в экселе?
Растолкуйте пожалуйста, что тут пытаются сделать. Вдруг смогу помочь. Я не айтишник конечно, но работа связана с работой на компе. На сколько знаю ПДФ - был специально разработан для просмотра документов в электроне, американские служащие при просмотре вордовских файлов - изменяли их (нечаянно) и документ попадал к другому служащему уже изменённым.
У нас на предприятии порядка 100 компов в сети. У пользователей есть общая папка для обмена инфой. Как-то возникла необходимость предоставить всем пользователям образцы документов(со всякими там бланками /таблицами), необходимых им в работе. Чтобы они ничего не наисправляли в оригинале, я положил для ознакомления не оригинал в Ворде, а переделал его в ПДФ. Теперь они не могли ничего в документе поменять, но могли накопировать себе в свои вордовские файлики из ПДФ нужные таблички.

Изменено автор Искатель2.0

AxelV

"средний рейтинг" - это наверно как средняя температура по больнице: у кого-то 36и6, у кого-то 34и6 (остывающий труп), у кого-то 38и6(сильный жар) - в среднем 36и6 - все здоровы!
2019-08-1818/08/2019 07:07:09
#2665143
Завсегдатай


1142 990
Дмитров
28 мин.

Искатель2.0
не понял чего хотят добиться?
...из пдф вытащить таблицу и вставить в эксель? А почему нельзя сразу сделать её в экселе?

Да, вытащить таблицу в эксель, но именно из данного, конкретного PDF по ссылке в 1м посте.
Далее, задача автоматически подсчитать количество работ от каждой страны, попавших в 1ю сотню рейтинга, и, если есть желание, еще и средний рейтинг по каждой из этих стран.

А сделать сразу в экселе - нельзя, потому, что её уже сделали в PDF.
2019-08-1818/08/2019 09:17:09
#2665153
Советник



10447 6015
Москва
12 мин.

AxelV
А вот количество участников от страны, попавших в 100, было предложено трактовать, как % продаж в данном регионе.

Но от количества участников это тоже зависит. Тогда наверно показательным будет отношение количества людей, попавших в сотню, к общему количеству участников из данной страны.
2019-08-1818/08/2019 10:10:14
#2665162
Нравится AxelV
Свой на Aqa.ru


2878 1282
Долгопрудный
21
3 час.

64 Юго-Восток и остальные, где очень развита Адская школа, особенно Бразилия.... Ну, что тут скажешь еще.....

2019-08-1818/08/2019 10:34:37
#2665168



Top