go to bottom
Завсегдатай


1139 989
Дмитров
9 сек.

IT-шники на форуме есть? или "а сделайте выборку по странам..."

А вот, что-то, зацепила задачка, заданная Дмитрием в теме "Результаты IAPLС 2019"
Результаты IAPLC 2019


Кашкаров Дмитрий
а сделайте выборку по странам из 100 интересно посмотреть)))


На первый взгляд, вроде, всё просто:
1.Берем PDF
http://en.iaplc.com/...
2.Тупо копируем из него всю информацию в Эксель, и дальше делай любые выборки, диаграммы...

Но, не тут то было: Из PDF копируется полный фарш, да еще и всё в одну ячейку, а это совсем не ожидаемая таблица...

У самого варианты решения есть, но как-то оно совсем не красиво, из серии "правой рукой в левый карман, да еще и со спины и за несколько итераций"...
Может, кому еще интересно подумать?
2019-08-1717/08/2019 23:22:21
#2665089
Советник



10155 5751
Москва
11 мин.

AxelV

Копируем в текстовый файл, расставляем разделительный символ, например, табуляцию, сохраняем в CSV, импортируем в Excel
2019-08-1717/08/2019 23:29:56
#2665090
Завсегдатай


1139 989
Дмитров
9 сек.

Константин Кучеренко

Это в теории или ожидаемый результат на практике получен?
(просто у меня идея была похожая, но копировал в Word, а далее вышло совсем не то, что ожидал...)
2019-08-1717/08/2019 23:34:38
#2665091
Завсегдатай


1139 989
Дмитров
9 сек.

Кстати, действительно, с сохранением PDF в текст, действительно, геморроя получается поменьше, чем с копированием содержимого из PDF в Word через буфер обмена.

А вот, что имеется ввиду под "расставляем разделительный символ, например, табуляцию"?
- замена пробелов на таб?

2019-08-1717/08/2019 23:50:32
#2665096
Завсегдатай


1321 441
Муром
3 мин.

AxelV

CSV-файл - это текстовый файл, в котором содержится информация.
Каждая строка - это отдельная строка таблицы, а столбцы отделены один от другого специальными символами - разделителями (например, запятой).
В последнее время разделителем может быть не только запятая, но и другие символы (пробел, точка с запятой, табуляция, другое).

Например,
86;Alexander Maletin;Russia
263;Mikhail Goryaev;Russia
275;Vyacheslav Kryshtopa;Russia
327;Dmitry Parshin;Russia
331;Sergey Lomakin;Russia
336;Oleg Matsevich;Russia
400;Sergey Bezdenezhnykh;Russia
488;Evgeny Sukhorukov;Russia
505;Sergey Lobanov;Russia
841;Aleksandr Boykov;Russia
842;Ilnaz Bilalov;Russia
946;Andrew Amelichev;Russia
983;Rinat Giniyatov;Russia
1077;Ilya Shumilov;Russia
1281;Andrey Zharanov;Russia

Его можно открыть в Excel, указав ";" в качестве разделителя.
В результате каждая строка будет разложена в три ячейки.
2019-08-1718/08/2019 00:01:45
#2665099
Завсегдатай


1139 989
Дмитров
9 сек.

IgorPriv

Либо проблема в дремучем Office 2003, который у меня на домашнем ПК, либо, я просто не понимаю, как в текстовом файле (в который, действительно, можно сохранить из PDF) АВТОМАТИЧЕСКИ расставить эти разделители столбцов.
Сейчас вижу в нем только пробелы - а это может быть как признак разделения столбца, так и пробел, разделяющий фамилию и имя, либо название страны из нескольких слов...
2019-08-1718/08/2019 00:17:59
#2665102
Советник



10155 5751
Москва
11 мин.

подождите, сейчас все сделаю

Ловите:
https://cloud.mail.r...
Сделал все в три колонки: номер, имя, страна
Интересно, что два номера тупо отсутствовали. Я назвал их unknown и unknown1

Немного исправил файл

Изменено автор Константин Кучеренко

2019-08-1718/08/2019 00:19:41
#2665104
Советник



3990 4673
Russian Federation Moscow
4 час.

Константин Кучеренко

Всегда восхищался теми, кто так ловко управляется с компьютерной обработкой информации!
2019-08-1718/08/2019 00:44:43
#2665106
Завсегдатай


1139 989
Дмитров
9 сек.

Константин Кучеренко

1. Спасибо.
2. Результат - то получить я и сам смог, но, как-то совсем криво и наполовину вручную. Больше интересовал нормальный процесс его получения, а здесь у меня какой-то затык... Похоже, старый MS-офис, действительно, многое не может, да и в CSV сохранить тоже...

А про два отсутствующих номера, там в конце текста было:
*World ranking 1500th and 1515th are vacant numbers.

Изменено автор AxelV
2019-08-1718/08/2019 00:47:02
#2665107
Советник



10155 5751
Москва
11 мин.


кто так ловко управляется с компьютерной обработкой информации!

Обычно такие умения появляются не от хорошей жизни.
2019-08-1718/08/2019 00:47:10
#2665108
Нравится Искатель2.0
Советник



3990 4673
Russian Federation Moscow
4 час.

Константин Кучеренко

Не очень понял что кроется за этой фразой.
Но вот мне совсем не помешали бы эти ЗУНы, да только, видать, туп я в этой области - приходится обращаться к умельцам...
2019-08-1718/08/2019 00:50:31
#2665110
Советник



10155 5751
Москва
11 мин.

Notozus
Не очень понял что кроется за этой фразой.


Когда нужно срочно переработать огромный массив плохо структурированных данных, приходится научиться искать закономерности и как-то автоматизировать.

Нашел несколько ошибок, исправил:

https://cloud.mail.r...

Изменено автор Константин Кучеренко
2019-08-1818/08/2019 01:04:39
#2665112
Советник



10155 5751
Москва
11 мин.

AxelV

Теперь ждем от вас интересную статистику.
2019-08-1818/08/2019 01:15:49
#2665115
Завсегдатай


1139 989
Дмитров
9 сек.

Константин Кучеренко
интересную статистику


Статистика-та она, конечно, вот:


Но, интересна была совсем не она, а только способ её получения.


Кстати, а из картинки в *.CSV тоже сможете?

Изменено автор AxelV
2019-08-1818/08/2019 01:38:00
#2665117
Советник



10155 5751
Москва
11 мин.

AxelV
Статистика-та она, конечно, вот:

Можно еще получить отношение среднего рейтинга по стране к общему количеству участников из данной страны.
2019-08-1818/08/2019 01:43:21
#2665118
Советник



10155 5751
Москва
11 мин.

AxelV
Кстати, а из картинки в *.CSV тоже сможете?

Тут уже распознавание текста, возни будет больше.
2019-08-1818/08/2019 01:54:57
#2665121
Завсегдатай


1139 989
Дмитров
9 сек.

Константин Кучеренко
отношение среднего рейтинга по стране к общему количеству участников из данной страны

Впринципе, средний рейтинг, в данном случае, это что-то не очень информативное (при небольшом количестве участников от страны, попавших в 100:
допустим, 2 участника, один занял 1е место, 2й - 99е: в среднем 50е- какой вывод?)
да и СРЕДНИЙ рейтинг, как-то нелогично еще раз делить на количество участников.

А вот количество участников от страны, попавших в 100, было предложено трактовать, как % продаж в данном регионе.
2019-08-1818/08/2019 02:32:35
#2665128
Посетитель


157 26
Сосновый Бор
2 дн.

Пару раз перечитал тему: так и не понял чего хотят добиться?
Вроде-бы пытаются из пдф вытащить таблицу и вставить в эксель? А почему нельзя сразу сделать её в экселе?
Растолкуйте пожалуйста, что тут пытаются сделать. Вдруг смогу помочь. Я не айтишник конечно, но работа связана с работой на компе. На сколько знаю ПДФ - был специально разработан для просмотра документов в электроне, американские служащие при просмотре вордовских файлов - изменяли их (нечаянно) и документ попадал к другому служащему уже изменённым.
У нас на предприятии порядка 100 компов в сети. У пользователей есть общая папка для обмена инфой. Как-то возникла необходимость предоставить всем пользователям образцы документов(со всякими там бланками /таблицами), необходимых им в работе. Чтобы они ничего не наисправляли в оригинале, я положил для ознакомления не оригинал в Ворде, а переделал его в ПДФ. Теперь они не могли ничего в документе поменять, но могли накопировать себе в свои вордовские файлики из ПДФ нужные таблички.

Изменено автор Искатель2.0

AxelV

"средний рейтинг" - это наверно как средняя температура по больнице: у кого-то 36и6, у кого-то 34и6 (остывающий труп), у кого-то 38и6(сильный жар) - в среднем 36и6 - все здоровы!
2019-08-1818/08/2019 07:07:09
#2665143
Завсегдатай


1139 989
Дмитров
9 сек.

Искатель2.0
не понял чего хотят добиться?
...из пдф вытащить таблицу и вставить в эксель? А почему нельзя сразу сделать её в экселе?

Да, вытащить таблицу в эксель, но именно из данного, конкретного PDF по ссылке в 1м посте.
Далее, задача автоматически подсчитать количество работ от каждой страны, попавших в 1ю сотню рейтинга, и, если есть желание, еще и средний рейтинг по каждой из этих стран.

А сделать сразу в экселе - нельзя, потому, что её уже сделали в PDF.
2019-08-1818/08/2019 09:17:09
#2665153
Советник



10155 5751
Москва
11 мин.

AxelV
А вот количество участников от страны, попавших в 100, было предложено трактовать, как % продаж в данном регионе.

Но от количества участников это тоже зависит. Тогда наверно показательным будет отношение количества людей, попавших в сотню, к общему количеству участников из данной страны.
2019-08-1818/08/2019 10:10:14
#2665162
Нравится AxelV
Свой на Aqa.ru


2854 1270
Долгопрудный
21
3 дн.

64 Юго-Восток и остальные, где очень развита Адская школа, особенно Бразилия.... Ну, что тут скажешь еще.....

2019-08-1818/08/2019 10:34:37
#2665168



Top