Как оптимальным образом прочитать текстовый файл?

Lancelot · Сообщение **Lancelot** » 19 июл 2011, 07:59

Добрый день!
Предыстория: необходимо склеить несколько файлов (размером под 100мб, кол-во строк несколько миллионов ) в один, где каждому столбцу будет соответствовать файл. Во время чтения данных также необходимо производить обработку данных, в результате которой объем данных из файлов увеличивается еще сильнее (процедура ресемплирования)

Вопрос: как оптимальным образом реализовать считывание данных, чтобы весь процесс обработки занимал как можно меньшее время и использовал достаточно ограниченные ресурсы памяти?

пы.сы. текстовый файл - вынужденная мера, в дальнейшем будут использоваться бинарные
Спасибо.

Сообщение **Eugen Graf** » 19 июл 2011, 08:06

Привет! Это зависит от вида обработки данных.
Такой вариант:
открываешь все файлы и в цикле считываешь из каждого допустим 10 строк (Read Text File имеет такую опцию, где задаёшь количество строк для чтения), высчитываешь среднее арифметическое (или что там тебе нужно) склеиваешь в одну строку и записываешь её в другой файл.

Lancelot · Сообщение **Lancelot** » 19 июл 2011, 08:17

Ну то, что читать по кускам это понятно)))) Обработка заключается в приведении данных к единому времени (для этого и используется ресемплирование и интерполяция)
Да, считывание всех файлов в одном цикле не могу реализовать, т.к. первая строка первого файла не соответствует первой строке второго файла и тд. Таким образом мне необходимо начала найти в файлах общую точку, а затем уже их склеивать. В параллельных циклах я это реализовал. только вот долго это все работает

Сообщение **Eugen Graf** » 19 июл 2011, 08:29

Так ты делаешь моё актуальное задание :-) Только у меня файлы два текстовых и один бинарный помноженное на три источника (итого 9 файлов) с разными частотами. Нужно делать то же самое - привести все файлы к общему времени и общей заданной частоте с помощью интерполяции.
Да, сначала ищешь общую точку времени и запоминаешь её. Потом создаёшь свой интервал (растр) времени, к которому ты будешь интерполировать. Ну и далее из каждого файла считываешь куски (размеры кусков зависят от частоты) и интерполируешь.

Lancelot · Сообщение **Lancelot** » 19 июл 2011, 09:23

не, у меня попроще))) Частота 4 Гц, но период опроса на датчиках немного плавает (микросекунды). Нет общего синхросигнала, поэтому приходится сводить все данные к единой шкале (интерполяция при таких частотах вполне себе допустима). Я беру одну шкалу времени, а остальные разбиваю, чтобы стало 10 отсчетов на 1мс (при том, что точность сведения равна 1мс), ну и далее уже склеиваю.

Можно поподробнее о поиске начального времени? Сейчас я читаю файл (упорядочивание по имени позволяет выбрать самый поздний - а значит и опорный - файл и найти начальную точку для всех файлов), ищу самое маленькое время конца записи и по нему обрезаю остальные, а далее идет сведение. чтение на данный момент идет не кусками, что очень меня огорчает))

Сообщение **Eugen Graf** » 19 июл 2011, 09:33

Примерно так: считываешь из всех файлов первую строку (начальное время) и последнюю строку (конечное время). Из первого находишь максимум из последнего минимум. Это твой общий промежуток времени (остальное "обрезается"). Его разбиваешь на временной растр с заданной частотой. И к этому растру интерполируешь все файлы, по кусочкам.

Lancelot · Сообщение **Lancelot** » 19 июл 2011, 09:38

а тут возникает неожиданный для самого себя вопрос: как по-быстрому считать последнюю запись?)))

Сообщение **Eugen Graf** » 19 июл 2011, 10:01

Угу, интересный вопрос. Просто переставляешь File Position на какое то количество байт (больше длины одной строки) с конца и пытаешься считать одну строку и преобразовать данные. Если ошибки не выскакивает, то вот и она, последняя строка.

Lancelot · Сообщение **Lancelot** » 19 июл 2011, 16:05

гыгыгы, я думал что это достаточно извращенный метод, ан нет))) завтра буду пробовать, спасибо

рекомендую ознакомиться с темой

http://labviewportal.org/viewtopic.php?f=142&t=2761

Lancelot · Сообщение **Lancelot** » 25 июл 2011, 14:14

в общем решил я свою задачу для случая с двумя файлами, все работает нормально. Но когда взялся за масштабирование, чтобы с различным числом файлов работать, наткнулся на проблему:
я данные, считанные из файла, передаю в очередь (для каждого файла своя очередь) и обрабатываю их в параллельном цикле. В итоге ссылка на первую очередь почему-то получается битая.
Есть мнение, что такое получается из-за одновременного обращения на запись и чтение элемента очереди. Так ли это и если так, то как такого можно избежать?

Сообщение **IvanLis** » 25 июл 2011, 17:16

Lancelot писал(а):Есть мнение, что такое получается из-за одновременного обращения на запись и чтение элемента очереди. Так ли это и если так, то как такого можно избежать?

А наименование "очереди" не повторяется случайно?
Или может Вы уничтожаете ее раньше времени?

Должна же какая-то ошибка выдаваться... на что ругается?

Lancelot · Сообщение **Lancelot** » 25 июл 2011, 21:12

этого точно не происходит. Имя очереди формируется автоматически: file i
уничтожение происходит гораздо позже. Причем при проверке на двух файлах первый элемент - not refnum, зато второй file 2 как и положено (в первом случае извлекаю 0 элемент массива, во втором - первый)

Lancelot · Сообщение **Lancelot** » 26 июл 2011, 13:54

Дело было не в бабине... осторожнее используйте Array AND, он возвращает истину не только когда все значения равны 1, но и когда массив значений пустой. На этом то я и накололся) Очереди закрывались, а я не понимал почему

Как оптимальным образом прочитать текстовый файл?

Как оптимальным образом прочитать текстовый файл?

Re: Как оптимальным образом прочитать текстовый файл?

Re: Как оптимальным образом прочитать текстовый файл?

Re: Как оптимальным образом прочитать текстовый файл?

Re: Как оптимальным образом прочитать текстовый файл?

Re: Как оптимальным образом прочитать текстовый файл?

Re: Как оптимальным образом прочитать текстовый файл?

Re: Как оптимальным образом прочитать текстовый файл?

Re: Как оптимальным образом прочитать текстовый файл?

Re: Как оптимальным образом прочитать текстовый файл?

Re: Как оптимальным образом прочитать текстовый файл?

Re: Как оптимальным образом прочитать текстовый файл?

Re: Как оптимальным образом прочитать текстовый файл?

Re: Как оптимальным образом прочитать текстовый файл?