Обговорення користувача:Thebot/USA
Додати темуДоброго вечора! Пане Rar, а Ваш бот біг би заливати статті про міста США, якщо б надати усі транскрипції назв? --MaryankoD (обговорення) 21:59, 2 квітня 2012 (UTC)
- Вітаю! Бот певно би міг, але зараз не маю часу йому "патрони підносити". Але ще подумаю. --Rar (обговорення) 05:58, 4 квітня 2012 (UTC)
Доброго дня, навіть, виявляється, нову тему і створювати не треба. Є ця, та ще й так зручно розташована . З огляду на обговорення тут, потенційно Ви все б могли взятися за міста і містечка США? Їх там доволі не вистачає (з огляду хоча б на таке, то тисяч 5, а то й 7, набереться), до того ж, якщо мова про міста, то наявність трьох десятків інтервік за відсутності нашої все ж не діло.
Якщо все ж візьметесь, то транслітерацію для усіх відсутніх статей я зроблю. Написав «підготовчий код», який проходить англомовною категорією, визначає, яких статей в нас нема, а також підтягує до їх назв транскрипцію (за наявності у статті) та назву статті в «одній із кириличних вікі». Поки запускав на міста Аляски, виходить отаке. На цій базі зробити транслітерацію українською багато часу в мене не забере. Треба буде лише визначити, в якому форматі Вам зручніше бачити таблицю відповідності англомовних і україномовних назв. Вікі-таблицею або, скажімо, csv? --Thevolodymyr (обговорення) 13:04, 8 травня 2019 (UTC)
- @Thevolodymyr:Вітаю! За міста візьмуся, але треба трохи часу на підготовчу роботу. Нп., спробував ботом зчитувати з англійських статей результати перепису і з першої спроби не вийшло - машинний текст вже встигли люди "попсути" - тут комусь не сподобався знак проценту, написав словами, там хтось змінив/забрав посилання і т.п. Але щось придумаю. Я не зрозумів яке отаке виходить? Воно десь в Японії.
- Щодо транслітерації, мені здавалось, що програмно + правка буде легше, "однотипніше" і дозволить відразу зробити список перенаправлень. У французьких назвах підправлялось до 10% назв. Якщо ж хочете руками, то IMHO треба пройтися всіма назвами і зібрати однакові з різних штатів щоб а) зробити дизамбіг, б) зменшити к-сть праці, в) випадково не транслітерувати по-різному. Транслітерувати вистачить саму назву без уточнень (town, округ, штат) - це бот зробить сам. Кінцевий формат у мене буде Python dic:
u"Eng" : [u"Укр", [u"Редирект1", u"Редирект2", ...], [u"Повна назва англійської статті 1", ...] ], u"Eng" : [u"Укр", [u"Редирект1", u"Редирект2", ...], [u"Повна назва англійської статті 1", ...] ],
- Можу цей словник зробити з вікі-таблиці, але добре якби була в однорідному форматі (кожна комірка у новому рядку)
|- | Eng | Укр | Редирект1, Редирект2, ... | [[Повна назва англійської статті 1]]<br/>[[Повна назва англійської статті 2]]<br/>... | Місце на коментарі |- ...
- Треба включити теж статті які мають українські відповідники, може придатися. Табличка може не зміститися в одну вікісторінку, можна поділити за першою літерою.
- Щодо перенаправлень, то бачу такі обов'язкові випадки:
- G->Г/Ґ,
- i->и/і (особливо якщо основний варіант "и"),
- дефіс/без дефісу (це можна не писати, бот сам додасть),
- подвоєння приголосних (можна не писати якщо основний варіант з подвоєнням)
- можливо H -> Г/Х, але тут не переконаний
- Мабуть треба зробити якісь підсторінки у Вікіпедія:Проект:Адміністративні одиниці країн світу/США. --Rar (обговорення) 11:57, 9 травня 2019 (UTC)
- Доброго дня і дякую за відповідь. Про «отаке» порадувало . Перепрошую, мова йшла звісно не про отаке, а про ось таке. Думаю, зможу відразу згенерувати словник для Пайтона. Поки що є два питання:
- Не зовсім зрозумів [u"Повна назва англійської статті 1", ...]. Нача ж в кожному випадка повна назва може бути лише одна?
- Треба мабуть «на березі» визначитися з тим, як іменувати статті. В англійців стандартизовано у форматі Назва (Штат). В нас, якща подивитися прописані міста Айдахо, стандартизації немає — зустрічаються назви статей без уточнення штату, а є такі, де з уточненням, хоча з огляду на унікальність назви нп, можна було обійтися й без нього (скажімо, Фернан-Лейк-Вілледж (Айдахо)). Особисто мені англомовни стандартизований формат вбачається вдалішим. --Thevolodymyr (обговорення) 13:10, 9 травня 2019 (UTC)
- У нас власний стандарт. Якщо Айдахо-Фоллс унікальна назва для населеного пункту, то в лапках нічого пояснювати не потрібно. Якщо ж в США півсотні Спрінгфілдів, то робляться пояснення в назві. А відхилення від власного стандарту з’явились через калькування англо-вікі. Робота з повним газетиром по країнах дозволить зменшити такі відхилення від стандарту. Якщо копіювати англійців, то потрібно тоді стандартизувати усі наявні вже населені пункти і не тільки по США. Звісно, якщо це енциклопедична робота, а не вправи з програмування.--Dim Grits 13:57, 19 травня 2019 (UTC)
- : @Thevolodymyr:Вважаю, що "Georgetown" треба транслітерувати один раз, а міста зі списку з en:Georgetown#United States це оті [u"Повна назва англійської статті 1", ...]. Тому й краще буде пробігтися по англійських статтях всіх штатів. Сподіваюся назв буде 2-3 рази менше ніж міст. Можу це зробити і сформувати щось на зразок
- Доброго дня і дякую за відповідь. Про «отаке» порадувало . Перепрошую, мова йшла звісно не про отаке, а про ось таке. Думаю, зможу відразу згенерувати словник для Пайтона. Поки що є два питання:
u"Georgetown" : [u"", [u"", u""], [u"Georgetown, Arkansas", u"Georgetown, Colorado",...] ],
- Думаю треба робити Назва (Штат) (будуть теж варіанти Назва (місто, Штат) якщо однойменне з округом). Це не зовсім за нашими правилами, але так назва статті стає інформативніша. На кінець можна буде ботом перевірити чи назва є унікальна і, якщо так, зробити редирект Назва -> Назва (Штат). Підозрюю, що знайдуться "буквоїди" правил і будуть перейменування, але з редиректами це не смертельно.
- При нагоді Фернан-Лейк-Вілледж (Айдахо): здається частіше транслітерується Вілладж, але можу помилятися--Rar (обговорення) 18:42, 9 травня 2019 (UTC)
- Доброго вечора. Трохи новин з цієї теми. Пройшовся ботом по категоріях Cities in ..., Towns in ... та Census-designated places in... Поки що потенціал цієї заливки виглядає отак:
Тип НП Є Нема CDPs 280 8233 cities 2353 7124 cities/towns (California) 192 290 towns 698 7171 Разом 3523 22818
- Це не враховуючи щонайменше міст Мічигану (порушення рекомендацій щодо категоризації, статті виключно в однойменних категоріях), а також міст і містечок Нью-Джерсі (категорії-контейнери, статті рознесені по підкатегоріях за округами). Крім того існують порівняно екзотичні типи НП (щонайменше en:Category:Boroughs in the United States by county, en:Category:Villages in the United States by county та en:Category:Townships in the United States by county). До цього планую повернутися трохи згодом, зараз думаю почати опрацьовувати те, що вже вивантажив.
- Принагідно питання — як Ви плануєте побудувати черговість заливки? За типами НП (міста, містечка, згодом решта типів), або за штатами, або ж взагалі однією хвилею (усі типи НП за абеткою)? Залежно від цього організую свою частину роботи. --Thevolodymyr (обговорення) 20:21, 10 травня 2019 (UTC)
- P.S. З вілладж категорично не можу погодитися. Воно ж /ˈvɪlɪd͡ʒ/, тобто виллидж (хай віллидж), ну вілледж ще сяк-так притягнути можна, але вілладж — це щось або з півночі Шотландії, або з південної півкулі, і то не певен .
- Я думав, що зробимо cities & towns. Але можна і CDPs, трапляються досить значні. Мабуть тоді і townships - вони, згідно з en:Template:Allen County, Indiana, вище за CDPs. Villages треба розбиратися що воно у них таке.
- Раніше я заливав відповідниками округів (штат за штатом), і, здається, так буде найкраще. Справа у тому, що в наповненні і оформленні англійського тексту є відмінності принаймні між штатами. Будемо пробувати підлаштовувати код. Така послідовність створює проблеми з транслітерацією - фактично потрібна вся відразу. Щоб трохи поділити це завдання пропоную спочатку ботом знайти всі дизамбіги (тільки повторювані назви в США, дизамбіги з іншими назвами виявляться після транслітерації). Залиємо чи доповнимо існуючі дизамбіги. А "унікальні" назви можна буде робити штатами.
- Про вілладж / вілледж / віллидж сперечатися не буду (en-2 ), але це віщує більш загальну проблему: Що робити з наявними статтями транслітерованими інакше ніж...?.--Rar (обговорення) 15:59, 11 травня 2019 (UTC)
- Розбиратись не потрібно, вже давно все розібрано. Існують поселення міські — urban і сільські — rural. Усі різновиди вкладаються в ці дві категорії. Cities & towns, як і villages в США не мають чіткого визначення ні чисельного, ні адміністративного, ні територіального. За англійською традицією часто це лише статус населеного пункту. Як Вестмінстер в Лондоні, давно вже район іншого міста, але статус зберігає. Можна використовувати українські відповідники міста і містечка, але це тільки заплутає при ботороботі й без ручної доробки, бо існують "містечка" за 100 тис. мешканців, і сіті менше 50 тис. Це призводить до чи не розуміння, чи змішування адмінодиниць з населеними пунктами. Наприклад, Буфорд, місто у Вайомінгу, визначене як "неінкорпорована територія". Цікавий би був результат такого підходу до такої цікавинки як село Алмонд у Нью-Йорку, що лежить одразу у двох графствах. Нормальний підхід зустрічається в статтях про європейські міста, де зазначено, що воно і населений пункт, і муніципалітет, відповідно категоризовано до двох різних категорій. Хоча часто у визначенні забули вікіфікувати слово «місто».
- Village в складі топонімів традиційно передається як «вілідж». Зараз використовують форму «віллідж».--Dim Grits 14:44, 19 травня 2019 (UTC)
Продовження обговорення
[ред. код]Доброго вечора, пане @Rar:. Зробив «поле для тренування» на прикладі Делаверу. З одного боку він найменший за кількістю НП, а з іншого ці НП дуже варіантивні: є 4 типи НП, включно із селищами (villages); багато вже прописаних; є різнотипні дізамбіги (існуючі, потенціцні, з/без уточненння значення); є існуючі статті з назвами, які для уніфікації бажано змінити на пропоновані мною). Принаймні мені ця варіантивність дозволила написати алгоритм, який, хочеться вірити, враховує всі можливі нюанси при формуванні списку статей.
Наразі реалізував вікітабличкою, яка містить моє бачення набору даних, які не будуть зайвими для Вашого бота. Джерелом для її формування є xls з усіма НП (cities, towns, CDPs), в який підтягнуті назви існуючих статей і в якому я додаю транслітерацію неіснуючих. На основі цього файлу можу «нарізати» будь-які csv, з яких формую ботом вікітабличку. Відповідно можу перелаштувати на формування замість неї пайтонівського словника, щоправда його структура, якщо лишати усі поля, буде заскладна як на мене.
Декілька коментарів до таблички:
- Намагався робити її максимально зручною для автоматичного считування. Єдиний елемент для ручної роботи — підсвічування кольором рядків, де стаття існує, але її назва не відповідає моєму баченню. До речі наразі існує купа випадків, коли одна й та ж англомовна назва вже передана по-різному в існуючих статтях. Тож планую проходитися вручну по «рожевому» і перейменовувати існуючі статті.
- Поле Дизамбіг заповнюється, лише якщо у моєму файлі (відповідно у США) існує два і більше однойменних НП. Тобто, якщо «дублікат» назви існує лише деінде, у мене це поле залишається порожнім. Зазвичай назва дизамбігу відповідає назві НП без уточнення штату. Якщо відповідна стаття існує, бот перевіряє, чи містить вона {{disambig}}, якщо ні (Глазго, Джорджтаун і т.п.), то додає (значення).
Подивіться, будь ласка, наскільки може бути зручним такий формат, аби я починав розширювати географію транслітерації. --Thevolodymyr (обговорення) 15:33, 14 травня 2019 (UTC)
- @Thevolodymyr: Вибачаюсь, останні кілька днів непланований цейтнот. Зараз трохи краще, а на початку червня повинно бути ще краще. Формат цілком "боточитабельний". Хотілося б, однак, почати з внутрішніх дизамбігів, що повинно і Вам зменшити кількість транслітерування. На мою думку, у вишуковуванні НП можуть допомогти шаблони у підкатегоріях en:Category:United States county templates. Щоправда, у цих шаблонах поля (групи) теж варіативні, але можна це покласифікувати на city/town/CDP/village/можливо ще щось. Я щойно нарис такого бота-розвідника зробив, думаю сьогодні дороблю. Якщо буде треба, остаточну перевірку типу можу робити при заливці дизамбігів за полем settlement_type в картці оригінальної статті.--Rar (обговорення) 07:42, 17 травня 2019 (UTC)
- @Rar:, дякую.
- Орієнтуємося на 4 типи НП? City/town/village/census-designated place? Якщо відразу на всіх орієнтуватися, буде мені більше роботи, однак гарантовано не «загубляться» дизамбіги у випадках, коли для якогось міста єдиною «тезкою» в США є CDP в іншому штаті. Township я детальніше подивився, його краще зараз не чіпати. Ця штука сильно різниться за штатами, в деяких вони є об'єднанням 2+ НП згаданих вище типів, десь зазначється, що НП є одночасно і township, і CDP. До того ж значна частина цих тауншипів навіть в англійців не прописана, а з тих, що прописані, багато без карток, лише абзац тексту і мапа. Також є НП, що одночасно є village і CDP, такі дублі прибиратиму на етапі транслітерації.
- Орієнтуватись потрібно на вітчизняні досягнення, йти протореними стежками тих, хто складає авторитетні джерела, якими повинні користуватись, згідно правил, редактори, а не торувати власні крізь хащі. Хоч останнє й веселіше. Замість із головою занурюватись в англо-саксонську звичаєву традицію з наскоку, можно скористатись власною континентальною системою, як це роблять брати по розуму — німці (населені пункти, з нечастими окремими підкатегоріями для окремих підтипів населених пунктів особливо поширених в тих, чи інших штатах), як це роблять росіяни (ділять на міста та села). Так безоглядно можна і штати на держави поперейменовувати та відповідно перекатегоризувати. Якщо не чіпати, то розумніше не чіпати нічого. Розберетесь чим гамлети від вілліджей у Нью-Йорку різняться, зробите пізніше відповідне розсортування з категорії населених пунктів штатів до відповідних підкатегорій.
- Щодо послідовності дій. Фактично я бачу з нашої дискусії два варіанти, як підступитися до цієї задачки:
- @Rar:, дякую.
Підхід + - (?) 1. Заливати усі типи НП по штатах з червоними посиланнями на дизамбіги 2. По факту завершення заливки НП пройтися і створити дизамбіги
Складіше відловити дизамбіги з «альтернативними» назвами. 1. Почати з дизамбігів 2. Заливати статті
Як бути з існуючими дизамбігами? В дізамбігах будуть червоними посилання на статті з альтернативними назвами, доки до них не дійде черга на створення/створення перенаправлення.
- Створив табличку, очікуючи, що буде багато +/- у кожного з варіантів. І не придумав
- З мого боку різниці в частині транслітерування немає. Транслітерую в єдиному списку, відсортованому за абеткою. Для однакових назв просто «протягую» основний варіант транслітерації і редиректи. Єдине — послідовність роботи. У першому випадку йтиму за штатами, у другому — за літерами. І там, і там мінімальний прогрес, поки лише тестував по суті організацію власної праці, є відповідно Делавер і літера A. --Thevolodymyr (обговорення) 11:07, 17 травня 2019 (UTC)
- Можна з township зробити містечко (town) за умови: є стаття з Infobox settlement і settlement_type=Town, такі випадки бачив. У решті випадків до дизамбігу і нав. шаблону вписати, але залишити червоним. Є ще дивні творіння типу List of Delaware Hundreds, Census county division, en:Hamlet (Oregon) - ці останні деколи є також CDP.
- От якраз у англо-саксонських країнах township це не urban, а найчастіше rural area. То про яке містечко може бути річ, якщо стаття українською нам розповідає що містечко... Звісно якщо це не суто технічне питання щодо використання тільки шаблону. Який не буде відносити такі поселення до урбанізованих. Бо в сільській місцевості США мешкає 20% населення держави і кількість відповідних населених пунктів, з огляду на чисельність окремих одиниць, повинна бути досить значною.--Dim Grits 15:30, 19 травня 2019 (UTC)
- Якщо почати з НП за штатами, то як визначати чи ставити посилання на дизамбіг коли його ще немає? Потрібен тоді загальний список планованих статей, а якщо список вже є, то мені простіше почати з дизамбігів. Та й менше небезпеки, що хтось прудкий перейменує "НП (штат)" на "НП", бо інших (ще) немає.--Rar (обговорення) 12:48, 17 травня 2019 (UTC)
- Забираю свої слова про township назад за винятком 2-3 штатів. Зробив табличку, якщо знаєте ще винятки, допишіть. Зчитування з шаблонів працює, треба тільки з класифікацією розібратися. Завтра працюватиму менш активно, але кілька разів загляну.--Rar (обговорення) 19:09, 17 травня 2019 (UTC)
- Можна з township зробити містечко (town) за умови: є стаття з Infobox settlement і settlement_type=Town, такі випадки бачив. У решті випадків до дизамбігу і нав. шаблону вписати, але залишити червоним. Є ще дивні творіння типу List of Delaware Hundreds, Census county division, en:Hamlet (Oregon) - ці останні деколи є також CDP.
Дизамбіги
[ред. код]@Thevolodymyr та Dim Grits: В мене кількості вийшли трохи інші, але подібні:
- 10211 City (1) - Каліфорнія теж тут
- 7789 Town (2) - з врахуванням Borough в Пенсильванії, Нью-Джерсі
- 9672 CDP (3)
- 4052 Village (4)
- 138 en:Charter township (5) - можливо варто прирівняти до (2)
Бот каже
- 19696 different titles
- 4251 internal disambs
- 31862 articles
Табличка виходить якась така. Це опрацьовано по 50 назв з початку, середини і кінця алфавітного списку і вибрані США-дизамбіги. Як і слід було чекати, найкраще у нас опрацьований початок. Чекатиму на зауваження, що треба доробити в табличці. Може й класифікація поволі викристалізується.
--Rar (обговорення) 20:34, 22 травня 2019 (UTC)
- @Rar: Я правильно розумію, що Вам для роботи з дизамбігами зручніше усього такий формат? Вам її считувати зручно буде? Можу спробувати нацькувати свого бота, аби запилив таку табличку. Пропоную потренуватися, скажімо, на «маленькій» Z. --Thevolodymyr (обговорення) 20:44, 22 травня 2019 (UTC)
- @Thevolodymyr: Формат читабельний. Я намагався максимально дати наявну картинку. Наприклад другий рядок показує, що en:Abbeville транслітеровано по різному, а дизамбіг транслітерований ще інакше - по французьки. Можу ще перевіряти наявність ru, bg статей. Якщо Вам буде зручніше можу також паралельно вивести в іншому форматі (оптимальний для мене Пайтон- чи якийсь-інший- список?). Як все вже зібрано у файлі, то ще раз прокрутити не проблема. "Z" в табличці вище є вся, можемо спробувати. --Rar (обговорення) 07:33, 23 травня 2019 (UTC)
- @Rar: Добре, дякую. Може, якщо час дозволить, то сьогодні спробую зробити. --Thevolodymyr (обговорення) 07:37, 23 травня 2019 (UTC)
- @Thevolodymyr: Формат читабельний. Я намагався максимально дати наявну картинку. Наприклад другий рядок показує, що en:Abbeville транслітеровано по різному, а дизамбіг транслітерований ще інакше - по французьки. Можу ще перевіряти наявність ru, bg статей. Якщо Вам буде зручніше можу також паралельно вивести в іншому форматі (оптимальний для мене Пайтон- чи якийсь-інший- список?). Як все вже зібрано у файлі, то ще раз прокрутити не проблема. "Z" в табличці вище є вся, можемо спробувати. --Rar (обговорення) 07:33, 23 травня 2019 (UTC)
@Rar: Вітаю! Можете конкретизувати ваше питання щодо дизамбігів. Ви потребуєте заповнення як от я зробив? Чи щось інше?
- Відразу повтор, раз мене пінгували й потребуєте як спеціалізованих знань, так і вікі-досвіду.
- Не потрібно змішувати тип населеного пункту з його адміністративним рангом. Потрібно подавати це через кому окремо.
- Узагальнено. Експертами ООН використовується поділ на постійні та тимчасові населені пункти. Перші поділяють на міські та сільські поселення; до другої групи потрапляє все, в залежності від країни, від традиційних кочів'їв до новітніх військових баз і наукових обсерваторій. Накласти ж «без втрат» одну національну систему означень на іншу неможливо. Потрібно відштовхуватись від вітчизняної, з уточненням через кому місцевим терміном.
- Щодо міського поселення. Не дуже розумію проблему. Вікіфікувати «містечко» для масової заливки населених пунктів США, це поширювати ОД. Використання в статтях мап, річок, світлин, рівноденників, копаних м'ячів придає історичного шарму мові, збагачує лексику, зберігає певний «мовний НТЗ» (бо українська мова, на відміну від держави, не є виключно правонаступницею мови Радянської України). Тільки не можна створювати штучну термінологію. Використовуйте тоді термін «міський населений пункт», або просто «місто». Через кому пояснення про місцеву термінологію. Принаймні не вікіфікуйте. Можна для зменшення помилок піти шляхом більшого узагальнення, усі cities & towns подавати як міста, інші — населеними пунктами. Зменшить автоматичні помилки із стотисячними вілліджами.
- Скоріше не транслітерація, а своєрідне транскрибування. Англомовні топоніми передають частіше через вимову. Звірятись можна через https://www.merriam-webster.com/dictionary/ Проте існує й традиційне написання багатьох топонімів. Це легше виправити пізніше й на цьому не зациклюватись.
- Адміністративний поділ вам відоміший набагато краще за мене.--Dim Grits 20:15, 23 травня 2019 (UTC)
Щодо мічиганських чартерних тауншипів. Подивився знайоме місто Kalamazoo і Kalamazoo Township, Michigan. Не знаю якого рівня це одиниці, но співвідносяться вони як наші міста в промислових районах. Місто обласного підпорядкування і однойменний район. У місті центр міськради і райради, проте саме місто до району не відноситься.--Dim Grits 20:15, 23 травня 2019 (UTC)
Потрібно робити перенаправлення для подвоєння літер з без такого. Це, мабуть, буде найпоширенішим різночитанням. --Dim Grits 20:43, 23 травня 2019 (UTC)
- Оті тауншипи пропуную для початку не чіпати взагалі. Скажімо en:Zeeland Charter Township, Michigan вочевидь протирічить описаному вище кейсу, оскільки тут однойменне місто входить до тауншипу. --Thevolodymyr (обговорення) 20:58, 23 травня 2019 (UTC)
- Мабуть так і зробимо. Ці два випадки дійсно різні. Подивився, що іспанці мають всі Townships і потрактували їх як муніципалітети: es:Categoría:Municipios de Estados Unidos. Може й нам варто так зробити, але пізніше. Схиляюся до того, що містом буде City завжди, а Town від 20 тис. населення (в Каліфорнії завжди?). А решта Населений пункт (англ.термін в дужках). В дизамбіках без дужок. --Rar (обговорення) 11:49, 24 травня 2019 (UTC)
@Rar: Доброго вечора. Навчив бота формувати табличку необхідного формату (приклад). Єдина відмінність від Вашого шаблону — у Примітках перелічую всі статті, а не лише наявні (так зручніше з огляду на наявність статей відмінних від стандартного формату Назва (Штат)). Ну й «підсвітку» залишив, яка сигналізує про наявні проблеми. У прикладі підсвічено випадок, коли дизамбіги в англійців і в нас не пов'язані на Вікіданих. --Thevolodymyr (обговорення) 17:53, 24 травня 2019 (UTC)
- @Thevolodymyr: Табличка ОК, підсвітка цілих рядків ботові не перешкаджатиме. Є лише питання чи у нас однакова база статей - я свою витягнув з навігаційних шаблонів.
- Я відволікся на збір даних до статей і дуже успішно. З котроїсь спроби вдалося витягнути з factfinder.census.gov практично всі дані потрібні до демографії, не доведеться парсити текст зі статей та й надійніше. Завтра візьмуся за створення дизамбігів, там ще є що робити. Треба заглядати в картку англійської статті (там є FIPS code потрібний до звязку к-стю населення в базі демографії), і обробити всі ситуації з присутніми/відсутніми/інакше названими/без інтервікі дизамбігами. У всіх стуаціях крім відсутнього планую кидати текст в робочий простір для ручного опрацювання.--Rar (обговорення) 08:56, 25 травня 2019 (UTC)
- @Rar: 1. Бази статей у нас різні. Я свою збирав по категоріях. Загальна кількість подібна: 31724 Ваших (без тауншипів) проти 31545 моїх. Але там, схоже, десь в мене щось пропущене, а десь, може, й у Вас. Можете зробити табличку з кількістю кожного типу НП за штатами? Подивлюся, де найбільші розбіжності.
- 2. У Вас є можливість сгенерувати повний перелік дизамбігів і закинути простим списком на якусь підсторінку (підсторінки)? За моїми підрахунками їх 4259. Буду звіряти зі своїм списком і робити таблички для ботозаливки дизамбігів. --Thevolodymyr (обговорення) 12:01, 25 травня 2019 (UTC)
- @Thevolodymyr: Зараз прокручу шаблони ще раз викидаючи Charter township і зроблю. А простий список то як? Зірка - лінк?--Rar (обговорення) 15:19, 25 травня 2019 (UTC)
- @Rar: Можна і зірка - лінк, а краще:
- @Thevolodymyr: Зараз прокручу шаблони ще раз викидаючи Charter township і зроблю. А простий список то як? Зірка - лінк?--Rar (обговорення) 15:19, 25 травня 2019 (UTC)
Zanesville (disambiguation)
Zebulon (disambiguation)
Zeeland (disambiguation)
Zena
Zion (disambiguation)
Zoar
- або
Zanesville (disambiguation) Zebulon (disambiguation) Zeeland (disambiguation) Zena Zion (disambiguation) Zoar
- --Thevolodymyr (обговорення) 17:52, 25 травня 2019 (UTC)
- @Thevolodymyr: Список 4250 дизамбігів на Вікіпедія:Проект:Адміністративні одиниці країн світу/США/Дизамбіги НП. На попередній версії сторінки те саме в лінках. Деколи англійського дизамбіга немає, там розділено ";". Причина різна, нп. Blue Eye дописані до en:Blue eyes (disambiguation), De Kalb до en:DeKalb. Заливатиму такі випадки в "Голубе Око (значення)" і на службову сторінку інфо про брак інтервікі.--Rar (обговорення) 18:38, 25 травня 2019 (UTC)
- @Rar: Дякую! Беру в роботу. Невеличкий офф-топ, не можу не поділитися населеним пунктом, який в українській транслітерації поки що мій фаворит . --Thevolodymyr (обговорення) 18:58, 25 травня 2019 (UTC)
- @Rar: Судячи з переліку дизамбігів, щонайменше котрийсь з en:Yatesville, Georgia і en:Yatesville, Pennsylvania від Вашого бота «заховався». Мабуть другий, який borough. --Thevolodymyr (обговорення) 14:45, 26 травня 2019 (UTC)
- @Thevolodymyr: Дякую, що звернули увагу, справді я погубив Пенсильванські і Нью-Джерські borough i township. ::::::: Але тепер різко зросла к-сть всього:
- 21433 different titles
- 4645 internal disambs
- 34723 articles
- Майже 3000 нових статей. Мушу перевірити.--Rar (обговорення) 15:46, 26 травня 2019 (UTC)
- Мабуть так і є, самих townships в Пенсильванії > 1500.--Rar (обговорення) 15:52, 26 травня 2019 (UTC)
- @Thevolodymyr: Дякую, що звернули увагу, справді я погубив Пенсильванські і Нью-Джерські borough i township. ::::::: Але тепер різко зросла к-сть всього:
- @Thevolodymyr: Список 4250 дизамбігів на Вікіпедія:Проект:Адміністративні одиниці країн світу/США/Дизамбіги НП. На попередній версії сторінки те саме в лінках. Деколи англійського дизамбіга немає, там розділено ";". Причина різна, нп. Blue Eye дописані до en:Blue eyes (disambiguation), De Kalb до en:DeKalb. Заливатиму такі випадки в "Голубе Око (значення)" і на службову сторінку інфо про брак інтервікі.--Rar (обговорення) 18:38, 25 травня 2019 (UTC)
- --Thevolodymyr (обговорення) 17:52, 25 травня 2019 (UTC)
Якось у мене не відклалося, що в нас ще якісь тауншипи лишилися у планах. Схоже, ми свої бази так ніколи не вирівняємо . --Thevolodymyr (обговорення) 17:44, 26 травня 2019 (UTC)
- @Thevolodymyr: Я думав, що у цій табличці заперечення стосуються тільки Мічигану. Прочитайте, будь ласка, статті про ті тауншипи двох воєводств і скажіть що думаєте. Варто залишати чи ні?--Rar (обговорення) 17:55, 26 травня 2019 (UTC)
- @Rar: Мабуть, це я вже починаю плутатися. Продивився декілька прикладів — з огляду на тисячі (а то й десятки тисяч) населення, а також десятки інтервік, вони однозначно значиміші за перепісні місцевості. Якщо Ви їх зможете посилити — варто робити. Підтягну до своєї БД.--Thevolodymyr (обговорення) 19:43, 26 травня 2019 (UTC)
- @Thevolodymyr: Розширений список дизамбігів на Користувач:Rar/Test 1, якщо приймаємо його то можна перенести на Вікіпедія:Проект:Адміністративні одиниці країн світу/США/Дизамбіги НП. Додані назви тут.--Rar (обговорення) 05:53, 27 травня 2019 (UTC)
- @Rar: Дякую. Заберу, покручу. Принагідно з'явився новий нюанс. В тауншипах багато назв на кшталт ХХХ Township, Округ, Штат. Як їх будемо іменувати? Питанння навіть не в перекладі самого тауншипа, а структурно? Відповідно, чи варто робити Adams і Adams Township двома окремими дизамбігами чи одним? Я схиляюся до того, аби одним. А у назві статті той «тауншип» взагалі не зазначати — ХХХ (Округ, Штат). Єдине — будуть випадки, коли в одному окрузі є однойменні боро і тауншип, ось там щось треба вигадати... --Thevolodymyr (обговорення) 06:37, 27 травня 2019 (UTC)
- @Thevolodymyr: Думаю в назві статті треба залишити ХХХ Тауншип, Округ, Штат - це частина офіційної назви, писана з великої. А дизамбіг робити тільки ХХX. Частина дизамбігів зникне, але можуть появитися нові якщо є один ХХХ Тауншип і одне ХХХ місто. В мене нюанс інший - моя база з FactFinder не має тауншипів. Спробую стягнути доповнення.--Rar (обговорення) 06:54, 27 травня 2019 (UTC)
- @Rar: Добре, спробую так зробити. Я тут, вливаючи тауншипи до БД, випадково залишив їм тип town, через це питання — у Вас не буде проблем через те, що для них у табличці для формування дизамбігів стоятиме код типу НП 2? --Thevolodymyr (обговорення) 09:04, 27 травня 2019 (UTC)
- @Thevolodymyr: Проблем не повинно бути. Я планую з таблички брати тільки транслітерацію дизамбіга. Переклад уточнювачів власне тестую, здається працює. --Rar (обговорення) 10:25, 27 травня 2019 (UTC)
- @Rar: Доброго дня. Я все рівно планую заповнювати усі поля таблички. Принаймні посилання на майбутні статті з уточненням округу у назві можуть згодитися. Ну то таке.
- Наразі (сподіваюся) завершив з літерою A. Дизамбігів під дві сотні. Виявлені розбіжності у наших БД:
- Відсутні у Вас:
- en:Anchorage (disambiguation) — мабуть через наявність «домінантно основного» значення.
- en:Arden — там купа дріб'язку, крім делаверського селища мій бот «зарахував» містечко у Техасі, одна людина, але ж town.
- en:Armagh (disambiguation) і en:Armenia (disambiguation) — схоже через пенсильванські тауншипи в обох випадках.
- Наче зайве у Вас: en:Aztec (disambiguation) — наче лише один НП у Нью-Мексико.
- --Thevolodymyr (обговорення) 13:37, 28 травня 2019 (UTC)
- @Rar: Добре, спробую так зробити. Я тут, вливаючи тауншипи до БД, випадково залишив їм тип town, через це питання — у Вас не буде проблем через те, що для них у табличці для формування дизамбігів стоятиме код типу НП 2? --Thevolodymyr (обговорення) 09:04, 27 травня 2019 (UTC)
- @Thevolodymyr: Розширений список дизамбігів на Користувач:Rar/Test 1, якщо приймаємо його то можна перенести на Вікіпедія:Проект:Адміністративні одиниці країн світу/США/Дизамбіги НП. Додані назви тут.--Rar (обговорення) 05:53, 27 травня 2019 (UTC)
- @Rar: Мабуть, це я вже починаю плутатися. Продивився декілька прикладів — з огляду на тисячі (а то й десятки тисяч) населення, а також десятки інтервік, вони однозначно значиміші за перепісні місцевості. Якщо Ви їх зможете посилити — варто робити. Підтягну до своєї БД.--Thevolodymyr (обговорення) 19:43, 26 травня 2019 (UTC)
@Thevolodymyr: Почну з "зайвого": є ще en:Aztec, Arizona, 47 осіб, але в базі є.
- Arden, Texas немає в жодній базі, в en:Template:Irion County, Texas, та й картки теж. Правдоподібно офіційного сттусу немає.
- Anchorage, Alaska загубив, не виключено, що на Алясці більше погубив.
- Armagh це моя недоробка, Armagh Township у мене є, але не переробив дизамбігошукач, тож це для нього 2 різні назви. Перероблю.
Пробний текст дизамбіга (повністю програмний):
== {{USA}} ==
- Каледонія — місто, штат Міннесота
- Каледонія — місто, штат Міссісіпі
- Каледонія — місто, штат Нью-Йорк
- Каледонія — місто, округ Колумбія, штат Вісконсин
- Каледонія — місто, округ Тремполо, штат Вісконсин
- Каледонія — місто, округ Вопака, штат Вісконсин
- Каледонія — переписна місцевість, штат Північна Дакота
- Каледонія — поселення, штат Іллінойс
- Каледонія — поселення, штат Мічиган
- Каледонія — поселення, штат Міссурі
- Каледонія — поселення, штат Нью-Йорк
- Каледонія — поселення, штат Огайо
- Каледонія — поселення, штат Вісконсин
Останнній пункт це village на 25000 населення, а три вищі Каледонія — місто, Вісконсин це towns на 5000 разом. Так що сортування тут ду-уже умовне.--Rar (обговорення) 16:16, 28 травня 2019 (UTC)
- @Rar: 1. Врахував у своїй БД та таблиці транслітерацій описані вище конкретні дизамбіги, а також «виловлені» завдяки підсвітці безпосередньо при попередньому перегляді таблиці з дизамбігами.
- 2. Я так розумію, Ви загалом готові приступати до дизамбігів? Зробив першу партію дизамбігів (першу літеру) для Вашого бота. З огляду на велику кількість «підсвіченого» розділив кольорами різні проблемні випадки. Продивіться, будь ласка, «рожеві» і «помаранчеві» рядки на предмет того, за якою логікою Ваш бот діятиме у кожному з випадків, там зустрічаються найрізноманітніші ситуації. --Thevolodymyr (обговорення) 14:04, 29 травня 2019 (UTC)
- @Thevolodymyr: Дякую за першу порцію назв. З текстом дизамбігів майже готовий, ще не вирішив що там вікіфікувати (округ, штат) і чи вживати називний чи місцевий відмінок.
- місто, округ Колумбія, штат Вісконсин
- місто в окрузі Колумбія, штат Вісконсин
- місто, округ Колумбія в штаті Вісконсин
- місто в окрузі Колумбія, Вісконсин
- Поселення чи населений пункт? І ще не брався за обробку нетривіальних ситуацій. По суті, то треба тільки вирішити яку інформацію виводити на робочу сторінку крім тексту дизамбіга. Подивлюся як буде з часом. Тестовий прохід зроблю на робочу сторінку.--Rar (обговорення) 15:59, 29 травня 2019 (UTC)
- @Rar: Щодо вікіфікації — я б робив. Щодо варіантів оформлення списку — будь-який краще за деякі вже існуючі, єдине, що уточнююче слово «штат», як на мене, не зайве. Ну й між «поселенням» і «населеним пунктом» я б обрав перший, адже місто є одним з типів населених пунктів, тож в одному списку очевидно ширше і очевидно вужче поняття виглядатимуть трохи дивно. Хоча, з іншого боку, місто є й типом поселення, утім, суто суб'єктивно, таке поєднання в одному списку не настільки ріже око. --Thevolodymyr (обговорення) 16:39, 29 травня 2019 (UTC)
- @Thevolodymyr: Пробна заливка на Користувач:RarBot/Test. За задумом
- "Каледонія" піде на робочу сторінку в такому власне вигляді,
- "Ааронсбург" піде в основний простір + під'єднання до вікідата
- "Еббівілл (значення)" піде в основний простір, але на робочу сторінку інформація про зайняте міжмовне посилання.
- Над цим задумом зараз працюю. Ще збираюся опрацювати (програмно) ситуацію з назвами зайнятими редиректами. Нп. Акрон перенаправляє на Акрон (Огайо), тож недоцільно робити Акрон (значення), треба переробити Акрон. Щоправда в інших статтях з'являться посилання на дизамбіг, може ризикну їх відразу ботом перелінкувати (у цьому випадку на Акрон (Огайо)). Якщо ж редирект буде зовнішній, то додатково в розділ "Інше" дизамбіга вставлю посилання на ціль редиректа. Ситуація з Екрон (має бути редирект на наш дизамбіг) теж не проста. Але краще зараз продумати ніж потім комусь в цьому руками розбиратися (ще гірше не розбиратися). --Rar (обговорення) 19:02, 31 травня 2019 (UTC)
- @Thevolodymyr: Пробна заливка на Користувач:RarBot/Test. За задумом
- @Rar: Щодо вікіфікації — я б робив. Щодо варіантів оформлення списку — будь-який краще за деякі вже існуючі, єдине, що уточнююче слово «штат», як на мене, не зайве. Ну й між «поселенням» і «населеним пунктом» я б обрав перший, адже місто є одним з типів населених пунктів, тож в одному списку очевидно ширше і очевидно вужче поняття виглядатимуть трохи дивно. Хоча, з іншого боку, місто є й типом поселення, утім, суто суб'єктивно, таке поєднання в одному списку не настільки ріже око. --Thevolodymyr (обговорення) 16:39, 29 травня 2019 (UTC)
- @Thevolodymyr: Дякую за першу порцію назв. З текстом дизамбігів майже готовий, ще не вирішив що там вікіфікувати (округ, штат) і чи вживати називний чи місцевий відмінок.
@Rar: Дякую. Добре б було дійсно завчасно в логіку бота накидати максимум можливих варіантів. Думаю, Ви бачили, але на всяк випадок — в Каледонія є посилання на округ США, мабуть логічно його «посунути» у відповідний новостворений блок. А в Аббевіль (значення) є вручну сформований список Еббівіллів. Чесно не знаю, чи місце йому там.
В мене поки що успіхи скромніші — борюся з C, якось сподівався, що жвавіше йтиме . --Thevolodymyr (обговорення) 20:48, 31 травня 2019 (UTC)
- @Thevolodymyr: Ніби працює: Еббівілл, Акрон, Ааронсбург. У перших двох випадках я там доробляв сторінки обговорення і інтервікі, остання "пішла сама". Здається коректно бот перелінкував зо два десятки сторінок (приклад). Для цих трьох випадків я параметри вводив вручну, читання таблички дороблю. Якщо Вам це спростить роботу, то не аналізуйте чи потрібно "(значення)", бот це, здається, навчився включно з надписуванням перенаправлень. Проблемні випадки бот тепер кідітиме на підсторінку проекту - сподіваюся знайдуться охочі це порозгрібати.
- Щодо транслітерації, то я підозрював, що буде тяжко - 20тис. назв це багато. При машинній транслітерації принаймні більшість приголосних була б на місці , з голосними тут дійсно варіативність величезна.--Rar (обговорення) 08:26, 1 червня 2019 (UTC)
- @Rar: Дякую, поки виглядає дуже непогано. Перевірку необхідності уточнення «(значення)» вже написав, так що навпаки — прибирати було б певним ускладненням . Спробую прискоритись з транслітерацією аби не бути «гальмом прогресу». Відпишіть, будь ласка, як зможете перейти на считування табличок дизамбігів, принаймі пару-тройку додаткових літер, сподіваюся, зможу на той час додати. --Thevolodymyr (обговорення) 08:42, 1 червня 2019 (UTC)
- @Thevolodymyr: Бот табличку читає, Ебботт вже пішов зі списку у вигляді
- @Rar: Дякую, поки виглядає дуже непогано. Перевірку необхідності уточнення «(значення)» вже написав, так що навпаки — прибирати було б певним ускладненням . Спробую прискоритись з транслітерацією аби не бути «гальмом прогресу». Відпишіть, будь ласка, як зможете перейти на считування табличок дизамбігів, принаймі пару-тройку додаткових літер, сподіваюся, зможу на той час додати. --Thevolodymyr (обговорення) 08:42, 1 червня 2019 (UTC)
[u"Abbott", u"Ебботт", [u"Абботт"], 2], [u"Aberdeen", u"Абердин", [u"Абердін"], 9], [u"Abilene", u"Абілін", [u"Ебілін"], 2], [u"Abingdon", u"Абінгдон", [u"Ебінгдон", u"Абінґдон"], 2],
- Останній елемент списку то кількість статей у дизамбігу, додам звірку зі своїм списком. Ще перевірю логіку програми і пущу бота на цілу літеру А. Скоріш за все завтра.--Rar (обговорення) 06:38, 2 червня 2019 (UTC)
@Rar: Доброго дня. Підготував загалом B. Прохання перевірити наступні назви (для яких я ані в автоматичному, ані в ручному режимі не знайшов більше одного «достойного» НП):
- en:Barclay
- en:Barnstable (наче місто і village у його межах)
- en:Bliss (en:Bliss, New York — редирект на town, до якого відноситься CDP)
- en:Bowdoinham (disambiguation)
Також почали зустрічатися англійські дизамбіги, які в україномвному варіанті зливаються в один: Berne (disambiguation)/Bern (disambiguation), Booneville/Boonville і т.д. Мабуть, ситуація також потребує окремої логіки формування дизамбігу в нас. --Thevolodymyr (обговорення) 15:15, 2 червня 2019 (UTC)
- @Thevolodymyr: Проблему зі злиттям зрозумів, буду додавати у всі дизамбіги перед списком
- англ. Booneville
- Перший Booneville/Boonville піде на сторінку дизамбіга, другий у робочий простір, треба буде руками перенести.
- Щодо списку не-дизамбігів:
- en:Barclay: 2 Barclay, Maryland; 3 Barclay, New Jersey (цього немає в англ. дизамбіку, як їм не а-я-яй)
- en:Barnstable (наче місто і village у його межах) - згоден, але тут проблема невелика, бот створив би дизамбіг, але (потім) не створив статті village, залишилось би червоне посилання.
- en:Bliss (en:Bliss, New York — редирект на town, до якого відноситься CDP)1 Bliss, Idaho; 3 Bliss, New York - обидва мають бути
- en:Bowdoinham (disambiguation) - найскладніший для заливки випадок. Одна англійська стаття, формально 2 одиниці (2 Bowdoinham, Maine - fips = 2306365; 3 Bowdoinham (CDP), Maine - fips = 2306330, Npop = 722), у статті вказаний перший код fips, в базі з якої братиму перепис - тільки другий. Поки ідей не маю як з цього вийти.
- Але, загалом, на мою думку, зараз не мусимо робити такої детальної перевірки. Якщо на цілу літеру "B" буде півтора зайвого дизамбіга, то не велика біда. Якщо ж зауважите відсутній у мене дизамбіг, то напишіть, я поповнюватиму список статей вручну (як Anchorage, Alaska)--Rar (обговорення) 08:04, 3 червня 2019 (UTC)
- "А" зроблено. Попідчищав трохи помилок коду. На ~190 сторінок понад 70 вимагають ручної роботи (кілька я підчистив вже). Це багато, далі сподіваюся буде менше - за "А" багато хто брався.--Rar (обговорення) 19:17, 3 червня 2019 (UTC)
- @Rar: Доброго вечора і поздоровляю з почином . Щодо відсутніх у Вас дизамбігів — то здебільшого це випадки, коли одна й та ж сама назва йде з "Тауншип" і без. То не біда, в моїй табличці вони додаються, тож не губляться. А ось, якщо щось з Вашого списку в моїх дизамбігах не знаходить - алярма і маю його туди додати або Ваш видалити. Тож в мене знову пара проблемних:
- Barnet (саме з однією t)
- Black Hawk (саме двома словами)
- Назагал емпіричним шляхом визначено, що Ваш бот через навбокси сформував повніший перелік НП ніж мій через категорії. Аби мінімізувати отаке копирсання в деталях, не могли б Ви експортувати свій перелік НП в csv і закинути на Google Drive? Тоді, починаючи з C, зможем працювати без отаких з'ясувань розбіжностей. З B по суті мені лишилося дадати собі оті два «проблемних» дизамбіги і зможу дати Вашому боту новий шмат роботи, цього разу сотні чотири виходить. --Thevolodymyr (обговорення) 21:03, 3 червня 2019 (UTC)
- @Thevolodymyr: Візьміть
першудругу половину тут.--Rar (обговорення) 12:34, 4 червня 2019 (UTC)- @Rar: Дякую за переліки. З ними справа трохи уповільнилася на моєму боці (сподіваюся, тимчасово), але, принаймі, вже нема потреби кожного разу Вас смикати . Закинув літеру B сюди. --Thevolodymyr (обговорення) 21:18, 4 червня 2019 (UTC)
- @Rar: Доброго дня. Третя літера готова. --Thevolodymyr (обговорення) 12:59, 6 червня 2019 (UTC)
- @Thevolodymyr: Дякую. Літеру B сьогодні планую закінчити. Якщо Вам не важко, повідомляйте мене про сторінки які є у Вашому списку, а немає в моєму (можна весь або перед кожною літерою). Сьогодні випадково помітив, що бот проскочив створення Біверкрік - CDP було загублене. --Rar (обговорення) 14:19, 6 червня 2019 (UTC)
- @Thevolodymyr: Візьміть
- @Rar: Доброго вечора і поздоровляю з почином . Щодо відсутніх у Вас дизамбігів — то здебільшого це випадки, коли одна й та ж сама назва йде з "Тауншип" і без. То не біда, в моїй табличці вони додаються, тож не губляться. А ось, якщо щось з Вашого списку в моїх дизамбігах не знаходить - алярма і маю його туди додати або Ваш видалити. Тож в мене знову пара проблемних:
@Rar:: Доброго дня. Відсутні у Вас дизамбіги з наступної літери:
Cable Caernarvon Caln Camp Hill Campbellton Carnegie Carneys Point Carson City Cass Castanea Centerport Centre Ceres Chalfant Chamberlain Cherry Cherry Hill Cherry Tree Chest Chippewa Clara Clarion Clintonville Clymer Coaldale Colerain College Collegeville Colonial Heights Concrete Conemaugh Conestoga Conewago Conewango Conneaut Connellsville Connoquenessing Conyngham Corsica Cranberry Cranbury Creekside Cresson Cross Creek Cross Roads
--Thevolodymyr (обговорення) 14:44, 6 червня 2019 (UTC)
- @Thevolodymyr: Аж злякався, що так багато, але це порівнюючи зі старим списком дизамбігів (там було трохи погублено). Перевірив перші чотири - будуть, думаю дальше більшість теж. Я мав на увазі список всіх англійських сторінок які є у Вас, а немає в моєму списку. Можна було б його переглянути і дописати істотні, тоді не буде розбіжностей ані на дизамбігах, ані на основній заливці.--Rar (обговорення) 15:13, 6 червня 2019 (UTC)
- @Rar: Наразі повного списку відмінностей в мене нема. Я роблю кожни літеру за своїм списком (туди підтягнуто за наявності транскрипцію, назву існуючої статті в нас та в росіян). Після цього додаю Ваш список, прибираю повтори і вручно дороблюю те, чого в мене не було. Відразу злити наші повні списки в мене на жаль не вийде — безкоштовне ПЗ таке безкоштовне — мій ЛібреОфіс при операціях з 30К рядків зависає намертво. --Thevolodymyr (обговорення) 15:22, 6 червня 2019 (UTC)
- @Thevolodymyr: А кинути частинами повний список (так як я робив зі своїм, можна меншими частинами) на робочу сторінку? Я б профільтрував Пайтоном. Це Calc зависає? Проблема може теж бути в кількості оперативної пам'яті комп'ютера.--Rar (обговорення) 15:35, 6 червня 2019 (UTC)
- @Rar: Так, Calc. Не думаю, що проблем в оперативці, 8ГБ для такої роботи з головою має вистачати. Встановив вчора ще ОпенОфіс, там жодних зависань, проте немає необхідної мені IFERROR , так що є нюанси... Свій повний список НП трохи згодом закину. --Thevolodymyr (обговорення) 15:44, 6 червня 2019 (UTC)
- @Rar: Доброго вечора. Список НП розбив на дві частини: раз і два. --Thevolodymyr (обговорення) 18:43, 6 червня 2019 (UTC)
- @Rar: Доброго дня. Я днями днів на десять можу зникнути (принаймі битиму себе по руках, якщо ті тягнутимуться до ноутбука ). Спробую до того ще трохи дизамбігів зробити. Ось літера D. --Thevolodymyr (обговорення) 08:18, 7 червня 2019 (UTC)
- @Thevolodymyr: Курс лікування від комп'ютерозалежності, розумію . Не поспішайте. Спочатку спробую вирівняти наші списки, потім продовжу дизамбіги. Якщо літери закінчаться то також відпочину. --Rar (обговорення) 09:35, 7 червня 2019 (UTC)
- @Thevolodymyr: А кинути частинами повний список (так як я робив зі своїм, можна меншими частинами) на робочу сторінку? Я б профільтрував Пайтоном. Це Calc зависає? Проблема може теж бути в кількості оперативної пам'яті комп'ютера.--Rar (обговорення) 15:35, 6 червня 2019 (UTC)
- @Rar: Наразі повного списку відмінностей в мене нема. Я роблю кожни літеру за своїм списком (туди підтягнуто за наявності транскрипцію, назву існуючої статті в нас та в росіян). Після цього додаю Ваш список, прибираю повтори і вручно дороблюю те, чого в мене не було. Відразу злити наші повні списки в мене на жаль не вийде — безкоштовне ПЗ таке безкоштовне — мій ЛібреОфіс при операціях з 30К рядків зависає намертво. --Thevolodymyr (обговорення) 15:22, 6 червня 2019 (UTC)
Вітаю! Відпочивайте, але, щоб не забути, Cedar Hills -> Сідар-Гілл, тут пропущена кінцівка с. Виправте у словничку, будь ласка, на майбутнє.--Rar (обговорення) 14:06, 12 червня 2019 (UTC)
- І ще пара Чемплен - Шамплейн (значення). Друге то якась мішана fr-en транскрипція. Буду тут дописувати щоб не погубити.
- Чикесо - Чикасо (є округи)
- Коламбус - Колумбус (вже є міста з обома варіантами. Об'єднати дизамбіги?)
- Коневаго (англ. Conewango) - пропущена літера Н ?
- Крофорд - Кроуфорд (є округи)
- Кашінг - Кушинг (тут є дві особи)
- Дубойз - перейменувати Дюбуа (Айдахо)?
- Дауні - Давні (обидва міста з "в" є)
--Rar (обговорення) 14:26, 12 червня 2019 (UTC)
- @Rar: Доброго дня. Трохи відпочив, дякую. Зручно, коли є країни, в яких Вікіпедія у принципі заблокована, і силу волі випробувати не треба . Лише декілька разів не втримався і через робочий VPN щось підправити. По Вашому списку:
- Cedar Hills — дякую, виправив.
- Champlain — насправді правильним є отой вже існуючий «покруч» Шамплейн (значення). У себе виправив. Я автоматом перевіряю наявність транскриприції лише у статтях про НП, а в цьому випадку є en:Lake Champlain, де зазначена саме така «міжмовна» транскрипція.
- Chickasaw — не знаю, як вчинити. Згідно транскрипції у статті про відповідне плем'я, саме Чикесо (/ˈtʃɪkəsɔː/).
- Columbus — однозначно треба об'єднувати в один дизамбіг, але який? Я тяжію до слідування оригінальній вимові, але тут є чинник певної усталеності передачі англомовних назв, похідних від Колумба (насамперед округ). На сторінці обговорення найбільшого Кол(а/у)мбуса є навіть дискусія, щоправда 13-річної давнини.
- Conewango — дякую, у себе виправив.
- Crawford — у craw того у й близько нема. Але може воно усталилося? Принаймні Сінді попри наявну у статті транскрипцію, саме Кроуфорд...
- Cushing — схоже, попри невідповідність вимові, через лікаря і названі на його честь хворобу/синдром усталилося. У себе виправив.
- DuBois/Dubois — таки, думаю варто перейменувати. Англомовний варіант, схоже, витіснив оригінальну вимову (є транскрипція в en:DuBois, Pennsylvania), та й у нас вже встиг з'явитися Дубойз (Вайомінг).
- --Thevolodymyr (обговорення) 14:11, 19 червня 2019 (UTC)
- @Thevolodymyr: З поверненням! Поїздки до країн з заблокованою Вікіпедією також не завжди безпечні . Я залив літери A-D. Трохи проблема з кількістю дизамбігів які вимагають ручної роботи. Я спочатку пінганув користувачів які висловлювали зацікавленість, але "зникло" лише кілька десятків назв. Написав у Кнайпу, але тут відгук нульовий. Буду помаленьку розгрібати. Щодо назв, то найважливіше, щоб обраний варіант залишився в словнику і потім не було різниці з назвами статей про НП. --Rar (обговорення) 09:37, 21 червня 2019 (UTC)
- @Rar: В мене E готове. Закидати? --Thevolodymyr (обговорення) 09:45, 21 червня 2019 (UTC)
- @Thevolodymyr: Закидайте.--Rar (обговорення) 10:04, 21 червня 2019 (UTC)
- @Rar: Прошу, Вікіпедія:Проект:Адміністративні одиниці країн світу/США/Дизамбіги E. --Thevolodymyr (обговорення) 11:57, 21 червня 2019 (UTC)
- @Rar: Поки було натхнення відразу Вікіпедія:Проект:Адміністративні одиниці країн світу/США/Дизамбіги F. --Thevolodymyr (обговорення) 14:14, 21 червня 2019 (UTC)
- @Rar: Помітив невеличку багу — Ваш бот некоректно обробляє екзотичні випадки, коли назва НП йде без уточнення штату: [[Даллас ()|Даллас]]. --Thevolodymyr (обговорення) 14:58, 21 червня 2019 (UTC)
- @Thevolodymyr: Дійсно, додам перевірку на попрожність уточнення. Ще одна складна транскрипція: Орора - Аурора--Rar (обговорення) 15:25, 21 червня 2019 (UTC)
- @Thevolodymyr: Закидайте.--Rar (обговорення) 10:04, 21 червня 2019 (UTC)
- @Rar: В мене E готове. Закидати? --Thevolodymyr (обговорення) 09:45, 21 червня 2019 (UTC)
- @Thevolodymyr: З поверненням! Поїздки до країн з заблокованою Вікіпедією також не завжди безпечні . Я залив літери A-D. Трохи проблема з кількістю дизамбігів які вимагають ручної роботи. Я спочатку пінганув користувачів які висловлювали зацікавленість, але "зникло" лише кілька десятків назв. Написав у Кнайпу, але тут відгук нульовий. Буду помаленьку розгрібати. Щодо назв, то найважливіше, щоб обраний варіант залишився в словнику і потім не було різниці з назвами статей про НП. --Rar (обговорення) 09:37, 21 червня 2019 (UTC)
@Rar: Вітаю. Трохи пройшовся проблемними дизамбігами, переполовинив список. Наразі там значна частина випадків, коли у варіантах перенаправлень я пропустив той, під яким вже існує дизамбіг. Тут необхідно, думаю, один з варіантів видаляти з перенаправленням, а зміст об'єднуати. Аби це зробити найбільш ефективним, бажано залучити когось з адмінів. Чи достатньо, скажімо, створену Вашим ботом статтю змінювати на редирект. Як думаєте? --Thevolodymyr (обговорення) 20:49, 23 червня 2019 (UTC)
- @Thevolodymyr: Можливі (є) різні випадки:
- Є дизамбіг "Х (значення)" і редирект на нього з "Х". Мій бот запише новий текст в Х і посилання на "Х (значення)" як див.також. На мою думку,якщо ще не створено статті "Х", то немає головного значення і весь редирект треба об'єднати в "Х". Думаю, немає сенсу робити це "правильно і з адміном": видаляти Х, перейменовувати Х (значення), доповнювати США - редиректом. Нашвидкоруч, звичайно історія змін залишиться в редиректі, але дизамбіги то не той випадок коли історія є дуже важливою. Я кілька випадків так зробив (змінивши також вікідані) і мене ще не побили.
- Транслітерації різняться (Ваша "АВ" і стара "АС") і Ви впевнені, що Ваша правильна - я б робив так як у попередньому випадку. Тут питання чи відразу перейменовувати "АС (Алабама)"?
- Транслітерації різняться (Ваша "АВ" і стара "АС"), але Ви погоджуєтесь зі старою (усталена,...) Тоді, звичайно, переносити в старий і робити редирект з нового. Бажано перенести СО - бот вставляє туди шаблон проекту.
- Обидві правильні, бо одна французька, інша англійська - залишати обидва з Див.також навхрест. Не буде до чого підчепитися на вікіданих, хіба що в російській/болгарській подібна ситуація.
- Мабуть можливі ще інші випадки (на жаль).--Rar (обговорення) 17:56, 24 червня 2019 (UTC)
- @Rar: Дякую. Я десь так і роблю. Поки йду рандомно і шляхом найменшого спротиву, лишаючи неоднозначні варіанти. Побачимо, що залишиться у сухому залишку. Thevolodymyr (обговорення) 18:42, 24 червня 2019 (UTC)
- @Thevolodymyr: Вітаю! Чи літеру G можна брати в роботу?--Rar (обговорення) 17:00, 25 червня 2019 (UTC)
- @Rar: Доброго вечора. Так, G, H та I готові. Я ж правильно розумію, що якщо дизамбіг існує під назвою, яку я відніс до редиректів, то бот його не створює, а закидає до «проблемних» (дизамбіг існує)? Просто підійшли до Г/Ґ, де такого буде доволі. --Thevolodymyr (обговорення) 19:17, 25 червня 2019 (UTC)
- @Thevolodymyr: Доброго ранку, займуся цими літерами. Дякую за велику роботу при проблемних дизамбігах.
- Бот не створює дизамбіга лише у двох випадках: 1) є дизамбіг Х, 2) є стаття Х та дизамбіг Х (значення). Текст дизамбіга іде до проблемних. До проблемних, але без тексту, ідуть також випадки неясностей з інтевікі, дизамбіг при цьому створюється - це може, хоч не мусить бути випадок з дизамбігом в пропонованому редиректі. Дизамбіг створюється навіть якщо Х є редиректом, всі посилання на Х попередньо перелінковуються на ціль редиректа, ціль додається до Див.також.--Rar (обговорення) 05:20, 26 червня 2019 (UTC)
- @Thevolodymyr: Вітаю, чи J, K можна заливати? Наступного тижня я зникну на 2 дні (десь вівторок-четвер).--Rar (обговорення) 05:07, 29 червня 2019 (UTC)
- @Rar: Доброго вечора. Так. У принципі всі літери, які закидаю, можна вважати готовими. До вівторка може ще парочку встигну. --Thevolodymyr (обговорення) 15:21, 29 червня 2019 (UTC)
- @Thevolodymyr: Вітаю, чи J, K можна заливати? Наступного тижня я зникну на 2 дні (десь вівторок-четвер).--Rar (обговорення) 05:07, 29 червня 2019 (UTC)
- @Rar: Доброго вечора. Так, G, H та I готові. Я ж правильно розумію, що якщо дизамбіг існує під назвою, яку я відніс до редиректів, то бот його не створює, а закидає до «проблемних» (дизамбіг існує)? Просто підійшли до Г/Ґ, де такого буде доволі. --Thevolodymyr (обговорення) 19:17, 25 червня 2019 (UTC)
- @Thevolodymyr: Вітаю! Чи літеру G можна брати в роботу?--Rar (обговорення) 17:00, 25 червня 2019 (UTC)
- @Rar: Дякую. Я десь так і роблю. Поки йду рандомно і шляхом найменшого спротиву, лишаючи неоднозначні варіанти. Побачимо, що залишиться у сухому залишку. Thevolodymyr (обговорення) 18:42, 24 червня 2019 (UTC)
@Thevolodymyr: Доброго ранку, я тут побачив у нас (укрвікі) великий різнобій в транслітерування McSomething, нп.:
- Маккензі, МакКензі (Алабама)
- МакНері, Макнері, Мак-Нері (Аризона) (останнє це перейменування Агонка з посиланням на правопис)
Мабуть треба це якось "уодноманітнити", поперейменовувати. Можливо обговорити в ширшому колі, щоб не було перейменувань назад.--Rar (обговорення) 07:25, 2 липня 2019 (UTC)
- @Rar: Доброго ранку. Наскільки пам'ятаю, років десять тому регулярно виникали дискусії щодо цього питання в обговореннях конкретних статей, а згодом поступово вщухло. Зараз не згадаю, після якої з них в мене склалося враження, що консенсусом стало Макх, відтоді створив десятки статей про «шотландців» саме з таким написанням, жодного разу спроб перейменування не було. До того ж, орієнтуючись на «взірцеві», тобто добрі статті, там в обох випадках саме так (Стюарт Макколл і Пол Маккартні).
- Щоправда параграф, в якому до купи зводяться Saint-X, San X і McX і на який посилалися адепти Мак-Х, змінив нумерацію, ставши §146, але безболісно переїхав до цьогорічного правопису. Тобто безумовно привід для широкої дискусії є, але це ж не на один місяць забавка і, якщо, Боже збав, буде досягнутий формальний консенсус, то перейменуванню підлягатимуть сотні або тисячі статей, + згадки по тексту + посилання в навігаційних шаблонах. Не певен, що воно того варте. До прикладу, якби раніше остаточно перемогла котрась з фракцій G=Ґ або G=Г, і була проведена аналогічна титанічна робота з уніфікації, новий правопис з його прямо прописаним «можно так, а можно й сяк» просто перетворив би ті сотні людино-годин марудної праці в ніщо.
- Тож я за збереження статус-кво, коли існують різні варіанти. Адже преамбула до цьогорічного правопису дещо пафосно, але слушно зазначає «Варіативність — це органічна частина правописного кодексу і тією чи іншою мірою вона притаманна кожній мові на різних етапах її історичного розвитку. Відповідь на те, який з варіантів залишиться в минулому, зможе дати лише майбутнє.» --Thevolodymyr (обговорення) 08:28, 2 липня 2019 (UTC)
Типи НП
[ред. код]@Rar та Dim Grits: Вирішив винести в окрему тему питання, як називати різні типи НП. Адже з цим треба визначитися вже на етапі роботи з дизамбігами, адже є en:Alburgh (town), Vermont vs en:Alburgh (village), Vermont і достатньо подібного. До того ж наявність en:Amsterdam (city), New York vs en:Amsterdam (town), New York і багатьох подібних випадків вимагає аби city і town все ж якось однозначно розділялися. --Thevolodymyr (обговорення) 10:35, 26 травня 2019 (UTC)
- Якщо не вводити нові терміни (віллидж) та відмовитись від терміну містечко, то вирішити це системно не вдасться. Щоб не зациклюватись, пропоную зробити ці і подібні випадки винятками
- Амстердам (місто, Вермонт) - city
- Амстердам (поселення, Вермонт) - town
- Албург (місто, Нью-Йорк) - town (є Албург)
- Албург (поселення, Нью-Йорк) - village
- Знаю, це не послідовно, може спільнота пізніше придумає кращий вихід.--Rar (обговорення) 13:06, 26 травня 2019 (UTC)
- @Rar та Thevolodymyr: Жодним чином не вимагає саме в цьому випадку, бо ньюйоркські тауни, то тауншипи. Навіщо зупинятись на автоматизації саме 20 складних відсотків, якщо інші 80 не викликають таких складнощів. Робота бота все одно залишиться роботою автомата до тих пір, поки не потрапить до рук людини. Безвідносно до якості того продукту. Не про те потрібно бентежитись, який відсоток буде помилок, а про те, чи будуть вони системні (значить буде можливість системно виправити) та чи буде ресурс на виправлення безсистемних. Головне, не відносна та абсолютна кількість усіх помилок до коректних записів, а внутрішнє співвідношення між цими двома категоріями помилок. То вже малозначимі нюанси, як хтось вирішить проблеми із Зіонами, навіть якщо зовсім інакше ніж те зробив Rar з Албургом вище.
- Щодо типологізації, то використовуйте звичайне знаряддя будь-якого класифікатора — наближення (на якому зупинятись, то вже справа необхідності та можливостей).
- У першому наближенні — просто населений пункт.
- У другому — міський(-е), чи сільський(-е) населений пункт(поселення).
- У третьому — більш детальну класифікацію міських та сільських типів поселень.
- На етапі, коли виникають гносеологічні труднощі, змістіть фокус конкретизації. В нашому випадку, якщо сіті та тауни (за виключенням Нью-Йорку, можливо, інших штатів) мають усталений вітчизняний відповідник «місто», то використовуємо його. Якщо для чогось маємо розбіжності, брак відповідників, взагалі знань про об’єкт — використовуємо ширшу, більш загальну категорію «населений пункт». Це в наведених мною прикладах після тире та до першої коми. Далі — наводимо американський вікіфікований термін (читач(інші редактори) завжди зможуть за потреби(за можливостей) уточнити інформацію для себе(для інших)). Після — адміністративний ранг з посиланнями вже на відповідні статті про адмінустрій штатів. За такого підходу достовірність не втратить ні йоти.
- Нічого не вигадувати від себе та оминати писати про те, чого не розумієш. Це простий принцип, що полегшує роботу не тільки у Вікіпедії, не тільки собі, але й іншим.--Dim Grits 10:57, 1 червня 2019 (UTC)
- Теоретично все правильно, але не зрозумів чи Ви маєте якісь заперечення відносно назв вище, чи ні. В назву мабуть англійського відповідника включати мабуть не будемо. І чи Ви пропонуєте ботом залити тільки 80 "простих відсотків" НП, а решту залишити? --Rar (обговорення) 12:11, 1 червня 2019 (UTC)
- @Rar та Thevolodymyr: Жодним чином не вимагає саме в цьому випадку, бо ньюйоркські тауни, то тауншипи. Навіщо зупинятись на автоматизації саме 20 складних відсотків, якщо інші 80 не викликають таких складнощів. Робота бота все одно залишиться роботою автомата до тих пір, поки не потрапить до рук людини. Безвідносно до якості того продукту. Не про те потрібно бентежитись, який відсоток буде помилок, а про те, чи будуть вони системні (значить буде можливість системно виправити) та чи буде ресурс на виправлення безсистемних. Головне, не відносна та абсолютна кількість усіх помилок до коректних записів, а внутрішнє співвідношення між цими двома категоріями помилок. То вже малозначимі нюанси, як хтось вирішить проблеми із Зіонами, навіть якщо зовсім інакше ніж те зробив Rar з Албургом вище.
@Rar: Доброго ранку. Все ж таки перекладати і таун, і сіті як місто не ідеальний варіант. Бо дизамбіг Платтсбург, до прикладу, вигладає дивно. --Thevolodymyr (обговорення) 06:33, 9 липня 2019 (UTC)
- @Rar та Thevolodymyr: Доброго ранку. Згоден, що не ідеальний, але таких випадків буде кілька-кільканадцять, треба буде додавати винятки в переклад назв. Я вже мав u'Amsterdam (town), New York': u'Амстердам (поселення, Нью-Йорк)' , додав Платтсбург, думаю були випадки які поховалися у великих дизамбігах, появляться в основній заливці. Можливо в текст всіх статей треба буде додавати (city/town), щоб було ясно про місто чи "мале місто" мова.
- Я перекинув для Вас дизамбіги Проблеми 2 -- > Проблеми, щоб не провокувати конфлікт редагувань з ботом.--Rar (обговорення) 06:53, 9 липня 2019 (UTC)
Пост-дизамбіг
[ред. код]@Rar: Доброго дня. Дизамбіги наче все. Я потроху перекладаю «одинаків». Які подальші плани? Я так розумію, у Вас зараз великий шмат роботи з безпосередньо коду для формування бото-статей. Це, мабуть, не дуже щвидко? Як потім йтимемо, теж за алфавітом чи за штатами? Хочу свою частину роботи побудувати відповідним чином. --Thevolodymyr (обговорення) 14:14, 18 липня 2019 (UTC)
- @Thevolodymyr: Доброго дня, з дизамбігами дійсно все. Роботу з формування тексту я закинув поки були дизамбіги, доведеться згадувати що вже зробив (хто б то код для власного вжитку добре коментував ). Ще є проблемка, що 25.07-05.08 я буду практично відсутній, постараюсь до того часу код підтягнути, але заливку, мабуть, вже після. Мені зручніше заливати штатами, не буде проблем з навігаційними шаблонами. Алфавітно теж можна, шаблони треба буде потім додавати. Якщо Вам так простіше, я не заперечую.--Rar (обговорення) 16:17, 18 липня 2019 (UTC)
- @Rar: Може тоді давайте орієнтуватися на серпень? Ви до відпустки без поспіху код бота згадаєте/доробите, а я до Вашого повернення спробую усі назви перекласти. Бо дійсно йти штатами логічніше, а ось перекладати мені проостіше за абеткою. Тож в іделі мати вже все перекладеним і «нарізати» звідти штати. --Thevolodymyr (обговорення) 16:28, 18 липня 2019 (UTC)
- П.С. Для тестування бота тут є на основній сторінці увесь Делавер. Принагідно може будуть зауваження/побажання до формату передавання перекладу.